執行 #70

Anthony's testing (bulk R1) → production-canary (canary)

狀態
已完成
案例
11
開始時間
16 May 11:14
耗時
382.3s
¶ Economics · Bot-side N=11 attempts

Cost & Tokens

$0.0433
Total Bot Cost · USD
23.2%
Prompt Cache Hit
cost per case
$0.0039
cost per 1k tokens
$0.0019
input tokens
22,023
output tokens
865
cached tokens — prompt-cache hit
5,120
Total Tokens
22,888
economic efficiency
cost per correct
$0.0030
pass rate
18.2%
2 / 11
judge cost
$0.006
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 22f3fa00-9a05-4505-a8bd-516ae9b2a77c 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:b6fd48eb AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
11 / 11
錯誤
0
失敗維度
0
首字延遲 p95
20406 ms
Bot 成本(Neptune)
$0.0433
Bot Tokens(Neptune)
22,888
Judge 成本(Eris)
$0.0060
Judge Tokens(Eris)
49,518
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
41.0%
[32.0% – 51.3%] · n=10
10 / 10 適用
  • 案例 684B51FD

    請問如何查詢某個產品的型號跟代碼?

    已完成
    第 1 次嘗試 · 已完成 23934ms

    載入詳情中…

  • 案例 7A85C901

    請問如何找到你們的髮片資訊呢?

    已完成
    第 1 次嘗試 · 已完成 17783ms

    載入詳情中…

  • 案例 B179B73A

    你們可以查詢什麼資訊?

    已完成
    第 1 次嘗試 · 已完成 27401ms

    載入詳情中…

  • 案例 A7CD96BC

    知識與產品查詢是什麼啊

    已完成
    第 1 次嘗試 · 已完成 17526ms

    載入詳情中…

  • 案例 D4C2D3E8

    進階統一搜尋是什麼?

    已完成
    第 1 次嘗試 · 已完成 27519ms

    載入詳情中…

  • 案例 36FC4AD4

    有沒有髮片推薦?

    已完成
    第 1 次嘗試 · 已完成 27695ms

    載入詳情中…

  • 案例 4778B4CB

    這個統一搜尋工具到底是做什麼的?

    已完成
    第 1 次嘗試 · 已完成 19418ms

    載入詳情中…

  • 案例 57B12B6A

    有關產品資訊可以查什麼?

    已完成
    第 1 次嘗試 · 已完成 32039ms

    載入詳情中…

  • 案例 F5FD977F

    你們有提供什麼商品的資訊嗎

    已完成
    第 1 次嘗試 · 已完成 30083ms

    載入詳情中…

  • 案例 2DF3F6C5

    請問如何查詢你們的產品資訊?

    已完成
    第 1 次嘗試 · 已完成 23548ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 1 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
1 / 1 適用
答得到位 平均
answer_quality
26.7%
1 / 1 適用
  • 案例 28EEED3F

    請問要怎麼轉接真人客服呢?

    已完成
    第 1 次嘗試 · 已完成 20065ms

    載入詳情中…