執行 #196

Omnichat 測試 (bulk R1) → production-canary (canary)

狀態
已完成
案例
17
開始時間
16 May 12:12
耗時
1000.9s
¶ Economics · Bot-side N=17 attempts

Cost & Tokens

$0.0533
Total Bot Cost · USD
85.3%
Prompt Cache Hit
cost per case
$0.0031
cost per 1k tokens
$0.0008
input tokens
63,057
output tokens
984
cached tokens — prompt-cache hit
53,760
Total Tokens
64,041
economic efficiency
cost per correct
$0.0019
pass rate
35.3%
6 / 17
judge cost
$0.0113
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • f1f999dc-3750-402b-aac5-0b0af5aed0f4 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:dd5949fa AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
17 / 17
錯誤
0
失敗維度
0
首字延遲 p95
9430 ms
Bot 成本(Neptune)
$0.0533
Bot Tokens(Neptune)
64,041
Judge 成本(Eris)
$0.0113
Judge Tokens(Eris)
92,628
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
80.0%
[50.0% – 100.0%] · n=10
F1 73.3% · 召回 80.0% · 精確 70.0%
10 / 10 適用
用對工具 召回
tool_usage
60.0%
[30.0% – 90.0%] · n=10
F1 60.0% · 召回 60.0% · 精確 60.0%
10 / 10 適用
答得到位 平均
answer_quality
55.7%
[42.7% – 68.0%] · n=10
10 / 10 適用
  • 案例 FA07A686

    這個髮片要怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 11254ms

    載入詳情中…

  • 案例 FC7E5C47

    請問這款髮片的價格是多少呢?

    已完成
    第 1 次嘗試 · 已完成 14784ms

    載入詳情中…

  • 案例 615295B1

    請問我可以查詢我的訂單狀態嗎?

    已完成
    第 1 次嘗試 · 已完成 38135ms

    載入詳情中…

  • 案例 4623F547

    產品的維護和保養是怎麼樣的?

    已完成
    第 1 次嘗試 · 已完成 20662ms

    載入詳情中…

  • 案例 8E92F071

    你們現在有什麼促銷活動嗎?

    已完成
    第 1 次嘗試 · 已完成 27841ms

    載入詳情中…

  • 案例 C728BB17

    如果查不到我的訂單,會怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 28338ms

    載入詳情中…

  • 案例 5330FD9D

    我的訂單狀態怎麼樣?

    已完成
    第 1 次嘗試 · 已完成 19944ms

    載入詳情中…

  • 案例 4BD3464D

    我想查詢一下我的訂單狀態,請問需要提供哪些個人資訊呢?

    已完成
    第 1 次嘗試 · 已完成 28077ms

    載入詳情中…

  • 案例 87581655

    我的訂單查詢會不會把相似的訂單合併回覆?

    已完成
    第 1 次嘗試 · 已完成 24074ms

    載入詳情中…

  • 案例 F50907CA

    有沒有最新的活動資訊?

    已完成
    第 1 次嘗試 · 已完成 17016ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 7 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=3
7 / 7 適用
答得到位 平均
answer_quality
44.8%
[30.5% – 58.1%] · n=7
7 / 7 適用
  • 案例 E37B9817

    請問電商訂單搜尋是怎麼格式化的呢?

    已完成
    第 1 次嘗試 · 已完成 26967ms

    載入詳情中…

  • 案例 965500A5

    請問什麼情況下可以轉接真人客服?

    已完成
    第 1 次嘗試 · 已完成 24105ms

    載入詳情中…

  • 案例 7F16A831

    統一搜尋要生成什麼關鍵字?

    已完成
    第 1 次嘗試 · 已完成 16721ms

    載入詳情中…

  • 案例 04798A79

    你們的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 30935ms

    載入詳情中…

  • 案例 81F852DB

    可以查詢之前的對話記錄嗎?

    已完成
    第 1 次嘗試 · 已完成 28115ms

    載入詳情中…

  • 案例 ADE720C1

    如果找不到我的訂單怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 20112ms

    載入詳情中…

  • 案例 44F5A5D8

    要怎麼轉接人類客服?

    已完成
    第 1 次嘗試 · 已完成 27457ms

    載入詳情中…