執行 #427

測試型 (bulk R1) → production-baseline

狀態
已完成
案例
16
開始時間
16 May 14:00
耗時
189.8s
¶ Economics · Bot-side N=16 attempts

Cost & Tokens

$0.0818
Total Bot Cost · USD
38.1%
Prompt Cache Hit
cost per case
$0.0051
cost per 1k tokens
$0.0016
input tokens
51,792
output tokens
978
cached tokens — prompt-cache hit
19,712
Total Tokens
52,770
economic efficiency
cost per correct
$0.0014
pass rate
43.8%
7 / 16
judge cost
$0.0101
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 83d6a51a-8194-407f-94b2-85326f27a0b7 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:a2696ae5 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
16 / 16
錯誤
0
失敗維度
0
首字延遲 p95
4849 ms
Bot 成本(Neptune)
$0.0818
Bot Tokens(Neptune)
52,770
Judge 成本(Eris)
$0.0101
Judge Tokens(Eris)
83,853
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
90.0%
[70.0% – 100.0%] · n=10
F1 66.7% · 召回 90.0% · 精確 55.0%
10 / 10 適用
用對工具 召回
tool_usage
40.0%
[0.0% – 80.0%] · n=5
F1 40.0% · 召回 40.0% · 精確 40.0%
5 / 10 適用
答得到位 平均
answer_quality
53.0%
[40.7% – 64.3%] · n=10
10 / 10 適用
  • 案例 F9B86090

    我可以查詢我的訂單狀態嗎?

    已完成
    第 1 次嘗試 · 已完成 9064ms

    載入詳情中…

  • 案例 514D4746

    我想要退貨,該怎麼做呢?

    已完成
    第 1 次嘗試 · 已完成 14525ms

    載入詳情中…

  • 案例 47A1A225

    請問目前有什麼活動或優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 8975ms

    載入詳情中…

  • 案例 54102086

    我想退貨,訂單編號是 TS100001,怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 9198ms

    載入詳情中…

  • 案例 F77DFF24

    多少算是短查詢?

    已完成
    第 1 次嘗試 · 已完成 16182ms

    載入詳情中…

  • 案例 7CB8A920

    我的訂單怎麼退貨?

    已完成
    第 1 次嘗試 · 已完成 16047ms

    載入詳情中…

  • 案例 E7574248

    我的訂單編號是: TS100001,可以幫我查一下退貨的狀態嗎

    已完成
    第 1 次嘗試 · 已完成 23671ms

    載入詳情中…

  • 案例 A5704905

    我的訂單狀態是什麼?

    已完成
    第 1 次嘗試 · 已完成 13155ms

    載入詳情中…

  • 案例 728F4C64

    退貨的流程是怎樣的?

    已完成
    第 1 次嘗試 · 已完成 18123ms

    載入詳情中…

  • 案例 849ADD75

    請問我可以查詢特定訂單的詳細資訊或運送狀態嗎?

    已完成
    第 1 次嘗試 · 已完成 17328ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 6 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=3
6 / 6 適用
答得到位 平均
answer_quality
58.9%
[46.7% – 70.6%] · n=6
6 / 6 適用
  • 案例 09D6DB20

    我可以要求轉接至人類客服嗎

    已完成
    第 1 次嘗試 · 已完成 9695ms

    載入詳情中…

  • 案例 60FF4A28

    如果找不到我的訂單,怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 22119ms

    載入詳情中…

  • 案例 0448B632

    請問退貨時需要提供哪些資訊呢?

    已完成
    第 1 次嘗試 · 已完成 24467ms

    載入詳情中…

  • 案例 50F07A2D

    轉接真人客服的回覆是什麼?

    已完成
    第 1 次嘗試 · 已完成 9150ms

    載入詳情中…

  • 案例 C563342A

    有沒有查詢產品的方式?

    已完成
    第 1 次嘗試 · 已完成 7863ms

    載入詳情中…

  • 案例 8F0E9B28

    可以用什麼方式獲取完整的對話內容?

    已完成
    第 1 次嘗試 · 已完成 17825ms

    載入詳情中…