執行 #64

ASPADZ 客服 (bulk R1) → production-canary (canary)

狀態
已完成
案例
27
開始時間
16 May 11:13
耗時
928.2s
¶ Economics · Bot-side N=27 attempts

Cost & Tokens

$0.1954
Total Bot Cost · USD
37.9%
Prompt Cache Hit
cost per case
$0.0072
cost per 1k tokens
$0.0016
input tokens
116,294
output tokens
3,609
cached tokens — prompt-cache hit
44,032
Total Tokens
119,903
economic efficiency
cost per correct
$0.0012
pass rate
81.5%
22 / 27
judge cost
$0.0256
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 256cfb41-476e-4cac-a938-b61de800b0ec 34 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e210949a Tools: sha256:e3b0c442 Scenarios: sha256:57b9a1e3 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
27 / 27
錯誤
0
失敗維度
1
首字延遲 p95
9706 ms
Bot 成本(Neptune)
$0.1954
Bot Tokens(Neptune)
119,903
Judge 成本(Eris)
$0.0256
Judge Tokens(Eris)
195,689
項目 I.

知識庫精準度

kb_accuracy 10 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
100.0%
[100.0% – 100.0%] · n=10
F1 18.2% · 相關率 12.0% · 精確 10.0%
10 / 10 適用
不亂編造 平均
faithfulness
100.0%
[100.0% – 100.0%] · n=10
10 / 10 適用
答得到位 平均
answer_quality
99.0%
[97.7% – 100.0%] · n=10
10 / 10 適用
  • 案例 9EA6D0F0

    可以在門市試騎嗎?

    已完成
    第 1 次嘗試 · 已完成 32789ms

    載入詳情中…

  • 案例 83AC6D11

    請問這車有防盜功能嗎?

    已完成
    第 1 次嘗試 · 已完成 30296ms

    載入詳情中…

  • 案例 DEA14E61

    車架算不算車體零件?

    已完成
    第 1 次嘗試 · 已完成 34568ms

    載入詳情中…

  • 案例 FFCE4F28

    分期付款有零利率的方案嗎?

    已完成
    第 1 次嘗試 · 已完成 26840ms

    載入詳情中…

  • 案例 B9E8F953

    充電時可以直接插110V插座嗎

    已完成
    第 1 次嘗試 · 已完成 31862ms

    載入詳情中…

  • 案例 EC4B9F41

    身高165公分的人可以騎乘嗎?

    已完成
    第 1 次嘗試 · 已完成 47169ms

    載入詳情中…

  • 案例 67BE9F8F

    這台車幾歲可以騎?

    已完成
    第 1 次嘗試 · 已完成 45356ms

    載入詳情中…

  • 案例 53C99C7E

    後座能載人嗎?

    已完成
    第 1 次嘗試 · 已完成 29417ms

    載入詳情中…

  • 案例 ABC9FCB4

    這台車的售價大約是多少?

    已完成
    第 1 次嘗試 · 已完成 24330ms

    載入詳情中…

  • 案例 2FEA036D

    有電力輔助嗎

    已完成
    第 1 次嘗試 · 已完成 37285ms

    載入詳情中…

項目 II.

情境調用與完成

scenario_funnel 7 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=7
F1 100.0% · 召回 100.0% · 精確 100.0%
7 / 7 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=7
F1 100.0% · 召回 100.0% · 精確 100.0%
7 / 7 適用
答得到位 平均
answer_quality
73.3%
[51.4% – 91.4%] · n=7
7 / 7 適用
  • 案例 3568FE7E

    請問 Cavet 跟 Cavet Air 的主要不同處是什麼?

    已完成
    第 1 次嘗試 · 已完成 32007ms

    載入詳情中…

  • 案例 C2C6C831

    Cavet跟Cavet Air的系統搜尋功能有差別嗎?

    已完成
    第 1 次嘗試 · 已完成 48494ms

    載入詳情中…

  • 案例 4161B72E

    Cavet 要怎麼選?

    已完成
    第 1 次嘗試 · 已完成 55704ms

    載入詳情中…

  • 案例 796A5141

    你們的產品查詢怎麼做的啊

    已完成
    第 1 次嘗試 · 已完成 33521ms

    載入詳情中…

  • 案例 CCBEBB62

    Cavet Air 有哪些功能啊?

    已完成
    第 1 次嘗試 · 已完成 32879ms

    載入詳情中…

  • 案例 524C8575

    Cavet 和 Cavet Air 的系統使用並發搜尋來提供完整資訊,是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 35887ms

    載入詳情中…

  • 案例 81E41D8D

    如果我有產品相關的問題,系統會怎麼處理?

    已完成
    第 1 次嘗試 · 已完成 31016ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 10 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
88.9%
[66.7% – 100.0%] · n=9
F1 16.2% · 相關率 13.8% · 精確 20.0%
9 / 10 適用
不亂編造 平均
faithfulness
96.3%
[88.9% – 100.0%] · n=9
10 / 10 適用
答得到位 平均
answer_quality
82.0%
[57.7% – 99.7%] · n=10
10 / 10 適用
  • 案例 FD0D54A7

    充滿電大約可以騎多遠?

    已完成
    第 1 次嘗試 · 已完成 30031ms

    載入詳情中…

  • 案例 25C19A9E

    請問你們有什麼產品可以推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 27816ms

    載入詳情中…

  • 案例 424A653F

    客訴要怎麼處理啊

    已完成
    第 1 次嘗試 · 已完成 23988ms

    載入詳情中…

  • 案例 0D2309B5

    第一次騎這款車真的會覺得很順嗎?

    已完成
    第 1 次嘗試 · 已完成 38516ms

    載入詳情中…

  • 案例 0B530C17

    LED大燈照明夠不夠啊

    已完成
    第 1 次嘗試 · 已完成 44498ms

    載入詳情中…

  • 案例 46D44893

    這台車女生會喜歡嗎

    已完成
    第 1 次嘗試 · 已完成 5584ms

    載入詳情中…

  • 案例 CAF7564F

    Cavet的高階騎感是什麼特色?

    已完成
    第 1 次嘗試 · 已完成 27198ms

    載入詳情中…

  • 案例 8E0A2BE7

    電池可以拔出來嗎

    已完成
    第 1 次嘗試 · 已完成 26500ms

    載入詳情中…

  • 案例 3B27B02F

    可以分期付款嗎?

    已完成
    第 1 次嘗試 · 已完成 23422ms

    載入詳情中…

  • 案例 6EBDE6A8

    後座可以裝兒童椅嗎?

    已完成
    第 1 次嘗試 · 已完成 35633ms

    載入詳情中…