執行 #63

ASPADZ 客服 (bulk R1) → production-baseline

狀態
已完成
案例
27
開始時間
16 May 11:12
耗時
273.8s
¶ Economics · Bot-side N=27 attempts

Cost & Tokens

$0.2068
Total Bot Cost · USD
31.5%
Prompt Cache Hit
cost per case
$0.0077
cost per 1k tokens
$0.0017
input tokens
116,225
output tokens
3,655
cached tokens — prompt-cache hit
36,608
Total Tokens
119,880
economic efficiency
cost per correct
$0.0012
pass rate
81.5%
22 / 27
judge cost
$0.0258
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 256cfb41-476e-4cac-a938-b61de800b0ec 34 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e210949a Tools: sha256:e3b0c442 Scenarios: sha256:57b9a1e3 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
27 / 27
錯誤
0
失敗維度
1
首字延遲 p95
2826 ms
Bot 成本(Neptune)
$0.2068
Bot Tokens(Neptune)
119,880
Judge 成本(Eris)
$0.0258
Judge Tokens(Eris)
195,823
項目 I.

知識庫精準度

kb_accuracy 10 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
100.0%
[100.0% – 100.0%] · n=10
F1 18.2% · 相關率 12.0% · 精確 10.0%
10 / 10 適用
不亂編造 平均
faithfulness
100.0%
[100.0% – 100.0%] · n=10
10 / 10 適用
答得到位 平均
answer_quality
98.3%
[96.3% – 100.0%] · n=10
10 / 10 適用
  • 案例 9EA6D0F0

    可以在門市試騎嗎?

    已完成
    第 1 次嘗試 · 已完成 13566ms

    載入詳情中…

  • 案例 83AC6D11

    請問這車有防盜功能嗎?

    已完成
    第 1 次嘗試 · 已完成 13030ms

    載入詳情中…

  • 案例 DEA14E61

    車架算不算車體零件?

    已完成
    第 1 次嘗試 · 已完成 14212ms

    載入詳情中…

  • 案例 FFCE4F28

    分期付款有零利率的方案嗎?

    已完成
    第 1 次嘗試 · 已完成 11177ms

    載入詳情中…

  • 案例 B9E8F953

    充電時可以直接插110V插座嗎

    已完成
    第 1 次嘗試 · 已完成 10480ms

    載入詳情中…

  • 案例 EC4B9F41

    身高165公分的人可以騎乘嗎?

    已完成
    第 1 次嘗試 · 已完成 10935ms

    載入詳情中…

  • 案例 67BE9F8F

    這台車幾歲可以騎?

    已完成
    第 1 次嘗試 · 已完成 16283ms

    載入詳情中…

  • 案例 53C99C7E

    後座能載人嗎?

    已完成
    第 1 次嘗試 · 已完成 13963ms

    載入詳情中…

  • 案例 ABC9FCB4

    這台車的售價大約是多少?

    已完成
    第 1 次嘗試 · 已完成 13825ms

    載入詳情中…

  • 案例 2FEA036D

    有電力輔助嗎

    已完成
    第 1 次嘗試 · 已完成 13623ms

    載入詳情中…

項目 II.

情境調用與完成

scenario_funnel 7 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=7
F1 100.0% · 召回 100.0% · 精確 100.0%
7 / 7 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=7
F1 100.0% · 召回 100.0% · 精確 100.0%
7 / 7 適用
答得到位 平均
answer_quality
66.7%
[46.2% – 87.1%] · n=7
7 / 7 適用
  • 案例 3568FE7E

    請問 Cavet 跟 Cavet Air 的主要不同處是什麼?

    已完成
    第 1 次嘗試 · 已完成 18167ms

    載入詳情中…

  • 案例 C2C6C831

    Cavet跟Cavet Air的系統搜尋功能有差別嗎?

    已完成
    第 1 次嘗試 · 已完成 16741ms

    載入詳情中…

  • 案例 4161B72E

    Cavet 要怎麼選?

    已完成
    第 1 次嘗試 · 已完成 17168ms

    載入詳情中…

  • 案例 796A5141

    你們的產品查詢怎麼做的啊

    已完成
    第 1 次嘗試 · 已完成 14290ms

    載入詳情中…

  • 案例 CCBEBB62

    Cavet Air 有哪些功能啊?

    已完成
    第 1 次嘗試 · 已完成 14329ms

    載入詳情中…

  • 案例 524C8575

    Cavet 和 Cavet Air 的系統使用並發搜尋來提供完整資訊,是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 22722ms

    載入詳情中…

  • 案例 81E41D8D

    如果我有產品相關的問題,系統會怎麼處理?

    已完成
    第 1 次嘗試 · 已完成 25586ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 10 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
88.9%
[66.7% – 100.0%] · n=9
F1 16.2% · 相關率 15.0% · 精確 20.0%
9 / 10 適用
不亂編造 平均
faithfulness
96.3%
[88.9% – 100.0%] · n=9
10 / 10 適用
答得到位 平均
answer_quality
83.0%
[60.0% – 99.3%] · n=10
10 / 10 適用
  • 案例 FD0D54A7

    充滿電大約可以騎多遠?

    已完成
    第 1 次嘗試 · 已完成 15213ms

    載入詳情中…

  • 案例 25C19A9E

    請問你們有什麼產品可以推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 21753ms

    載入詳情中…

  • 案例 424A653F

    客訴要怎麼處理啊

    已完成
    第 1 次嘗試 · 已完成 15758ms

    載入詳情中…

  • 案例 0D2309B5

    第一次騎這款車真的會覺得很順嗎?

    已完成
    第 1 次嘗試 · 已完成 17199ms

    載入詳情中…

  • 案例 0B530C17

    LED大燈照明夠不夠啊

    已完成
    第 1 次嘗試 · 已完成 15072ms

    載入詳情中…

  • 案例 46D44893

    這台車女生會喜歡嗎

    已完成
    第 1 次嘗試 · 已完成 5888ms

    載入詳情中…

  • 案例 CAF7564F

    Cavet的高階騎感是什麼特色?

    已完成
    第 1 次嘗試 · 已完成 13322ms

    載入詳情中…

  • 案例 8E0A2BE7

    電池可以拔出來嗎

    已完成
    第 1 次嘗試 · 已完成 25197ms

    載入詳情中…

  • 案例 3B27B02F

    可以分期付款嗎?

    已完成
    第 1 次嘗試 · 已完成 13118ms

    載入詳情中…

  • 案例 6EBDE6A8

    後座可以裝兒童椅嗎?

    已完成
    第 1 次嘗試 · 已完成 14308ms

    載入詳情中…