執行 #252

Whoscall bot (bulk R1) → production-canary (canary)

狀態
已完成
案例
13
開始時間
16 May 12:41
耗時
650.4s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.0386
Total Bot Cost · USD
88.3%
Prompt Cache Hit
cost per case
$0.0030
cost per 1k tokens
$0.0008
input tokens
47,854
output tokens
786
cached tokens — prompt-cache hit
42,240
Total Tokens
48,640
economic efficiency
cost per correct
$0.0018
pass rate
46.2%
6 / 13
judge cost
$0.0107
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 07dc3a37-5644-448d-9f76-dd779f27f8d2 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:4a6a05b0 Scenarios: sha256:db6fa57e AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
0
首字延遲 p95
12138 ms
Bot 成本(Neptune)
$0.0386
Bot Tokens(Neptune)
48,640
Judge 成本(Eris)
$0.0107
Judge Tokens(Eris)
86,170
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
67.0%
[57.0% – 77.7%] · n=10
10 / 10 適用
  • 案例 F3135430

    查詢短問題會怎麼處理?

    已完成
    第 1 次嘗試 · 已完成 9149ms

    載入詳情中…

  • 案例 024C5D09

    我想要知道你們的產品資訊查詢工具是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 29444ms

    載入詳情中…

  • 案例 4126B70A

    這個產品使用方式怎麼樣呢?

    已完成
    第 1 次嘗試 · 已完成 25699ms

    載入詳情中…

  • 案例 32523724

    你們的產品查詢是怎麼處理的?

    已完成
    第 1 次嘗試 · 已完成 32312ms

    載入詳情中…

  • 案例 5A98204A

    短的問題會比較快處理嗎?

    已完成
    第 1 次嘗試 · 已完成 31341ms

    載入詳情中…

  • 案例 1B38953A

    我想知道髮片的價格是多少?

    已完成
    第 1 次嘗試 · 已完成 27411ms

    載入詳情中…

  • 案例 31119C0F

    查詢產品需要什麼資訊?

    已完成
    第 1 次嘗試 · 已完成 10611ms

    載入詳情中…

  • 案例 1CF8DDD7

    那個知識查詢是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 15166ms

    載入詳情中…

  • 案例 BEF5300C

    知識查詢的時候,回覆必須保持語言一致性嗎?

    已完成
    第 1 次嘗試 · 已完成 25077ms

    載入詳情中…

  • 案例 EC80FA33

    你們的回覆會不會語言混合?

    已完成
    第 1 次嘗試 · 已完成 19249ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
50.0%
[0.0% – 100.0%] · n=2
3 / 3 適用
答得到位 平均
answer_quality
46.7%
[26.7% – 70.0%] · n=3
3 / 3 適用
  • 案例 7E48518F

    請問可以轉接至人類客服代理嗎?

    已完成
    第 1 次嘗試 · 已完成 7533ms

    載入詳情中…

  • 案例 4573B130

    轉接真人客服需要確認什麼情況?

    已完成
    第 1 次嘗試 · 已完成 30377ms

    載入詳情中…

  • 案例 9C9EFA9A

    你們的粉絲團在什麼平台?

    已完成
    第 1 次嘗試 · 已完成 28785ms

    載入詳情中…