執行 #138

IM Motor (bulk R1) → production-canary (canary)

狀態
已完成
案例
11
開始時間
16 May 11:44
耗時
1048.3s
¶ Economics · Bot-side N=11 attempts

Cost & Tokens

$0.0386
Total Bot Cost · USD
77.0%
Prompt Cache Hit
cost per case
$0.0035
cost per 1k tokens
$0.0012
input tokens
31,745
output tokens
1,477
cached tokens — prompt-cache hit
24,448
Total Tokens
33,222
economic efficiency
cost per correct
$0.0068
pass rate
9.1%
1 / 11
judge cost
$0.0068
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 85ebd775-68be-4a66-ac2b-2fcd652eaa25 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:4362e39c AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
11 / 11
錯誤
0
失敗維度
4
首字延遲 p95
25019 ms
Bot 成本(Neptune)
$0.0386
Bot Tokens(Neptune)
33,222
Judge 成本(Eris)
$0.0068
Judge Tokens(Eris)
55,498
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
70.0%
[40.0% – 90.0%] · n=10
F1 70.0% · 召回 70.0% · 精確 70.0%
10 / 10 適用
用對工具 召回
tool_usage
30.0%
[0.0% – 60.0%] · n=10
F1 30.0% · 召回 30.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
35.0%
[19.3% – 50.0%] · n=10
10 / 10 適用
  • 案例 6265E0F2

    你們的產品查詢是怎麼進行的?

    已完成
    第 1 次嘗試 · 已完成 26854ms

    載入詳情中…

  • 案例 8BE95071

    如何查詢產品的詳細資訊?

    已完成
    第 1 次嘗試 · 已完成 26224ms

    載入詳情中…

  • 案例 571D1728

    你們可以幫我查詢產品資訊嗎?

    已完成
    第 1 次嘗試 · 已完成 19583ms

    載入詳情中…

  • 案例 EDD93A92

    你們的搜尋工具支援什麼功能?

    已完成
    第 1 次嘗試 · 已完成 34791ms

    載入詳情中…

  • 案例 A45C1470

    有關知識庫的問題怎麼問?

    已完成
    第 1 次嘗試 · 已完成 31223ms

    載入詳情中…

  • 案例 A406E040

    請問統一搜尋工具是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 38357ms

    載入詳情中…

  • 案例 2DEE41CF

    這個搜尋工具可以怎麼使用啊

    已完成
    第 1 次嘗試 · 已完成 35765ms

    載入詳情中…

  • 案例 14551F29

    能不能推薦一款適合夏天的髮片?

    已完成
    第 1 次嘗試 · 已完成 8103ms

    載入詳情中…

  • 案例 11DA5A82

    請問可以推薦一下髮片嗎?

    已完成
    第 1 次嘗試 · 已完成 7357ms

    載入詳情中…

  • 案例 DD5C8291

    請問有關髮片的資訊可以提供嗎?

    已完成
    第 1 次嘗試 · 已完成 10890ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 1 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
100.0%
1 / 1 適用
答得到位 平均
answer_quality
100.0%
1 / 1 適用
  • 案例 D91AF71F

    要怎麼轉接到真人客服?

    已完成
    第 1 次嘗試 · 已完成 14199ms

    載入詳情中…