執行 #94

CYBERBIZ Bot (bulk R1) → production-canary (canary)

↓ EXPORT · HTML下載頁面
狀態
執行中
案例
13
開始時間
16 May 11:27
耗時
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.0620
Total Bot Cost · USD
60.7%
Prompt Cache Hit
cost per case
$0.0048
cost per 1k tokens
$0.0012
input tokens
49,792
output tokens
960
cached tokens — prompt-cache hit
30,208
Total Tokens
50,752
economic efficiency
cost per correct
$0.0014
pass rate
46.2%
6 / 13
judge cost
$0.0084
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 2478bad8-160a-4ce3-b5da-07ad8ea65f5e 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:8bb3ef3e AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
0
首字延遲 p95
4723 ms
Bot 成本(Neptune)
$0.0620
Bot Tokens(Neptune)
50,752
Judge 成本(Eris)
$0.0084
Judge Tokens(Eris)
68,285
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
75.0%
[37.5% – 100.0%] · n=8
F1 70.8% · 召回 75.0% · 精確 68.8%
8 / 8 適用
用對工具 召回
tool_usage
85.7%
[57.1% – 100.0%] · n=7
F1 85.7% · 召回 85.7% · 精確 85.7%
7 / 8 適用
答得到位 平均
answer_quality
62.5%
[47.5% – 75.8%] · n=8
8 / 8 適用
  • 案例 B61C3976

    這個髮片的壽命大概多久?

    pending

    等候 orchestrator 處理此案例…

  • 案例 76014F14

    新增情境要填商品名稱嗎

    pending

    等候 orchestrator 處理此案例…

  • 案例 C48FCCC3

    如果有多個訂單,系統會怎麼處理這些訂單的回覆?

    已完成
    第 1 次嘗試 · 已完成 25887ms

    載入詳情中…

  • 案例 BF039F39

    請問有關於目前的活動有哪些優惠或折扣呢?

    已完成
    第 1 次嘗試 · 已完成 33472ms

    載入詳情中…

  • 案例 6D806A99

    你們產品維護保養有什麼注意事項嗎?

    已完成
    第 1 次嘗試 · 已完成 32821ms

    載入詳情中…

  • 案例 AF13142B

    查我的訂單狀態

    已完成
    第 1 次嘗試 · 已完成 18819ms

    載入詳情中…

  • 案例 E9D8E288

    最近有什麼活動啊?

    已完成
    第 1 次嘗試 · 已完成 18224ms

    載入詳情中…

  • 案例 C887E8AB

    這個產品的使用方式是什麼呢?

    已完成
    第 1 次嘗試 · 已完成 21973ms

    載入詳情中…

  • 案例 84B2F48C

    請問我該怎麼尋找衣服的款式呢?

    已完成
    第 1 次嘗試 · 已完成 17636ms

    載入詳情中…

  • 案例 2332E398

    請問新增情境需要填寫什麼資訊呢?

    已完成
    第 1 次嘗試 · 已完成 17022ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 5 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
5 / 5 適用
答得到位 平均
answer_quality
50.7%
[34.0% – 67.3%] · n=5
5 / 5 適用
  • 案例 76F11AAB

    使用 get_history 要加什麼參數才能看完整內容?

    已完成
    第 1 次嘗試 · 已完成 24145ms

    載入詳情中…

  • 案例 89FA6AD9

    請問什麼情況下可以轉接到人類客服代理?

    已完成
    第 1 次嘗試 · 已完成 23553ms

    載入詳情中…

  • 案例 5941B096

    什麼情況會轉接真人客服?

    已完成
    第 1 次嘗試 · 已完成 19854ms

    載入詳情中…

  • 案例 1E45DBCD

    電商訂單搜尋用什麼格式化?

    已完成
    第 1 次嘗試 · 已完成 18261ms

    載入詳情中…

  • 案例 23E208BF

    怎麼查我的訂單?

    已完成
    第 1 次嘗試 · 已完成 43375ms

    載入詳情中…