執行 #93

CYBERBIZ Bot (bulk R1) → production-baseline

↓ EXPORT · HTML下載頁面
狀態
執行中
案例
12
開始時間
16 May 11:26
耗時
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0549
Total Bot Cost · USD
63.2%
Prompt Cache Hit
cost per case
$0.0046
cost per 1k tokens
$0.0012
input tokens
45,958
output tokens
827
cached tokens — prompt-cache hit
29,056
Total Tokens
46,785
economic efficiency
cost per correct
$0.0013
pass rate
50.0%
6 / 12
judge cost
$0.0079
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 2478bad8-160a-4ce3-b5da-07ad8ea65f5e 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:8bb3ef3e AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
0
首字延遲 p95
6735 ms
Bot 成本(Neptune)
$0.0549
Bot Tokens(Neptune)
46,785
Judge 成本(Eris)
$0.0079
Judge Tokens(Eris)
64,489
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
75.0%
[50.0% – 100.0%] · n=8
F1 70.8% · 召回 75.0% · 精確 68.8%
8 / 8 適用
用對工具 召回
tool_usage
85.7%
[57.1% – 100.0%] · n=7
F1 85.7% · 召回 85.7% · 精確 85.7%
7 / 8 適用
答得到位 平均
answer_quality
66.7%
[51.2% – 80.0%] · n=8
8 / 8 適用
  • 案例 B61C3976

    這個髮片的壽命大概多久?

    pending

    等候 orchestrator 處理此案例…

  • 案例 76014F14

    新增情境要填商品名稱嗎

    pending

    等候 orchestrator 處理此案例…

  • 案例 C48FCCC3

    如果有多個訂單,系統會怎麼處理這些訂單的回覆?

    已完成
    第 1 次嘗試 · 已完成 14766ms

    載入詳情中…

  • 案例 BF039F39

    請問有關於目前的活動有哪些優惠或折扣呢?

    已完成
    第 1 次嘗試 · 已完成 10831ms

    載入詳情中…

  • 案例 6D806A99

    你們產品維護保養有什麼注意事項嗎?

    已完成
    第 1 次嘗試 · 已完成 26387ms

    載入詳情中…

  • 案例 AF13142B

    查我的訂單狀態

    已完成
    第 1 次嘗試 · 已完成 14966ms

    載入詳情中…

  • 案例 E9D8E288

    最近有什麼活動啊?

    已完成
    第 1 次嘗試 · 已完成 10627ms

    載入詳情中…

  • 案例 C887E8AB

    這個產品的使用方式是什麼呢?

    已完成
    第 1 次嘗試 · 已完成 11262ms

    載入詳情中…

  • 案例 84B2F48C

    請問我該怎麼尋找衣服的款式呢?

    已完成
    第 1 次嘗試 · 已完成 12186ms

    載入詳情中…

  • 案例 2332E398

    請問新增情境需要填寫什麼資訊呢?

    已完成
    第 1 次嘗試 · 已完成 10339ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 5 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
4 / 4 適用
答得到位 平均
answer_quality
47.5%
[26.7% – 68.3%] · n=4
4 / 4 適用
  • 案例 76F11AAB

    使用 get_history 要加什麼參數才能看完整內容?

    已完成
    第 1 次嘗試 · 已完成 17119ms

    載入詳情中…

  • 案例 89FA6AD9

    請問什麼情況下可以轉接到人類客服代理?

    pending

    等候 orchestrator 處理此案例…

  • 案例 5941B096

    什麼情況會轉接真人客服?

    已完成
    第 1 次嘗試 · 已完成 11071ms

    載入詳情中…

  • 案例 1E45DBCD

    電商訂單搜尋用什麼格式化?

    已完成
    第 1 次嘗試 · 已完成 19333ms

    載入詳情中…

  • 案例 23E208BF

    怎麼查我的訂單?

    已完成
    第 1 次嘗試 · 已完成 21337ms

    載入詳情中…