執行 #92

CYBERBIZ BOT (bulk R1) → production-canary (canary)

狀態
已完成
案例
15
開始時間
16 May 11:26
耗時
264.5s
¶ Economics · Bot-side N=15 attempts

Cost & Tokens

$0.0559
Total Bot Cost · USD
86.2%
Prompt Cache Hit
cost per case
$0.0037
cost per 1k tokens
$0.0008
input tokens
68,765
output tokens
910
cached tokens — prompt-cache hit
59,264
Total Tokens
69,675
economic efficiency
cost per correct
$0.0042
pass rate
20.0%
3 / 15
judge cost
$0.0125
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 375d44b0-85b6-4f7a-83a6-ac67614ec6f6 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:194bb78e AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
15 / 15
錯誤
0
失敗維度
0
首字延遲 p95
7078 ms
Bot 成本(Neptune)
$0.0559
Bot Tokens(Neptune)
69,675
Judge 成本(Eris)
$0.0125
Judge Tokens(Eris)
94,901
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
53.0%
[43.7% – 64.3%] · n=10
10 / 10 適用
  • 案例 F4E0A130

    活動有什麼優惠或折扣嗎?

    已完成
    第 1 次嘗試 · 已完成 22214ms

    載入詳情中…

  • 案例 D96F9CA1

    請問這款產品怎麼使用呢?

    已完成
    第 1 次嘗試 · 已完成 15125ms

    載入詳情中…

  • 案例 95266B69

    如何安裝和使用這款髮片?

    已完成
    第 1 次嘗試 · 已完成 23560ms

    載入詳情中…

  • 案例 A7DF79B6

    請問這款髮片的保養方式有哪些?

    已完成
    第 1 次嘗試 · 已完成 20463ms

    載入詳情中…

  • 案例 32B6C824

    請問產品的壽命和更換的資訊是什麼呢?

    已完成
    第 1 次嘗試 · 已完成 14372ms

    載入詳情中…

  • 案例 08A6F889

    你們的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 15761ms

    載入詳情中…

  • 案例 CEC4DC68

    維修可以多久做一次啊

    已完成
    第 1 次嘗試 · 已完成 15340ms

    載入詳情中…

  • 案例 B8C098D0

    現在有什麼促銷活動嗎?

    已完成
    第 1 次嘗試 · 已完成 26002ms

    載入詳情中…

  • 案例 23F86F22

    你們現在有什麼活動或優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 25388ms

    載入詳情中…

  • 案例 3DC6D814

    可以再問一次如何使用這個髮片嗎?

    已完成
    第 1 次嘗試 · 已完成 28337ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 5 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
5 / 5 適用
答得到位 平均
answer_quality
44.0%
[28.0% – 69.3%] · n=5
5 / 5 適用
  • 案例 E3072515

    請問統一搜尋是如何支援多條線路的?

    已完成
    第 1 次嘗試 · 已完成 22374ms

    載入詳情中…

  • 案例 BAF504F0

    服務時間是怎麼樣的?

    已完成
    第 1 次嘗試 · 已完成 20908ms

    載入詳情中…

  • 案例 AAD6C759

    如果我有問題 AI 無法回答,會轉接真人客服嗎?

    已完成
    第 1 次嘗試 · 已完成 20158ms

    載入詳情中…

  • 案例 E919FFAB

    請問可以檢索之前的對話紀錄嗎?

    已完成
    第 1 次嘗試 · 已完成 19707ms

    載入詳情中…

  • 案例 586BBD67

    轉接真人客服要怎麼回覆?

    已完成
    第 1 次嘗試 · 已完成 16581ms

    載入詳情中…