執行 #26

AI 智能客服名稱 (bulk R1) → production-canary (canary)

狀態
已完成
案例
15
開始時間
16 May 10:57
耗時
318.9s
¶ Economics · Bot-side N=15 attempts

Cost & Tokens

$0.1643
Total Bot Cost · USD
62.2%
Prompt Cache Hit
cost per case
$0.0110
cost per 1k tokens
$0.0012
input tokens
129,779
output tokens
3,238
cached tokens — prompt-cache hit
80,768
Total Tokens
133,017
economic efficiency
cost per correct
$0.0027
pass rate
33.3%
5 / 15
judge cost
$0.0133
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 2952faf1-c20a-4c19-9b5a-1e4cc6ffcc3a 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:b8bbeee1 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
15 / 15
錯誤
0
失敗維度
0
首字延遲 p95
6848 ms
Bot 成本(Neptune)
$0.1643
Bot Tokens(Neptune)
133,017
Judge 成本(Eris)
$0.0133
Judge Tokens(Eris)
98,962
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
53.0%
[33.7% – 69.7%] · n=10
10 / 10 適用
  • 案例 D4147201

    這個髮片怎麼用啊?

    已完成
    第 1 次嘗試 · 已完成 35123ms

    載入詳情中…

  • 案例 B6BCE121

    你們的服務時間是怎樣的?

    已完成
    第 1 次嘗試 · 已完成 23683ms

    載入詳情中…

  • 案例 CF1102DF

    隱私政策是什麼?

    已完成
    第 1 次嘗試 · 已完成 42480ms

    載入詳情中…

  • 案例 3101DF72

    你們有隱私政策嗎

    已完成
    第 1 次嘗試 · 已完成 33436ms

    載入詳情中…

  • 案例 09D82EEB

    請問你們的服務時間是什麼時候?另外可以告訴我退換貨的政策嗎?

    已完成
    第 1 次嘗試 · 已完成 33711ms

    載入詳情中…

  • 案例 BEEC0E0F

    請問現在有什麼優惠活動嗎?

    已完成
    第 1 次嘗試 · 已完成 35359ms

    載入詳情中…

  • 案例 C3FA8E37

    有沒有關於活動的優惠或促銷?

    已完成
    第 1 次嘗試 · 已完成 42269ms

    載入詳情中…

  • 案例 C1C6B3D0

    請問為什麼我無法登入我的帳號?

    已完成
    第 1 次嘗試 · 已完成 39967ms

    載入詳情中…

  • 案例 552C91A0

    我最近在用你們的產品,常常會出現陌生的錯誤,這個該怎麼辦啊?

    已完成
    第 1 次嘗試 · 已完成 39175ms

    載入詳情中…

  • 案例 B24440B9

    我最近遇到一些使用上的問題,無法登入,該怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 34966ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 5 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
5 / 5 適用
答得到位 平均
answer_quality
44.0%
[28.0% – 72.0%] · n=5
5 / 5 適用
  • 案例 FB455415

    統一搜尋需要提供什麼關鍵字?

    已完成
    第 1 次嘗試 · 已完成 46482ms

    載入詳情中…

  • 案例 94D4469A

    服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 24290ms

    載入詳情中…

  • 案例 0D6B4A14

    AI 不能回答的時候可以轉接人類客服嗎

    已完成
    第 1 次嘗試 · 已完成 17548ms

    載入詳情中…

  • 案例 141684BD

    get_history 是什麼?

    已完成
    第 1 次嘗試 · 已完成 31882ms

    載入詳情中…

  • 案例 9EB5FB70

    請問轉接真人客服需要確認什麼情況?

    已完成
    第 1 次嘗試 · 已完成 36780ms

    載入詳情中…