執行 #38

AI 智能客服名稱 (bulk R1) → production-canary (canary)

狀態
已完成
案例
13
開始時間
16 May 11:02
耗時
212.7s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.0539
Total Bot Cost · USD
69.6%
Prompt Cache Hit
cost per case
$0.0041
cost per 1k tokens
$0.0011
input tokens
49,824
output tokens
786
cached tokens — prompt-cache hit
34,688
Total Tokens
50,610
economic efficiency
cost per correct
$0.0015
pass rate
53.8%
7 / 13
judge cost
$0.0107
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • d4ddb6f9-3c62-4a91-b137-4888a2613f36 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:25ebab94 AI: gpt-4.1-2025-04-14 (T=0.0, max=32768)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
0
首字延遲 p95
5941 ms
Bot 成本(Neptune)
$0.0539
Bot Tokens(Neptune)
50,610
Judge 成本(Eris)
$0.0106
Judge Tokens(Eris)
83,454
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
64.3%
[50.0% – 76.0%] · n=10
10 / 10 適用
  • 案例 7575312B

    這個產品怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 21665ms

    載入詳情中…

  • 案例 FB3C494B

    請問貴公司的粉絲團和官網的聯絡方式是什麼呢?

    已完成
    第 1 次嘗試 · 已完成 32839ms

    載入詳情中…

  • 案例 7121732F

    這個髮片怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 22963ms

    載入詳情中…

  • 案例 B1B609BB

    查詢產品特性要怎麼做?

    已完成
    第 1 次嘗試 · 已完成 24672ms

    載入詳情中…

  • 案例 34B5E625

    請問有什麼優惠活動嗎?

    已完成
    第 1 次嘗試 · 已完成 23726ms

    載入詳情中…

  • 案例 96E4F4BA

    請問貴公司對於退換貨的政策是什麼?

    已完成
    第 1 次嘗試 · 已完成 21363ms

    載入詳情中…

  • 案例 41B4A44C

    退款怎麼辦

    已完成
    第 1 次嘗試 · 已完成 19586ms

    載入詳情中…

  • 案例 B7898194

    退換貨怎麼辦

    已完成
    第 1 次嘗試 · 已完成 34807ms

    載入詳情中…

  • 案例 7D8EA1C2

    能不能告訴我這個價格是多少?

    已完成
    第 1 次嘗試 · 已完成 23015ms

    載入詳情中…

  • 案例 E3E1507E

    產品多少錢啊

    已完成
    第 1 次嘗試 · 已完成 27891ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
3 / 3 適用
答得到位 平均
answer_quality
32.2%
[26.7% – 36.7%] · n=3
3 / 3 適用
  • 案例 5561626C

    請問可以檢索早期的對話記錄嗎?

    已完成
    第 1 次嘗試 · 已完成 32162ms

    載入詳情中…

  • 案例 E496604E

    當情緒升高的時候,可以轉接真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 33323ms

    載入詳情中…

  • 案例 8F2C70EF

    負面情緒時可以轉接客服嗎

    已完成
    第 1 次嘗試 · 已完成 32595ms

    載入詳情中…