執行 #27

AI 智能客服名稱 (bulk R1) → production-baseline

狀態
已完成
案例
14
開始時間
16 May 10:58
耗時
198.8s
¶ Economics · Bot-side N=14 attempts

Cost & Tokens

$0.0635
Total Bot Cost · USD
52.8%
Prompt Cache Hit
cost per case
$0.0045
cost per 1k tokens
$0.0013
input tokens
47,483
output tokens
774
cached tokens — prompt-cache hit
25,088
Total Tokens
48,257
economic efficiency
cost per correct
$0.0024
pass rate
35.7%
5 / 14
judge cost
$0.0118
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • e1ae8490-cb29-4569-a82f-b33c5b1765e3 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:4151ab39 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
14 / 14
錯誤
0
失敗維度
0
首字延遲 p95
2700 ms
Bot 成本(Neptune)
$0.0635
Bot Tokens(Neptune)
48,257
Judge 成本(Eris)
$0.0118
Judge Tokens(Eris)
90,102
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
60.0%
[44.0% – 75.0%] · n=10
10 / 10 適用
  • 案例 6065302B

    那個髮片怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 10817ms

    載入詳情中…

  • 案例 EA287FD7

    你們的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 10803ms

    載入詳情中…

  • 案例 471F8902

    我想買髮片,價格大約是多少?

    已完成
    第 1 次嘗試 · 已完成 9942ms

    載入詳情中…

  • 案例 B1400383

    你們產品有什麼維護保養的建議嗎?

    已完成
    第 1 次嘗試 · 已完成 12233ms

    載入詳情中…

  • 案例 E9691CC5

    有哪些方式可以搭配使用產品嗎?

    已完成
    第 1 次嘗試 · 已完成 10158ms

    載入詳情中…

  • 案例 2BAAD001

    這個產品怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 10509ms

    載入詳情中…

  • 案例 F53473ED

    現在有什麼活動或優惠嗎

    已完成
    第 1 次嘗試 · 已完成 8932ms

    載入詳情中…

  • 案例 97DABB5A

    你們有什麼髮片可以推薦的嗎?

    已完成
    第 1 次嘗試 · 已完成 7961ms

    載入詳情中…

  • 案例 7B04D62B

    產品維護要多久洗一次?

    已完成
    第 1 次嘗試 · 已完成 15426ms

    載入詳情中…

  • 案例 7F8B938A

    這裡可以查詢哪些產品資訊嗎?

    已完成
    第 1 次嘗試 · 已完成 9249ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 4 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
4 / 4 適用
答得到位 平均
answer_quality
35.0%
[29.2% – 40.8%] · n=4
4 / 4 適用
  • 案例 5B07073B

    如果我想要完整的對話記錄,該怎麼做?

    已完成
    第 1 次嘗試 · 已完成 8338ms

    載入詳情中…

  • 案例 76C3BD27

    你們的粉絲專頁是什麼?

    已完成
    第 1 次嘗試 · 已完成 11012ms

    載入詳情中…

  • 案例 1047ED44

    如果客服沒辦法解決問題,可以轉接真人客服嗎?

    已完成
    第 1 次嘗試 · 已完成 7965ms

    載入詳情中…

  • 案例 22166969

    我可以請你轉接到真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 7029ms

    載入詳情中…