執行 #39

AI 智能客服名稱 (bulk R1) → production-baseline

狀態
已完成
案例
12
開始時間
16 May 11:02
耗時
181.9s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0494
Total Bot Cost · USD
70.1%
Prompt Cache Hit
cost per case
$0.0041
cost per 1k tokens
$0.0011
input tokens
46,022
output tokens
722
cached tokens — prompt-cache hit
32,256
Total Tokens
46,744
economic efficiency
cost per correct
$0.0035
pass rate
25.0%
3 / 12
judge cost
$0.0104
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 7d958b77-d09f-4eda-8d69-1739e08a2c3e 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:5108e2c7 AI: gpt-4.1-2025-04-14 (T=0.0, max=32768)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
0
首字延遲 p95
2189 ms
Bot 成本(Neptune)
$0.0494
Bot Tokens(Neptune)
46,744
Judge 成本(Eris)
$0.0104
Judge Tokens(Eris)
80,888
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
43.3%
[29.7% – 58.3%] · n=10
10 / 10 適用
  • 案例 79701641

    你們的社群媒體有哪些?

    已完成
    第 1 次嘗試 · 已完成 10001ms

    載入詳情中…

  • 案例 E6215B56

    查詢的字數要短於多少才會優先處理?

    已完成
    第 1 次嘗試 · 已完成 8358ms

    載入詳情中…

  • 案例 F059415A

    請問有關最近的活動或優惠的資訊嗎?

    已完成
    第 1 次嘗試 · 已完成 7530ms

    載入詳情中…

  • 案例 9F424630

    你們的服務時間是什麼?

    已完成
    第 1 次嘗試 · 已完成 8377ms

    載入詳情中…

  • 案例 B40615EB

    這個產品多少錢?

    已完成
    第 1 次嘗試 · 已完成 10416ms

    載入詳情中…

  • 案例 E13D00DC

    價格是多少?

    已完成
    第 1 次嘗試 · 已完成 8898ms

    載入詳情中…

  • 案例 D3E448E1

    這個查詢為什麼要有問號或「嗎」呢?

    已完成
    第 1 次嘗試 · 已完成 10052ms

    載入詳情中…

  • 案例 D197E4BB

    有沒有可以推薦的科技假髮呢?

    已完成
    第 1 次嘗試 · 已完成 11069ms

    載入詳情中…

  • 案例 71416673

    這個產品怎麼使用,能幫我說明一下嗎?

    已完成
    第 1 次嘗試 · 已完成 9369ms

    載入詳情中…

  • 案例 2301F7C5

    可以告訴我這個髮片怎麼使用嗎?

    已完成
    第 1 次嘗試 · 已完成 9385ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
2 / 2 適用
答得到位 平均
answer_quality
73.3%
[63.3% – 83.3%] · n=2
2 / 2 適用
  • 案例 634784C5

    什麼情況可以轉接真人客服?

    已完成
    第 1 次嘗試 · 已完成 11510ms

    載入詳情中…

  • 案例 DADA11EB

    退換貨的流程怎麼樣啊

    已完成
    第 1 次嘗試 · 已完成 9191ms

    載入詳情中…