執行 #29

AI 智能客服名稱 (bulk R1) → production-baseline

狀態
已完成
案例
14
開始時間
16 May 11:00
耗時
617.4s
¶ Economics · Bot-side N=14 attempts

Cost & Tokens

$0.0583
Total Bot Cost · USD
64.3%
Prompt Cache Hit
cost per case
$0.0042
cost per 1k tokens
$0.0011
input tokens
50,545
output tokens
750
cached tokens — prompt-cache hit
32,512
Total Tokens
51,295
economic efficiency
cost per correct
$0.0017
pass rate
50.0%
7 / 14
judge cost
$0.0118
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 87dd4835-85e6-413d-a07f-91451aef85d4 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:42e5f149 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
14 / 14
錯誤
0
失敗維度
0
首字延遲 p95
1971 ms
Bot 成本(Neptune)
$0.0583
Bot Tokens(Neptune)
51,295
Judge 成本(Eris)
$0.0118
Judge Tokens(Eris)
90,508
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
62.7%
[47.7% – 77.7%] · n=10
10 / 10 適用
  • 案例 F109E016

    退貨的流程是什麼?

    已完成
    第 1 次嘗試 · 已完成 10069ms

    載入詳情中…

  • 案例 EE7991D3

    退換貨要多久啊

    已完成
    第 1 次嘗試 · 已完成 9636ms

    載入詳情中…

  • 案例 FF68C25F

    請問你們的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 10388ms

    載入詳情中…

  • 案例 AC487B97

    這個髮片多少錢嗎?

    已完成
    第 1 次嘗試 · 已完成 10315ms

    載入詳情中…

  • 案例 8F350C24

    有關最近的優惠活動可以參加嗎?

    已完成
    第 1 次嘗試 · 已完成 10016ms

    載入詳情中…

  • 案例 56D3C453

    最近有什麼促銷優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 10827ms

    載入詳情中…

  • 案例 EFFF117B

    這款髮片的使用方法是什麼?

    已完成
    第 1 次嘗試 · 已完成 18808ms

    載入詳情中…

  • 案例 4F420C0A

    配送的服務時間是多久啊?

    已完成
    第 1 次嘗試 · 已完成 13608ms

    載入詳情中…

  • 案例 6135A54A

    如何使用微增髮片?

    已完成
    第 1 次嘗試 · 已完成 10308ms

    載入詳情中…

  • 案例 BF30CF2A

    我想知道你們的產品價格是多少?

    已完成
    第 1 次嘗試 · 已完成 11449ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 4 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
4 / 4 適用
答得到位 平均
answer_quality
45.8%
[30.0% – 68.3%] · n=4
4 / 4 適用
  • 案例 9686F004

    get_history 是什麼功能?

    已完成
    第 1 次嘗試 · 已完成 8593ms

    載入詳情中…

  • 案例 890E83A5

    轉接真人客服要怎麼回覆?

    已完成
    第 1 次嘗試 · 已完成 10931ms

    載入詳情中…

  • 案例 493A6453

    請問我可以要求轉接到真人客服嗎?

    已完成
    第 1 次嘗試 · 已完成 8497ms

    載入詳情中…

  • 案例 F12A8389

    如果有查詢問題,該怎麼做呢?

    已完成
    第 1 次嘗試 · 已完成 13397ms

    載入詳情中…