執行 #275

test (bulk R1) → production-baseline

↓ EXPORT · HTML下載頁面
狀態
執行中
案例
15
開始時間
16 May 12:53
耗時
¶ Economics · Bot-side N=15 attempts

Cost & Tokens

$0.0748
Total Bot Cost · USD
43.6%
Prompt Cache Hit
cost per case
$0.0050
cost per 1k tokens
$0.0015
input tokens
49,922
output tokens
951
cached tokens — prompt-cache hit
21,760
Total Tokens
50,873
economic efficiency
cost per correct
$0.0011
pass rate
60.0%
9 / 15
judge cost
$0.0103
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • a5f97610-8ed5-4683-8c6f-3e405fb7e1d1 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:f54b89a3 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
15 / 15
錯誤
0
失敗維度
0
首字延遲 p95
3233 ms
Bot 成本(Neptune)
$0.0748
Bot Tokens(Neptune)
50,873
Judge 成本(Eris)
$0.0103
Judge Tokens(Eris)
83,663
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
90.0%
[70.0% – 100.0%] · n=10
F1 83.3% · 召回 90.0% · 精確 80.0%
10 / 10 適用
用對工具 召回
tool_usage
70.0%
[40.0% – 100.0%] · n=10
F1 70.0% · 召回 70.0% · 精確 70.0%
10 / 10 適用
答得到位 平均
answer_quality
67.0%
[53.3% – 78.3%] · n=10
10 / 10 適用
  • 案例 D40EA816

    我想查詢一下我的訂單狀況,請問有什麼資料需要提供嗎?

    已完成
    第 1 次嘗試 · 已完成 15351ms

    載入詳情中…

  • 案例 D64922BA

    請問貴公司的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 9118ms

    載入詳情中…

  • 案例 67FA9953

    如果查不到我的訂單,該怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 8269ms

    載入詳情中…

  • 案例 E1EFFFAD

    你們的假髮多少錢?

    已完成
    第 1 次嘗試 · 已完成 12175ms

    載入詳情中…

  • 案例 C50B66BD

    通用查詢是什麼意思?

    已完成
    第 1 次嘗試 · 已完成 13763ms

    載入詳情中…

  • 案例 70ECE901

    髮片怎麼用?

    已完成
    第 1 次嘗試 · 已完成 9454ms

    載入詳情中…

  • 案例 CFDE3052

    這些服務的營業時間是怎麼樣的呀?

    已完成
    第 1 次嘗試 · 已完成 7467ms

    載入詳情中…

  • 案例 77C7CAAA

    我的訂單狀態怎麼樣?

    已完成
    第 1 次嘗試 · 已完成 6694ms

    載入詳情中…

  • 案例 3E7E01F8

    我的訂單查詢有回覆嗎?

    已完成
    第 1 次嘗試 · 已完成 8295ms

    載入詳情中…

  • 案例 2A1A9CF9

    訂單狀態查詢

    已完成
    第 1 次嘗試 · 已完成 8575ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 6 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
5 / 5 適用
答得到位 平均
answer_quality
58.0%
[41.3% – 78.0%] · n=5
5 / 5 適用
  • 案例 B4A62CA3

    請問我可以用什麼信息搜尋訂單詳情?

    已完成
    第 1 次嘗試 · 已完成 10344ms

    載入詳情中…

  • 案例 835DCA87

    那個髮片怎麼使用?

    pending

    等候 orchestrator 處理此案例…

  • 案例 6B96F427

    可以查之前的對話嗎

    已完成
    第 1 次嘗試 · 已完成 7707ms

    載入詳情中…

  • 案例 EA5B492D

    訂單查詢用什麼工具?

    已完成
    第 1 次嘗試 · 已完成 11096ms

    載入詳情中…

  • 案例 48B59A13

    如果AI回答不了,可以轉接到真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 7222ms

    載入詳情中…

  • 案例 A649CC78

    轉接真人客服的時候需要確認什麼情況?

    已完成
    第 1 次嘗試 · 已完成 8400ms

    載入詳情中…