執行 #276

test (bulk R1) → production-canary (canary)

↓ EXPORT · HTML下載頁面
狀態
執行中
案例
12
開始時間
16 May 12:53
耗時
¶ Economics · Bot-side N=10 attempts

Cost & Tokens

$0.0391
Total Bot Cost · USD
58.6%
Prompt Cache Hit
cost per case
$0.0039
cost per 1k tokens
$0.0012
input tokens
31,011
output tokens
545
cached tokens — prompt-cache hit
18,176
Total Tokens
31,556
economic efficiency
cost per correct
$0.0013
pass rate
55.6%
5 / 9
judge cost
$0.0064
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • a5f97610-8ed5-4683-8c6f-3e405fb7e1d1 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:f54b89a3 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
10 / 12
錯誤
0
失敗維度
0
首字延遲 p95
7047 ms
Bot 成本(Neptune)
$0.0391
Bot Tokens(Neptune)
31,556
Judge 成本(Eris)
$0.0064
Judge Tokens(Eris)
50,195
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=4
F1 91.7% · 召回 100.0% · 精確 87.5%
6 / 6 適用
用對工具 召回
tool_usage
75.0%
[25.0% – 100.0%] · n=4
F1 75.0% · 召回 75.0% · 精確 75.0%
6 / 6 適用
答得到位 平均
answer_quality
80.0%
[66.7% – 90.0%] · n=4
6 / 6 適用
  • 案例 D40EA816

    我想查詢一下我的訂單狀況,請問有什麼資料需要提供嗎?

    pending

    等候 orchestrator 處理此案例…

  • 案例 D64922BA

    請問貴公司的服務時間是什麼時候?

    pending

    等候 orchestrator 處理此案例…

  • 案例 67FA9953

    如果查不到我的訂單,該怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 11686ms

    載入詳情中…

  • 案例 E1EFFFAD

    你們的假髮多少錢?

    已完成
    第 1 次嘗試 · 已完成 19610ms

    載入詳情中…

  • 案例 C50B66BD

    通用查詢是什麼意思?

    已完成
    第 1 次嘗試 · 已完成 21667ms

    載入詳情中…

  • 案例 70ECE901

    髮片怎麼用?

    已完成
    第 1 次嘗試 · 已完成 24946ms

    載入詳情中…

  • 案例 CFDE3052

    這些服務的營業時間是怎麼樣的呀?

    執行中
    第 1 次嘗試 · 執行中

    載入詳情中…

  • 案例 77C7CAAA

    我的訂單狀態怎麼樣?

    執行中
    第 1 次嘗試 · 執行中

    載入詳情中…

  • 案例 3E7E01F8

    我的訂單查詢有回覆嗎?

    pending

    等候 orchestrator 處理此案例…

  • 案例 2A1A9CF9

    訂單狀態查詢

    pending

    等候 orchestrator 處理此案例…

項目 III.

對話素養(混合問答)

mixed_qa 6 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
50.0%
[0.0% – 100.0%] · n=2
6 / 6 適用
答得到位 平均
answer_quality
60.0%
[45.3% – 75.3%] · n=5
6 / 6 適用
  • 案例 B4A62CA3

    請問我可以用什麼信息搜尋訂單詳情?

    已完成
    第 1 次嘗試 · 已完成 22316ms

    載入詳情中…

  • 案例 835DCA87

    那個髮片怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 15625ms

    載入詳情中…

  • 案例 6B96F427

    可以查之前的對話嗎

    已完成
    第 1 次嘗試 · 已完成 22538ms

    載入詳情中…

  • 案例 EA5B492D

    訂單查詢用什麼工具?

    已完成
    第 1 次嘗試 · 已完成 22516ms

    載入詳情中…

  • 案例 48B59A13

    如果AI回答不了,可以轉接到真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 24796ms

    載入詳情中…

  • 案例 A649CC78

    轉接真人客服的時候需要確認什麼情況?

    已完成
    第 1 次嘗試 · 已完成 15896ms

    載入詳情中…