執行 #71

Axe Test (bulk R1) → production-baseline

狀態
已完成
案例
16
開始時間
16 May 11:14
耗時
791.4s
¶ Economics · Bot-side N=16 attempts

Cost & Tokens

$0.0723
Total Bot Cost · USD
63.0%
Prompt Cache Hit
cost per case
$0.0045
cost per 1k tokens
$0.0012
input tokens
60,747
output tokens
1,032
cached tokens — prompt-cache hit
38,272
Total Tokens
61,779
economic efficiency
cost per correct
$0.0017
pass rate
43.8%
7 / 16
judge cost
$0.0116
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • b490a901-036d-472d-a471-553c52128b14 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:bb5e3853 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
16 / 16
錯誤
0
失敗維度
0
首字延遲 p95
2556 ms
Bot 成本(Neptune)
$0.0723
Bot Tokens(Neptune)
61,779
Judge 成本(Eris)
$0.0116
Judge Tokens(Eris)
91,483
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
80.0%
[50.0% – 100.0%] · n=10
F1 73.3% · 召回 80.0% · 精確 70.0%
10 / 10 適用
用對工具 召回
tool_usage
60.0%
[30.0% – 90.0%] · n=10
F1 60.0% · 召回 60.0% · 精確 60.0%
10 / 10 適用
答得到位 平均
answer_quality
69.0%
[59.0% – 79.0%] · n=10
10 / 10 適用
  • 案例 CB6A6AB2

    請問我登入的時候出現錯誤,這是什麼問題呢?

    已完成
    第 1 次嘗試 · 已完成 9957ms

    載入詳情中…

  • 案例 385C4C03

    請問查詢我的訂單需要提供哪些個人資訊呢?

    已完成
    第 1 次嘗試 · 已完成 11053ms

    載入詳情中…

  • 案例 C9C552F0

    查詢訂單要提供什麼資訊?

    已完成
    第 1 次嘗試 · 已完成 10846ms

    載入詳情中…

  • 案例 D5BACD97

    請問我的訂單狀態可以查詢嗎?

    已完成
    第 1 次嘗試 · 已完成 8718ms

    載入詳情中…

  • 案例 96989B03

    我可以查詢之前的訂單詳情嗎?

    已完成
    第 1 次嘗試 · 已完成 8717ms

    載入詳情中…

  • 案例 1D39748B

    這個髮片怎麼用啊

    已完成
    第 1 次嘗試 · 已完成 9925ms

    載入詳情中…

  • 案例 9C0BEF31

    退換貨怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 10865ms

    載入詳情中…

  • 案例 12909533

    產品查詢有什麼條件嗎?

    已完成
    第 1 次嘗試 · 已完成 10163ms

    載入詳情中…

  • 案例 A93B01EF

    如何安裝這個髮片?

    已完成
    第 1 次嘗試 · 已完成 10476ms

    載入詳情中…

  • 案例 2864D79A

    如果我想查詢你們的產品價格,該怎麼做?

    已完成
    第 1 次嘗試 · 已完成 8569ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 6 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
6 / 6 適用
答得到位 平均
answer_quality
48.3%
[36.1% – 63.3%] · n=6
6 / 6 適用
  • 案例 6691327B

    請問要如何搜尋我的電商訂單呢?

    已完成
    第 1 次嘗試 · 已完成 9708ms

    載入詳情中…

  • 案例 84DD5655

    查詢要怎麼觸發?

    已完成
    第 1 次嘗試 · 已完成 25693ms

    載入詳情中…

  • 案例 FBC6B7AC

    統一搜尋支援什麼融合同步多通道?

    已完成
    第 1 次嘗試 · 已完成 9377ms

    載入詳情中…

  • 案例 99485E21

    怎麼查看之前的對話紀錄?

    已完成
    第 1 次嘗試 · 已完成 10566ms

    載入詳情中…

  • 案例 BC7190A8

    為什麼我的訂單資料沒有辦法一次查到?

    已完成
    第 1 次嘗試 · 已完成 11357ms

    載入詳情中…

  • 案例 1A5B7BB6

    怎麼轉接客服?

    已完成
    第 1 次嘗試 · 已完成 7403ms

    載入詳情中…