執行 #409

欣寶XianBot (bulk R1) → production-baseline

狀態
已完成
案例
12
開始時間
16 May 13:52
耗時
251.9s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0319
Total Bot Cost · USD
52.7%
Prompt Cache Hit
cost per case
$0.0027
cost per 1k tokens
$0.0014
input tokens
21,847
output tokens
690
cached tokens — prompt-cache hit
11,520
Total Tokens
22,537
economic efficiency
cost per correct
$0.0069
pass rate
8.3%
1 / 12
judge cost
$0.0069
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 00281e2f-11c8-430b-8362-029fb28ee590 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:ba6f960c AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
3
首字延遲 p95
3172 ms
Bot 成本(Neptune)
$0.0319
Bot Tokens(Neptune)
22,537
Judge 成本(Eris)
$0.0069
Judge Tokens(Eris)
57,852
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
70.0%
[40.0% – 100.0%] · n=10
F1 70.0% · 召回 70.0% · 精確 70.0%
10 / 10 適用
用對工具 召回
tool_usage
70.0%
[40.0% – 100.0%] · n=10
F1 70.0% · 召回 70.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
31.3%
[15.7% – 47.3%] · n=10
10 / 10 適用
  • 案例 5FC3ED98

    最近有什麼新產品推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 16247ms

    載入詳情中…

  • 案例 38DE170E

    有什麼產品推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 8925ms

    載入詳情中…

  • 案例 53AC576A

    為什麼我問的問題不會推薦產品?

    已完成
    第 1 次嘗試 · 已完成 11894ms

    載入詳情中…

  • 案例 FA3AFF6F

    我想知道假髮的種類有哪些

    已完成
    第 1 次嘗試 · 已完成 2693ms

    載入詳情中…

  • 案例 DDFA8E2E

    請問有關最新的髮片資訊可以查詢哪些內容呢?

    已完成
    第 1 次嘗試 · 已完成 11027ms

    載入詳情中…

  • 案例 F3F6CF58

    推介一下你們的假髮有哪些?

    已完成
    第 1 次嘗試 · 已完成 4332ms

    載入詳情中…

  • 案例 C0A19F5E

    有什麼髮片嗎?

    已完成
    第 1 次嘗試 · 已完成 3053ms

    載入詳情中…

  • 案例 379326FF

    我想知道你們的知識查詢是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 12972ms

    載入詳情中…

  • 案例 C9E1AF54

    我想知道你們有哪些產品

    已完成
    第 1 次嘗試 · 已完成 15420ms

    載入詳情中…

  • 案例 75389657

    這個搜尋工具是什麼?

    已完成
    第 1 次嘗試 · 已完成 11342ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
2 / 2 適用
答得到位 平均
answer_quality
31.7%
[26.7% – 36.7%] · n=2
2 / 2 適用
  • 案例 39B9919C

    我想要轉接真人客服,可以嗎

    已完成
    第 1 次嘗試 · 已完成 7793ms

    載入詳情中…

  • 案例 0B469E27

    可以推薦一下產品嗎?

    已完成
    第 1 次嘗試 · 已完成 9481ms

    載入詳情中…