執行 #224

Sony (bulk R1) → production-canary (canary)

狀態
已完成
案例
13
開始時間
16 May 12:28
耗時
482.5s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.1146
Total Bot Cost · USD
36.8%
Prompt Cache Hit
cost per case
$0.0088
cost per 1k tokens
$0.0016
input tokens
70,211
output tokens
1,621
cached tokens — prompt-cache hit
25,856
Total Tokens
71,832
economic efficiency
cost per correct
$0.0026
pass rate
23.1%
3 / 13
judge cost
$0.0077
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • b3d1a110-e484-4c3a-8de8-aa8be652f219 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:31b2a605 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
1
首字延遲 p95
25430 ms
Bot 成本(Neptune)
$0.1146
Bot Tokens(Neptune)
71,832
Judge 成本(Eris)
$0.0077
Judge Tokens(Eris)
64,315
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 96.7% · 召回 100.0% · 精確 95.0%
10 / 10 適用
用對工具 召回
tool_usage
60.0%
[30.0% – 90.0%] · n=10
F1 60.0% · 召回 60.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
35.3%
[23.3% – 50.3%] · n=10
10 / 10 適用
  • 案例 61C17514

    我想找適合我的髮片,推薦一下嗎?

    已完成
    第 1 次嘗試 · 已完成 19209ms

    載入詳情中…

  • 案例 78D9FFE8

    請問如果我想了解產品的相關資訊該怎麼查詢呢?

    已完成
    第 1 次嘗試 · 已完成 38069ms

    載入詳情中…

  • 案例 3A676D35

    你們有什麼推薦的產品?

    已完成
    第 1 次嘗試 · 已完成 17532ms

    載入詳情中…

  • 案例 5D6C9E47

    你們的產品查詢怎麼用啊

    已完成
    第 1 次嘗試 · 已完成 41577ms

    載入詳情中…

  • 案例 F392BBB7

    可以推薦我適合的產品嗎?

    已完成
    第 1 次嘗試 · 已完成 19667ms

    載入詳情中…

  • 案例 BDA0C153

    你們那個新出來的髮片效果怎麼樣?

    已完成
    第 1 次嘗試 · 已完成 24821ms

    載入詳情中…

  • 案例 FD6B7D6F

    查詢產品資訊的時候會不會用並發搜尋啊

    已完成
    第 1 次嘗試 · 已完成 25012ms

    載入詳情中…

  • 案例 526982ED

    有沒有什麼資訊可以告訴我關於髮片的價格和特點?

    已完成
    第 1 次嘗試 · 已完成 63337ms

    載入詳情中…

  • 案例 D8154FB7

    你們有沒有進階統一搜尋的工具可以用?

    已完成
    第 1 次嘗試 · 已完成 44853ms

    載入詳情中…

  • 案例 0EE3D3E2

    如果我有需要解決的問題,能否幫我推薦適合的產品呢?

    已完成
    第 1 次嘗試 · 已完成 26060ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
3 / 3 適用
答得到位 平均
answer_quality
51.1%
[26.7% – 83.3%] · n=3
3 / 3 適用
  • 案例 F3C5E0C2

    請問有推薦的產品類型嗎?

    已完成
    第 1 次嘗試 · 已完成 17741ms

    載入詳情中…

  • 案例 073AA720

    想跟真人客服聊天

    已完成
    第 1 次嘗試 · 已完成 7568ms

    載入詳情中…

  • 案例 2E83A143

    我可以查什麼產品資訊?

    已完成
    第 1 次嘗試 · 已完成 39202ms

    載入詳情中…