執行 #130

HeySong (bulk R1) → production-canary (canary)

狀態
已完成
案例
13
開始時間
16 May 11:42
耗時
699.0s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.2165
Total Bot Cost · USD
8.7%
Prompt Cache Hit
cost per case
$0.0167
cost per 1k tokens
$0.0020
input tokens
103,551
output tokens
2,850
cached tokens — prompt-cache hit
8,960
Total Tokens
106,401
economic efficiency
cost per correct
$0.0057
pass rate
15.4%
2 / 13
judge cost
$0.0115
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 731344ba-569c-4e27-871f-4b8d52d81cb8 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:b73471cb AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
0
首字延遲 p95
6713 ms
Bot 成本(Neptune)
$0.2165
Bot Tokens(Neptune)
106,401
Judge 成本(Eris)
$0.0115
Judge Tokens(Eris)
87,419
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
90.0%
[70.0% – 100.0%] · n=10
F1 90.0% · 召回 90.0% · 精確 90.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=9
F1 100.0% · 召回 100.0% · 精確 100.0%
9 / 10 適用
答得到位 平均
answer_quality
44.3%
[35.3% – 54.7%] · n=10
10 / 10 適用
  • 案例 B14331E7

    情境 ABC 是什麼時候觸發的?

    已完成
    第 1 次嘗試 · 已完成 75254ms

    載入詳情中…

  • 案例 A6FBE4BC

    這個髮片價格多少?

    已完成
    第 1 次嘗試 · 已完成 73153ms

    載入詳情中…

  • 案例 ED1D289A

    活動有什麼優惠嗎

    已完成
    第 1 次嘗試 · 已完成 56963ms

    載入詳情中…

  • 案例 F9B7FA83

    貴公司的服務時間是什麼呢?還有退換貨的規定是怎樣?

    已完成
    第 1 次嘗試 · 已完成 31700ms

    載入詳情中…

  • 案例 6E30B88A

    請問有關活動的資訊是什麼呢?

    已完成
    第 1 次嘗試 · 已完成 34351ms

    載入詳情中…

  • 案例 C181D6EF

    為什麼我的查詢沒有回應? 我隨便問的問題就沒有觸發?

    已完成
    第 1 次嘗試 · 已完成 57279ms

    載入詳情中…

  • 案例 55CD58F3

    這款髮片功能是什麼?

    已完成
    第 1 次嘗試 · 已完成 47587ms

    載入詳情中…

  • 案例 BC8B142F

    請問怎麼查詢你們的產品資訊呢?

    已完成
    第 1 次嘗試 · 已完成 45067ms

    載入詳情中…

  • 案例 01F37266

    如果無法使用服務的話該怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 61451ms

    載入詳情中…

  • 案例 08B0401B

    遇到登入問題的話怎麼處理?

    已完成
    第 1 次嘗試 · 已完成 29865ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
3 / 3 適用
答得到位 平均
answer_quality
36.7%
[26.7% – 43.3%] · n=3
3 / 3 適用
  • 案例 D699C3A7

    我很不高興,為什麼不能轉接真人客服?

    已完成
    第 1 次嘗試 · 已完成 16969ms

    載入詳情中…

  • 案例 4834AC77

    解決問題失敗後怎麼辦

    已完成
    第 1 次嘗試 · 已完成 24387ms

    載入詳情中…

  • 案例 EF45BB33

    查詢的話要怎麼問?

    已完成
    第 1 次嘗試 · 已完成 57668ms

    載入詳情中…