執行 #236
Test Bot - Neptune (bulk R1) → production-canary (canary)
- 狀態
- 已完成
- 案例
- 4
- 開始時間
- 16 May 12:32
- 耗時
- 565.7s
- cost per correct
- —
- pass rate
- 0.0%
- 0 / 4
- judge cost
- $0.0017
設定快照(reproducibility)
Bot 設定快照
-
test_only_bot
Judge 設定快照
model: gpt-4o-mini
T=0.0
max=4096
prompt: v1
4 / 4
0
0
5245 ms
—
—
$0.0017
14,670
Bot 成本 / Tokens(左兩張)— production endpoint 不公開、都會回 0;要看真實 bot inference 成本請 點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens(右兩張)是 Eris 端真實數據,詳情可看評估報告的 Run Economics 章節。
情境調用與完成
情境調用與完成
維度總表
走對流程
召回
scenario
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 0.0%
2 / 2 適用
用對工具
召回
tool_usage
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 100.0%
2 / 2 適用
答得到位
平均
answer_quality
21.7%
[10.0% – 33.3%] · n=2
2 / 2 適用
-
案例 43F2980B
為什麼我不能轉接到人類客服?
第 1 次嘗試 · 已完成 19399ms載入詳情中…
-
案例 54CB3F04
請問可以檢索最近 7 輪之前的對話嗎?
第 1 次嘗試 · 已完成 33314ms載入詳情中…
對話素養(混合問答)
對話素養(混合問答)
維度總表
找對資料
召回
retrieval
—
—
不亂編造
平均
faithfulness
—
2 / 2 適用
答得到位
平均
answer_quality
21.7%
[0.0% – 43.3%] · n=2
2 / 2 適用
-
案例 8EC6B4EA
請問可以檢索最近 7 輪之前的對話嗎?
第 1 次嘗試 · 已完成 22359ms載入詳情中…
-
案例 7EC82911
負面情緒的時候要怎麼處理?
第 1 次嘗試 · 已完成 6780ms載入詳情中…