執行 #233
Test Bot - Neptune (bulk R1) → production-baseline
- 狀態
- 已完成
- 案例
- 4
- 開始時間
- 16 May 12:31
- 耗時
- 306.1s
- cost per correct
- $0.0015
- pass rate
- 25.0%
- 1 / 4
- judge cost
- $0.0015
設定快照(reproducibility)
Bot 設定快照
-
test_only_bot_4
Judge 設定快照
model: gpt-4o-mini
T=0.0
max=4096
prompt: v1
4 / 4
0
0
1214 ms
—
—
$0.0015
14,455
Bot 成本 / Tokens(左兩張)— production endpoint 不公開、都會回 0;要看真實 bot inference 成本請 點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens(右兩張)是 Eris 端真實數據,詳情可看評估報告的 Run Economics 章節。
情境調用與完成
情境調用與完成
維度總表
走對流程
召回
scenario
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 0.0%
2 / 2 適用
用對工具
召回
tool_usage
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 100.0%
2 / 2 適用
答得到位
平均
answer_quality
50.0%
[40.0% – 60.0%] · n=2
2 / 2 適用
-
案例 7CDC0611
可以查之前的對話嗎
第 1 次嘗試 · 已完成 4474ms載入詳情中…
-
案例 8917AEAD
請問當問題超出你們的能力範圍時,可以轉接給人類客服代理嗎?
第 1 次嘗試 · 已完成 5038ms載入詳情中…
對話素養(混合問答)
對話素養(混合問答)
維度總表
找對資料
召回
retrieval
—
—
不亂編造
平均
faithfulness
—
2 / 2 適用
答得到位
平均
answer_quality
35.0%
[0.0% – 70.0%] · n=2
2 / 2 適用
-
案例 681B694D
請問使用 get_history 時,要帶入什麼參數才能取得完整內容?
第 1 次嘗試 · 已完成 5908ms載入詳情中…
-
案例 E2D4FE46
問題超出 AI 能力了,怎麼轉接給人啊?
第 1 次嘗試 · 已完成 6523ms載入詳情中…