執行 #234
Test Bot - Neptune (bulk R1) → production-canary (canary)
- 狀態
- 已完成
- 案例
- 4
- 開始時間
- 16 May 12:32
- 耗時
- 754.0s
- cost per correct
- $0.0016
- pass rate
- 25.0%
- 1 / 4
- judge cost
- $0.0016
設定快照(reproducibility)
Bot 設定快照
-
test_only_bot_4
Judge 設定快照
model: gpt-4o-mini
T=0.0
max=4096
prompt: v1
4 / 4
0
0
7619 ms
—
—
$0.0016
14,465
Bot 成本 / Tokens(左兩張)— production endpoint 不公開、都會回 0;要看真實 bot inference 成本請 點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens(右兩張)是 Eris 端真實數據,詳情可看評估報告的 Run Economics 章節。
情境調用與完成
情境調用與完成
維度總表
走對流程
召回
scenario
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 0.0%
2 / 2 適用
用對工具
召回
tool_usage
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 100.0%
2 / 2 適用
答得到位
平均
answer_quality
68.3%
[60.0% – 76.7%] · n=2
2 / 2 適用
-
案例 7CDC0611
可以查之前的對話嗎
第 1 次嘗試 · 已完成 10176ms載入詳情中…
-
案例 8917AEAD
請問當問題超出你們的能力範圍時,可以轉接給人類客服代理嗎?
第 1 次嘗試 · 已完成 26198ms載入詳情中…
對話素養(混合問答)
對話素養(混合問答)
維度總表
找對資料
召回
retrieval
—
—
不亂編造
平均
faithfulness
—
2 / 2 適用
答得到位
平均
answer_quality
26.7%
[26.7% – 26.7%] · n=2
2 / 2 適用
-
案例 681B694D
請問使用 get_history 時,要帶入什麼參數才能取得完整內容?
第 1 次嘗試 · 已完成 24669ms載入詳情中…
-
案例 E2D4FE46
問題超出 AI 能力了,怎麼轉接給人啊?
第 1 次嘗試 · 已完成 16044ms載入詳情中…