執行 #233

Test Bot - Neptune (bulk R1) → production-baseline

↓ EXPORT · HTML下載頁面 II. EVAL REPORT兩項目評估報告

狀態: 已完成
案例: 4
開始時間: 16 May 12:31
耗時: 306.1s

economic efficiency

cost per correct: $0.0015
pass rate: 25.0%; 1 / 4
judge cost: $0.0015

設定快照（reproducibility） 1 個 bot 已捕捉 · Judge：gpt-4o-mini

Bot 設定快照

test_only_bot_4 0 筆 KB

SystemPrompt: — KBContent: sha256:e3b0c442 Tools: sha256:387a5330 Scenarios: sha256:e3b0c442 AI: — (T=—, max=—)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1

已完成

4 / 4

錯誤

失敗維度

首字延遲 p95

1214 ms

Bot 成本（Neptune）

—

Bot Tokens（Neptune）

—

Judge 成本（Eris）

$0.0015

Judge Tokens（Eris）

14,455

Bot 成本 / Tokens（左兩張）— production endpoint 不公開、都會回 0；要看真實 bot inference 成本請點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens（右兩張）是 Eris 端真實數據，詳情可看評估報告的 Run Economics 章節。

維度總表

各維度品質分 · 覆蓋率

走對流程召回

scenario

0.0%

[0.0% – 0.0%] · n=2

F1 0.0% · 召回 0.0% · 精確 0.0%

2 / 2 適用

用對工具召回

tool_usage

0.0%

[0.0% – 0.0%] · n=2

F1 0.0% · 召回 0.0% · 精確 100.0%

2 / 2 適用

答得到位平均

answer_quality

50.0%

[40.0% – 60.0%] · n=2

2 / 2 適用

案例 7CDC0611

可以查之前的對話嗎

已完成

第 1 次嘗試 · 已完成 4474ms

載入詳情中…
案例 8917AEAD

請問當問題超出你們的能力範圍時，可以轉接給人類客服代理嗎？

已完成

第 1 次嘗試 · 已完成 5038ms

載入詳情中…

維度總表

各維度品質分 · 覆蓋率

找對資料召回

retrieval

—

不亂編造平均

faithfulness

—

2 / 2 適用

答得到位平均

answer_quality

35.0%

[0.0% – 70.0%] · n=2

2 / 2 適用

案例 681B694D

請問使用 get_history 時，要帶入什麼參數才能取得完整內容？

已完成

第 1 次嘗試 · 已完成 5908ms

載入詳情中…
案例 E2D4FE46

問題超出 AI 能力了，怎麼轉接給人啊？

已完成

第 1 次嘗試 · 已完成 6523ms

載入詳情中…

執行 #233

Bot 設定快照

Judge 設定快照

情境調用與完成

維度總表

可以查之前的對話嗎

請問當問題超出你們的能力範圍時，可以轉接給人類客服代理嗎？

對話素養（混合問答）

維度總表

請問使用 get_history 時，要帶入什麼參數才能取得完整內容？

問題超出 AI 能力了，怎麼轉接給人啊？