執行 #236

Test Bot - Neptune (bulk R1) → production-canary (canary)

↓ EXPORT · HTML下載頁面 II. EVAL REPORT兩項目評估報告

狀態: 已完成
案例: 4
開始時間: 16 May 12:32
耗時: 565.7s

economic efficiency

cost per correct: —
pass rate: 0.0%; 0 / 4
judge cost: $0.0017

設定快照（reproducibility） 1 個 bot 已捕捉 · Judge：gpt-4o-mini

Bot 設定快照

test_only_bot 0 筆 KB

SystemPrompt: — KBContent: sha256:e3b0c442 Tools: sha256:387a5330 Scenarios: sha256:e3b0c442 AI: — (T=—, max=—)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1

已完成

4 / 4

錯誤

失敗維度

首字延遲 p95

5245 ms

Bot 成本（Neptune）

—

Bot Tokens（Neptune）

—

Judge 成本（Eris）

$0.0017

Judge Tokens（Eris）

14,670

Bot 成本 / Tokens（左兩張）— production endpoint 不公開、都會回 0；要看真實 bot inference 成本請點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens（右兩張）是 Eris 端真實數據，詳情可看評估報告的 Run Economics 章節。

維度總表

各維度品質分 · 覆蓋率

走對流程召回

scenario

0.0%

[0.0% – 0.0%] · n=2

F1 0.0% · 召回 0.0% · 精確 0.0%

2 / 2 適用

用對工具召回

tool_usage

0.0%

[0.0% – 0.0%] · n=2

F1 0.0% · 召回 0.0% · 精確 100.0%

2 / 2 適用

答得到位平均

answer_quality

21.7%

[10.0% – 33.3%] · n=2

2 / 2 適用

案例 43F2980B

為什麼我不能轉接到人類客服?

已完成

第 1 次嘗試 · 已完成 19399ms

載入詳情中…
案例 54CB3F04

請問可以檢索最近 7 輪之前的對話嗎？

已完成

第 1 次嘗試 · 已完成 33314ms

載入詳情中…

維度總表

各維度品質分 · 覆蓋率

找對資料召回

retrieval

—

不亂編造平均

faithfulness

—

2 / 2 適用

答得到位平均

answer_quality

21.7%

[0.0% – 43.3%] · n=2

2 / 2 適用

案例 8EC6B4EA

請問可以檢索最近 7 輪之前的對話嗎？

已完成

第 1 次嘗試 · 已完成 22359ms

載入詳情中…
案例 7EC82911

負面情緒的時候要怎麼處理?

已完成

第 1 次嘗試 · 已完成 6780ms

載入詳情中…

執行 #236

Bot 設定快照

Judge 設定快照

情境調用與完成

維度總表

為什麼我不能轉接到人類客服?

請問可以檢索最近 7 輪之前的對話嗎？

對話素養（混合問答）

維度總表

請問可以檢索最近 7 輪之前的對話嗎？

負面情緒的時候要怎麼處理?