執行 #235

Test Bot - Neptune (bulk R1) → production-baseline

↓ EXPORT · HTML下載頁面 II. EVAL REPORT兩項目評估報告

狀態: 已完成
案例: 4
開始時間: 16 May 12:32
耗時: 549.7s

economic efficiency

cost per correct: —
pass rate: 0.0%; 0 / 4
judge cost: $0.0017

設定快照（reproducibility） 1 個 bot 已捕捉 · Judge：gpt-4o-mini

Bot 設定快照

test_only_bot 0 筆 KB

SystemPrompt: — KBContent: sha256:e3b0c442 Tools: sha256:387a5330 Scenarios: sha256:e3b0c442 AI: — (T=—, max=—)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1

已完成

4 / 4

錯誤

失敗維度

首字延遲 p95

997 ms

Bot 成本（Neptune）

—

Bot Tokens（Neptune）

—

Judge 成本（Eris）

$0.0017

Judge Tokens（Eris）

14,687

Bot 成本 / Tokens（左兩張）— production endpoint 不公開、都會回 0；要看真實 bot inference 成本請點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens（右兩張）是 Eris 端真實數據，詳情可看評估報告的 Run Economics 章節。

維度總表

各維度品質分 · 覆蓋率

走對流程召回

scenario

0.0%

[0.0% – 0.0%] · n=2

F1 0.0% · 召回 0.0% · 精確 0.0%

2 / 2 適用

用對工具召回

tool_usage

0.0%

[0.0% – 0.0%] · n=2

F1 0.0% · 召回 0.0% · 精確 100.0%

2 / 2 適用

答得到位平均

answer_quality

30.0%

[26.7% – 33.3%] · n=2

2 / 2 適用

案例 43F2980B

為什麼我不能轉接到人類客服?

已完成
第 1 次嘗試 · 已完成 6632ms
腳本進度 · early_return ✗ 卡關

STEP

01

觸發條件
✗ 未進入 early_return

STEP

02

資訊收集
— 此案例不測

此案例 info_held 為空 — bot 不需問取資訊

STEP

03

API 工具
✗ 已呼叫 0 / 1 個工具

未呼叫：transfer_to_human_agent

STEP

04

回覆規則
● bot 已回覆（單問單答案例，未啟用多輪迴圈）

測試 3 步 · 此案例不測 1 步

對話流程 · 1 turn

Turn 1 STEP 04

USER為什麼我不能轉接到人類客服?

BOT稍等一下，正在為您查詢中...
情境路由
0.0%

Precision

0.0%

Recall

0.0%

F1

0.0%

預期 (1)

✗ early_return · early_return

意料之外 (1)

! 知識與產品查詢

TP 0

FP 1

FN 1

工具使用
0.0%

Precision

—

Recall

0.0%

F1

0.0%

預期 (1)

✗ transfer_to_human_agent

TP 0

FP 0

FN 1

回答品質
26.7%

相關性

50.0%

完整性

30.0%

正確性

0.0%

加權拆解 · 三層 coverage

I 核心

0.0% · w 60%

可以幫你轉接到人類客服

II 重要

—

III 補充

—

AI 回覆

稍等一下，正在為您查詢中...

預期答案 · 加權拆解

I 核心必答 w 60%

可以幫你轉接到人類客服

Judge 推理

回覆未能直接回答為何無法轉接到人類客服，且缺少了關鍵的轉接條件，導致回答不完整。
案例 54CB3F04

請問可以檢索最近 7 輪之前的對話嗎？

已完成
第 1 次嘗試 · 已完成 4291ms
腳本進度 · early_return ✗ 卡關

STEP

01

觸發條件
✗ 未進入 early_return

STEP

02

資訊收集
— 此案例不測

此案例 info_held 為空 — bot 不需問取資訊

STEP

03

API 工具
✗ 已呼叫 0 / 1 個工具

未呼叫：get_history

STEP

04

回覆規則
● bot 已回覆（單問單答案例，未啟用多輪迴圈）

測試 3 步 · 此案例不測 1 步

對話流程 · 1 turn

Turn 1 STEP 04

USER請問可以檢索最近 7 輪之前的對話嗎？

BOT稍等一下，正在為您查詢中...
情境路由
0.0%

Precision

0.0%

Recall

0.0%

F1

0.0%

預期 (1)

✗ early_return · early_return

意料之外 (1)

! 知識與產品查詢

TP 0

FP 1

FN 1

工具使用
0.0%

Precision

—

Recall

0.0%

F1

0.0%

預期 (1)

✗ get_history

TP 0

FP 0

FN 1

回答品質
33.3%

相關性

70.0%

完整性

30.0%

正確性

0.0%

加權拆解 · 三層 coverage

I 核心

0.0% · w 60%

使用 get_history 工具可檢索最近 7 輪之前的對話
沒有參數時，它將提供簡要摘要
若需要完整內容可以設定 trace 和 end_trace 參數

II 重要

—

III 補充

—

AI 回覆

稍等一下，正在為您查詢中...

預期答案 · 加權拆解

I 核心必答 w 60%

使用 get_history 工具可檢索最近 7 輪之前的對話
沒有參數時，它將提供簡要摘要
若需要完整內容可以設定 trace 和 end_trace 參數

Judge 推理

回覆未提供具體的檢索方法，缺乏關鍵資訊，且未正確回答用戶的問題。

維度總表

各維度品質分 · 覆蓋率

找對資料召回

retrieval

—

不亂編造平均

faithfulness

—

2 / 2 適用

答得到位平均

answer_quality

20.0%

[0.0% – 40.0%] · n=2

2 / 2 適用

案例 8EC6B4EA

請問可以檢索最近 7 輪之前的對話嗎？

已完成
第 1 次嘗試 · 已完成 4437ms
腳本進度 · early_return ✗ 卡關

STEP

01

觸發條件
✗ 未進入 early_return

STEP

02

資訊收集
— 此案例不測

此案例 info_held 為空 — bot 不需問取資訊

STEP

03

API 工具
✗ 已呼叫 0 / 1 個工具

未呼叫：get_history

STEP

04

回覆規則
● bot 已回覆（單問單答案例，未啟用多輪迴圈）

測試 3 步 · 此案例不測 1 步

對話流程 · 1 turn

Turn 1 STEP 04

USER請問可以檢索最近 7 輪之前的對話嗎？

BOT稍等一下，正在為您查詢中...
回答品質
40.0%

相關性

80.0%

完整性

40.0%

正確性

0.0%

加權拆解 · 三層 coverage

I 核心

0.0% · w 60%

透過 get_history 功能可以檢索最近 7 輪之前的對話
沒有參數的情況下將顯示精簡摘要
使用 trace 和 end_trace 可以查看完整內容

II 重要

—

III 補充

—

AI 回覆

稍等一下，正在為您查詢中...

預期答案 · 加權拆解

I 核心必答 w 60%

透過 get_history 功能可以檢索最近 7 輪之前的對話
沒有參數的情況下將顯示精簡摘要
使用 trace 和 end_trace 可以查看完整內容

Judge 推理

AI的回覆雖然有回應用戶的查詢，但並未提供具體的功能說明，缺乏關鍵資訊，導致完整性和正確性都很低。
案例 7EC82911

負面情緒的時候要怎麼處理?

已完成
第 1 次嘗試 · 已完成 4233ms
腳本進度 · early_return ✗ 卡關

STEP

01

觸發條件
✗ 未進入 early_return

STEP

02

資訊收集
— 此案例不測

此案例 info_held 為空 — bot 不需問取資訊

STEP

03

API 工具
✗ 已呼叫 0 / 1 個工具

未呼叫：transfer_to_human_agent

STEP

04

回覆規則
● bot 已回覆（單問單答案例，未啟用多輪迴圈）

測試 3 步 · 此案例不測 1 步

對話流程 · 1 turn

Turn 1 STEP 04

USER負面情緒的時候要怎麼處理?

BOT收到您的問題，馬上為您處理！
回答品質
0.0%

相關性

0.0%

完整性

0.0%

正確性

0.0%

加權拆解 · 三層 coverage

I 核心

0.0% · w 60%

當用戶表現出強烈的負面情緒時，應轉接給人類客服代理

II 重要

—

III 補充

—

AI 回覆

收到您的問題，馬上為您處理！

預期答案 · 加權拆解

I 核心必答 w 60%

當用戶表現出強烈的負面情緒時，應轉接給人類客服代理

Judge 推理

AI的回覆完全沒有針對用戶的問題進行回答，缺乏相關性和完整性。根據正確的回答，應該將用戶轉接給人類客服代理，但AI並未執行此操作。

執行 #235

Bot 設定快照

Judge 設定快照

情境調用與完成

維度總表

為什麼我不能轉接到人類客服?

觸發條件

資訊收集

API 工具

回覆規則

情境路由

工具使用

回答品質

請問可以檢索最近 7 輪之前的對話嗎？

觸發條件

資訊收集

API 工具

回覆規則

情境路由

工具使用

回答品質

對話素養（混合問答）

維度總表

請問可以檢索最近 7 輪之前的對話嗎？

觸發條件

資訊收集

API 工具

回覆規則

回答品質

負面情緒的時候要怎麼處理?

觸發條件

資訊收集

API 工具

回覆規則

回答品質