執行 #234

Test Bot - Neptune (bulk R1) → production-canary (canary)

↓ EXPORT · HTML下載頁面 II. EVAL REPORT兩項目評估報告

狀態: 已完成
案例: 4
開始時間: 16 May 12:32
耗時: 754.0s

economic efficiency

cost per correct: $0.0016
pass rate: 25.0%; 1 / 4
judge cost: $0.0016

設定快照（reproducibility） 1 個 bot 已捕捉 · Judge：gpt-4o-mini

Bot 設定快照

test_only_bot_4 0 筆 KB

SystemPrompt: — KBContent: sha256:e3b0c442 Tools: sha256:387a5330 Scenarios: sha256:e3b0c442 AI: — (T=—, max=—)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1

已完成

4 / 4

錯誤

失敗維度

首字延遲 p95

7619 ms

Bot 成本（Neptune）

—

Bot Tokens（Neptune）

—

Judge 成本（Eris）

$0.0016

Judge Tokens（Eris）

14,465

Bot 成本 / Tokens（左兩張）— production endpoint 不公開、都會回 0；要看真實 bot inference 成本請點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens（右兩張）是 Eris 端真實數據，詳情可看評估報告的 Run Economics 章節。

維度總表

各維度品質分 · 覆蓋率

走對流程召回

scenario

0.0%

[0.0% – 0.0%] · n=2

F1 0.0% · 召回 0.0% · 精確 0.0%

2 / 2 適用

用對工具召回

tool_usage

0.0%

[0.0% – 0.0%] · n=2

F1 0.0% · 召回 0.0% · 精確 100.0%

2 / 2 適用

答得到位平均

answer_quality

68.3%

[60.0% – 76.7%] · n=2

2 / 2 適用

案例 7CDC0611

可以查之前的對話嗎

已完成
第 1 次嘗試 · 已完成 10176ms
腳本進度 · early_return ✗ 卡關

STEP

01

觸發條件
✗ 未進入 early_return

STEP

02

資訊收集
— 此案例不測

此案例 info_held 為空 — bot 不需問取資訊

STEP

03

API 工具
✗ 已呼叫 0 / 1 個工具

未呼叫：get_history

STEP

04

回覆規則
● bot 已回覆（單問單答案例，未啟用多輪迴圈）

測試 3 步 · 此案例不測 1 步

對話流程 · 1 turn

Turn 1 STEP 04

USER可以查之前的對話嗎

BOT稍等一下我來幫您查詢 💡
情境路由
0.0%

Precision

0.0%

Recall

0.0%

F1

0.0%

預期 (1)

✗ early_return · early_return

意料之外 (1)

! 知識與產品查詢

TP 0

FP 1

FN 1

工具使用
0.0%

Precision

—

Recall

0.0%

F1

0.0%

預期 (1)

✗ get_history

TP 0

FP 0

FN 1

回答品質
76.7%

相關性

90.0%

完整性

50.0%

正確性

90.0%

加權拆解 · 三層 coverage

I 核心

50.0% · w 60%

可以查詢最近 7 輪之前的對話記錄
可以選擇摘要或全內容

II 重要

—

III 補充

—

AI 回覆

稍等一下我來幫您查詢 💡

預期答案 · 加權拆解

I 核心必答 w 60%

可以查詢最近 7 輪之前的對話記錄
可以選擇摘要或全內容

Judge 推理

回覆雖然有回應查詢的意圖，但未提供具體的查詢內容，缺少了關鍵的資訊，導致完整性得分偏低。
案例 8917AEAD

請問當問題超出你們的能力範圍時，可以轉接給人類客服代理嗎？

已完成
第 1 次嘗試 · 已完成 26198ms
腳本進度 · early_return ✗ 卡關

STEP

01

觸發條件
✗ 未進入 early_return

STEP

02

資訊收集
— 此案例不測

此案例 info_held 為空 — bot 不需問取資訊

STEP

03

API 工具
✗ 已呼叫 0 / 1 個工具

未呼叫：transfer_to_human_agent

STEP

04

回覆規則
● bot 已回覆（單問單答案例，未啟用多輪迴圈）

測試 3 步 · 此案例不測 1 步

對話流程 · 1 turn

Turn 1 STEP 04

USER請問當問題超出你們的能力範圍時，可以轉接給人類客服代理嗎？

BOT讓我幫您查詢一下相關資訊 🔍
情境路由
0.0%

Precision

0.0%

Recall

0.0%

F1

0.0%

預期 (1)

✗ early_return · early_return

意料之外 (1)

! 知識與產品查詢

TP 0

FP 1

FN 1

工具使用
0.0%

Precision

—

Recall

0.0%

F1

0.0%

預期 (1)

✗ transfer_to_human_agent

TP 0

FP 0

FN 1

回答品質
60.0%

相關性

50.0%

完整性

30.0%

正確性

100.0%

加權拆解 · 三層 coverage

I 核心

0.0% · w 60%

可以轉接給人類客服代理

II 重要

—

III 補充

—

AI 回覆

讓我幫您查詢一下相關資訊 🔍

預期答案 · 加權拆解

I 核心必答 w 60%

可以轉接給人類客服代理

Judge 推理

回覆未直接回答用戶的問題，缺少了關鍵的核心內容，未能提供明確的轉接資訊。

維度總表

各維度品質分 · 覆蓋率

找對資料召回

retrieval

—

不亂編造平均

faithfulness

—

2 / 2 適用

答得到位平均

answer_quality

26.7%

[26.7% – 26.7%] · n=2

2 / 2 適用

案例 681B694D

請問使用 get_history 時，要帶入什麼參數才能取得完整內容？

已完成
第 1 次嘗試 · 已完成 24669ms
腳本進度 · early_return ✗ 卡關

STEP

01

觸發條件
✗ 未進入 early_return

STEP

02

資訊收集
— 此案例不測

此案例 info_held 為空 — bot 不需問取資訊

STEP

03

API 工具
✗ 已呼叫 0 / 1 個工具

未呼叫：get_history

STEP

04

回覆規則
● bot 已回覆（單問單答案例，未啟用多輪迴圈）

測試 3 步 · 此案例不測 1 步

對話流程 · 1 turn

Turn 1 STEP 04

USER請問使用 get_history 時，要帶入什麼參數才能取得完整內容？

BOT馬上為您找找看相關內容 📋
回答品質
26.7%

相關性

50.0%

完整性

30.0%

正確性

0.0%

加權拆解 · 三層 coverage

I 核心

0.0% · w 60%

使用 get_history 時，必須帶入 trace 或 end_trace 參數才能返回完整內容

II 重要

—

III 補充

—

AI 回覆

馬上為您找找看相關內容 📋

預期答案 · 加權拆解

I 核心必答 w 60%

使用 get_history 時，必須帶入 trace 或 end_trace 參數才能返回完整內容

Judge 推理

AI 的回覆未能直接回答使用者的問題，缺乏必要的參數資訊，導致相關性和完整性得分低。
案例 E2D4FE46

問題超出 AI 能力了，怎麼轉接給人啊？

已完成
第 1 次嘗試 · 已完成 16044ms
腳本進度 · early_return ✗ 卡關

STEP

01

觸發條件
✗ 未進入 early_return

STEP

02

資訊收集
— 此案例不測

此案例 info_held 為空 — bot 不需問取資訊

STEP

03

API 工具
✗ 已呼叫 0 / 1 個工具

未呼叫：transfer_to_human_agent

STEP

04

回覆規則
● bot 已回覆（單問單答案例，未啟用多輪迴圈）

測試 3 步 · 此案例不測 1 步

對話流程 · 1 turn

Turn 1 STEP 04

USER問題超出 AI 能力了，怎麼轉接給人啊？

BOT讓我幫您查詢一下相關資訊 🔍
回答品質
26.7%

相關性

50.0%

完整性

30.0%

正確性

0.0%

加權拆解 · 三層 coverage

I 核心

0.0% · w 60%

可以直接請求轉接給人類客服代理
如果 AI 無法回答問題多次，也會自動轉接

II 重要

—

III 補充

—

AI 回覆

讓我幫您查詢一下相關資訊 🔍

預期答案 · 加權拆解

I 核心必答 w 60%

可以直接請求轉接給人類客服代理
如果 AI 無法回答問題多次，也會自動轉接

Judge 推理

AI 的回覆未能直接回答用戶的問題，且缺少了轉接給人類客服的具體指示，導致回答不完整。

執行 #234

Bot 設定快照

Judge 設定快照

情境調用與完成

維度總表

可以查之前的對話嗎

觸發條件

資訊收集

API 工具

回覆規則

情境路由

工具使用

回答品質

請問當問題超出你們的能力範圍時，可以轉接給人類客服代理嗎？

觸發條件

資訊收集

API 工具

回覆規則

情境路由

工具使用

回答品質

對話素養（混合問答）

維度總表

請問使用 get_history 時，要帶入什麼參數才能取得完整內容？

觸發條件

資訊收集

API 工具

回覆規則

回答品質

問題超出 AI 能力了，怎麼轉接給人啊？

觸發條件

資訊收集

API 工具

回覆規則

回答品質