執行 #234

Test Bot - Neptune (bulk R1) → production-canary (canary)

狀態
已完成
案例
4
開始時間
16 May 12:32
耗時
754.0s
economic efficiency
cost per correct
$0.0016
pass rate
25.0%
1 / 4
judge cost
$0.0016
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • test_only_bot_4 0 筆 KB
    SystemPrompt: — KBContent: sha256:e3b0c442 Tools: sha256:387a5330 Scenarios: sha256:e3b0c442 AI: — (T=—, max=—)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
4 / 4
錯誤
0
失敗維度
0
首字延遲 p95
7619 ms
Bot 成本(Neptune)
Bot Tokens(Neptune)
Judge 成本(Eris)
$0.0016
Judge Tokens(Eris)
14,465

Bot 成本 / Tokens(左兩張)— production endpoint 不公開、都會回 0;要看真實 bot inference 成本請 點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens(右兩張)是 Eris 端真實數據,詳情可看評估報告的 Run Economics 章節。

項目 II.

情境調用與完成

scenario_funnel 2 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 0.0%
2 / 2 適用
用對工具 召回
tool_usage
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 100.0%
2 / 2 適用
答得到位 平均
answer_quality
68.3%
[60.0% – 76.7%] · n=2
2 / 2 適用
  • 案例 7CDC0611

    可以查之前的對話嗎

    已完成
    第 1 次嘗試 · 已完成 10176ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:get_history
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER可以查之前的對話嗎
    BOT稍等一下我來幫您查詢 💡

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • early_return · early_return
    意料之外 (1)
    • ! 知識與產品查詢
    TP 0
    FP 1
    FN 1

    工具使用

    0.0%
    Precision
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • get_history
    TP 0
    FP 0
    FN 1

    回答品質

    76.7%
    相關性
    90.0%
    完整性
    50.0%
    正確性
    90.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 可以查詢最近 7 輪之前的對話記錄
    • 可以選擇摘要或全內容
    II 重要
    III 補充
    AI 回覆
    稍等一下我來幫您查詢 💡
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以查詢最近 7 輪之前的對話記錄
    • 可以選擇摘要或全內容
    Judge 推理
    回覆雖然有回應查詢的意圖,但未提供具體的查詢內容,缺少了關鍵的資訊,導致完整性得分偏低。
  • 案例 8917AEAD

    請問當問題超出你們的能力範圍時,可以轉接給人類客服代理嗎?

    已完成
    第 1 次嘗試 · 已完成 26198ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:transfer_to_human_agent
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER請問當問題超出你們的能力範圍時,可以轉接給人類客服代理嗎?
    BOT讓我幫您查詢一下相關資訊 🔍

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • early_return · early_return
    意料之外 (1)
    • ! 知識與產品查詢
    TP 0
    FP 1
    FN 1

    工具使用

    0.0%
    Precision
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • transfer_to_human_agent
    TP 0
    FP 0
    FN 1

    回答品質

    60.0%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    100.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 可以轉接給人類客服代理
    II 重要
    III 補充
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以轉接給人類客服代理
    Judge 推理
    回覆未直接回答用戶的問題,缺少了關鍵的核心內容,未能提供明確的轉接資訊。
項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
2 / 2 適用
答得到位 平均
answer_quality
26.7%
[26.7% – 26.7%] · n=2
2 / 2 適用
  • 案例 681B694D

    請問使用 get_history 時,要帶入什麼參數才能取得完整內容?

    已完成
    第 1 次嘗試 · 已完成 24669ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:get_history
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER請問使用 get_history 時,要帶入什麼參數才能取得完整內容?
    BOT馬上為您找找看相關內容 📋

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 使用 get_history 時,必須帶入 trace 或 end_trace 參數才能返回完整內容
    II 重要
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 使用 get_history 時,必須帶入 trace 或 end_trace 參數才能返回完整內容
    Judge 推理
    AI 的回覆未能直接回答使用者的問題,缺乏必要的參數資訊,導致相關性和完整性得分低。
  • 案例 E2D4FE46

    問題超出 AI 能力了,怎麼轉接給人啊?

    已完成
    第 1 次嘗試 · 已完成 16044ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:transfer_to_human_agent
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER問題超出 AI 能力了,怎麼轉接給人啊?
    BOT讓我幫您查詢一下相關資訊 🔍

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 可以直接請求轉接給人類客服代理
    • 如果 AI 無法回答問題多次,也會自動轉接
    II 重要
    III 補充
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以直接請求轉接給人類客服代理
    • 如果 AI 無法回答問題多次,也會自動轉接
    Judge 推理
    AI 的回覆未能直接回答用戶的問題,且缺少了轉接給人類客服的具體指示,導致回答不完整。