執行 #235

Test Bot - Neptune (bulk R1) → production-baseline

狀態
已完成
案例
4
開始時間
16 May 12:32
耗時
549.7s
economic efficiency
cost per correct
pass rate
0.0%
0 / 4
judge cost
$0.0017
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • test_only_bot 0 筆 KB
    SystemPrompt: — KBContent: sha256:e3b0c442 Tools: sha256:387a5330 Scenarios: sha256:e3b0c442 AI: — (T=—, max=—)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
4 / 4
錯誤
0
失敗維度
0
首字延遲 p95
997 ms
Bot 成本(Neptune)
Bot Tokens(Neptune)
Judge 成本(Eris)
$0.0017
Judge Tokens(Eris)
14,687

Bot 成本 / Tokens(左兩張)— production endpoint 不公開、都會回 0;要看真實 bot inference 成本請 點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens(右兩張)是 Eris 端真實數據,詳情可看評估報告的 Run Economics 章節。

項目 II.

情境調用與完成

scenario_funnel 2 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 0.0%
2 / 2 適用
用對工具 召回
tool_usage
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 100.0%
2 / 2 適用
答得到位 平均
answer_quality
30.0%
[26.7% – 33.3%] · n=2
2 / 2 適用
  • 案例 43F2980B

    為什麼我不能轉接到人類客服?

    已完成
    第 1 次嘗試 · 已完成 6632ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:transfer_to_human_agent
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER為什麼我不能轉接到人類客服?
    BOT稍等一下,正在為您查詢中...

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • early_return · early_return
    意料之外 (1)
    • ! 知識與產品查詢
    TP 0
    FP 1
    FN 1

    工具使用

    0.0%
    Precision
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • transfer_to_human_agent
    TP 0
    FP 0
    FN 1

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 可以幫你轉接到人類客服
    II 重要
    III 補充
    AI 回覆
    稍等一下,正在為您查詢中...
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以幫你轉接到人類客服
    Judge 推理
    回覆未能直接回答為何無法轉接到人類客服,且缺少了關鍵的轉接條件,導致回答不完整。
  • 案例 54CB3F04

    請問可以檢索最近 7 輪之前的對話嗎?

    已完成
    第 1 次嘗試 · 已完成 4291ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:get_history
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER請問可以檢索最近 7 輪之前的對話嗎?
    BOT稍等一下,正在為您查詢中...

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • early_return · early_return
    意料之外 (1)
    • ! 知識與產品查詢
    TP 0
    FP 1
    FN 1

    工具使用

    0.0%
    Precision
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • get_history
    TP 0
    FP 0
    FN 1

    回答品質

    33.3%
    相關性
    70.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 使用 get_history 工具可檢索最近 7 輪之前的對話
    • 沒有參數時,它將提供簡要摘要
    • 若需要完整內容可以設定 trace 和 end_trace 參數
    II 重要
    III 補充
    AI 回覆
    稍等一下,正在為您查詢中...
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 使用 get_history 工具可檢索最近 7 輪之前的對話
    • 沒有參數時,它將提供簡要摘要
    • 若需要完整內容可以設定 trace 和 end_trace 參數
    Judge 推理
    回覆未提供具體的檢索方法,缺乏關鍵資訊,且未正確回答用戶的問題。
項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
2 / 2 適用
答得到位 平均
answer_quality
20.0%
[0.0% – 40.0%] · n=2
2 / 2 適用
  • 案例 8EC6B4EA

    請問可以檢索最近 7 輪之前的對話嗎?

    已完成
    第 1 次嘗試 · 已完成 4437ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:get_history
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER請問可以檢索最近 7 輪之前的對話嗎?
    BOT稍等一下,正在為您查詢中...

    回答品質

    40.0%
    相關性
    80.0%
    完整性
    40.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 透過 get_history 功能可以檢索最近 7 輪之前的對話
    • 沒有參數的情況下將顯示精簡摘要
    • 使用 trace 和 end_trace 可以查看完整內容
    II 重要
    III 補充
    AI 回覆
    稍等一下,正在為您查詢中...
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 透過 get_history 功能可以檢索最近 7 輪之前的對話
    • 沒有參數的情況下將顯示精簡摘要
    • 使用 trace 和 end_trace 可以查看完整內容
    Judge 推理
    AI的回覆雖然有回應用戶的查詢,但並未提供具體的功能說明,缺乏關鍵資訊,導致完整性和正確性都很低。
  • 案例 7EC82911

    負面情緒的時候要怎麼處理?

    已完成
    第 1 次嘗試 · 已完成 4233ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:transfer_to_human_agent
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER負面情緒的時候要怎麼處理?
    BOT收到您的問題,馬上為您處理!

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 當用戶表現出強烈的負面情緒時,應轉接給人類客服代理
    II 重要
    III 補充
    AI 回覆
    收到您的問題,馬上為您處理!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 當用戶表現出強烈的負面情緒時,應轉接給人類客服代理
    Judge 推理
    AI的回覆完全沒有針對用戶的問題進行回答,缺乏相關性和完整性。根據正確的回答,應該將用戶轉接給人類客服代理,但AI並未執行此操作。