執行 #279

test (bulk R1) → production-baseline

狀態
已完成
案例
12
開始時間
16 May 12:55
耗時
218.8s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0455
Total Bot Cost · USD
33.7%
Prompt Cache Hit
cost per case
$0.0038
cost per 1k tokens
$0.0018
input tokens
24,275
output tokens
1,160
cached tokens — prompt-cache hit
8,192
Total Tokens
25,435
economic efficiency
cost per correct
$0.0068
pass rate
8.3%
1 / 12
judge cost
$0.0068
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • db283a46-6601-4402-8dfb-ff7e06d43a1b 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:714273fb AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
1
首字延遲 p95
2201 ms
Bot 成本(Neptune)
$0.0455
Bot Tokens(Neptune)
25,435
Judge 成本(Eris)
$0.0068
Judge Tokens(Eris)
56,860
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
33.0%
[22.3% – 43.7%] · n=10
10 / 10 適用
  • 案例 F475846D

    請問你們的知識查詢是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 9770ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問你們的知識查詢是怎麼運作的?
    BOT讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。關於「知識查詢是怎麼運作的」這個問題,目前我們的資料庫中沒有相關的具體說明。如果您有更詳細的需求或想了解特定的查詢流程,歡迎補充說明,我會盡力協助您找到最貼近您需求的答案。您的每一個提問,都是我們前進的靈感!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    33.3%
    相關性
    70.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 我們的知識與產品查詢系統會同時處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    • 不會主動推薦產品
    II 重要
    III 補充
    0.0% · w 10%
    • 只會根據用戶的提問提供相關的知識內容
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。關於「知識查詢是怎麼運作的」這個問題,目前我們的資料庫中沒有相關的具體說明。如果您有更詳細的需求或想了解特定的查詢流程,歡迎補充說明,我會盡力協助您找到最貼近您需求的答案。您的每一個提問,都是我們前進的靈感!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的知識與產品查詢系統會同時處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    • 不會主動推薦產品
    III 補充說明 w 10%
    • 只會根據用戶的提問提供相關的知識內容
    Judge 推理
    這個回答未能提供用戶所需的知識查詢運作的具體內容,且錯誤地聲稱資料庫中沒有相關說明。回答中缺少了多個關鍵點,並且未遵循規則不主動推薦產品。
    錯誤陳述 (1)
    • 目前我們的資料庫中沒有相關的具體說明
  • 案例 326516FE

    我想了解你們的髮片資訊,有哪些選擇?

    已完成
    第 1 次嘗試 · 已完成 9131ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我想了解你們的髮片資訊,有哪些選擇?
    BOT讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。您詢問的「髮片」相關資訊,目前我們的資料庫中沒有找到相關的產品或選擇。如果您有特定的髮片款式、型號或需求,也歡迎提供更詳細的資訊,我會再幫您查詢看看。 如果還有其他想了解的產品或服務,也請隨時告訴我,讓我用詩意的語言陪伴您的每一個選擇。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 如微增髮片、醫療假髮等
    II 重要
    III 補充
    0.0% · w 10%
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。您詢問的「髮片」相關資訊,目前我們的資料庫中沒有找到相關的產品或選擇。如果您有特定的髮片款式、型號或需求,也歡迎提供更詳細的資訊,我會再幫您查詢看看。 如果還有其他想了解的產品或服務,也請隨時告訴我,讓我用詩意的語言陪伴您的每一個選擇。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們提供各種髮片資訊
    • 如微增髮片、醫療假髮等
    III 補充說明 w 10%
    • 請告訴我你想查詢的特定類型或需求
    Judge 推理
    回覆中未提供任何髮片的具體資訊,且錯誤聲稱資料庫中沒有相關產品,這與事實不符。
    錯誤陳述 (1)
    • 目前我們的資料庫中沒有找到相關的產品或選擇
  • 案例 EEEF8081

    這個搜尋功能怎麼用啊

    已完成
    第 1 次嘗試 · 已完成 12750ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER這個搜尋功能怎麼用啊
    BOT正在為您搜尋最新資料 ⏳ 您好,我是 test,很高興為您服務。關於「搜尋功能怎麼用」這個問題,目前查無相關的具體說明或操作指引。如果您有更詳細的需求或想了解特定的搜尋方式,歡迎再補充說明,我會盡力協助您找到最適合的答案。 如果您有其他問題,也可以隨時告訴我,讓我們一起在知識的海洋裡尋找靈感吧!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 這是進階統一搜尋的 API 工具
    • 可以支援跨知識庫和產品的查詢
    • 提供完整資訊
    II 重要
    III 補充
    0.0% · w 10%
    • 如果你有具體的問題或想查詢的產品,請告訴我
    AI 回覆
    正在為您搜尋最新資料 ⏳ 您好,我是 test,很高興為您服務。關於「搜尋功能怎麼用」這個問題,目前查無相關的具體說明或操作指引。如果您有更詳細的需求或想了解特定的搜尋方式,歡迎再補充說明,我會盡力協助您找到最適合的答案。 如果您有其他問題,也可以隨時告訴我,讓我們一起在知識的海洋裡尋找靈感吧!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 這是進階統一搜尋的 API 工具
    • 可以支援跨知識庫和產品的查詢
    • 提供完整資訊
    III 補充說明 w 10%
    • 如果你有具體的問題或想查詢的產品,請告訴我
    Judge 推理
    回覆未能提供搜尋功能的具體說明,且錯誤地表示查無相關資訊,導致回答不完整且不正確。
    錯誤陳述 (1)
    • 查無相關的具體說明或操作指引
  • 案例 EB26E101

    你們能不能推薦一些產品?

    已完成
    第 1 次嘗試 · 已完成 9244ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們能不能推薦一些產品?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。很抱歉,目前沒有查詢到可以推薦的產品資訊。請問您有特定的需求或想要了解的產品類型嗎?歡迎告訴我您的興趣或用途,我會盡力協助您找到最適合的選擇!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    40.0%
    相關性
    70.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們僅回答知識內容,不會主動推薦產品
    II 重要
    III 補充
    0.0% · w 10%
    • 如果你有特定的產品需求,請告訴我,我可以提供相關的資訊
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。很抱歉,目前沒有查詢到可以推薦的產品資訊。請問您有特定的需求或想要了解的產品類型嗎?歡迎告訴我您的興趣或用途,我會盡力協助您找到最適合的選擇!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們僅回答知識內容,不會主動推薦產品
    III 補充說明 w 10%
    • 如果你有特定的產品需求,請告訴我,我可以提供相關的資訊
    Judge 推理
    這個回覆未能遵循規則,主動推薦產品而非僅提供知識內容,且缺少了關鍵的回覆內容。
    錯誤陳述 (1)
    • 目前沒有查詢到可以推薦的產品資訊
  • 案例 278289A2

    我想知道你們的產品資訊是怎麼查詢的?

    已完成
    第 1 次嘗試 · 已完成 12153ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我想知道你們的產品資訊是怎麼查詢的?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「產品資訊查詢方式」這個問題,目前我們的知識庫中沒有相關的具體說明。如果您有特定想查詢的產品名稱、型號或關鍵字,歡迎直接告訴我,我可以幫您進行查詢,為您提供最合適的資訊。 如果還有其他想了解的細節,也請隨時告訴我,讓我們一起在知識的海洋裡尋找答案。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    43.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    60.0% · w 60%
    II 重要
    0.0% · w 30%
    • 不會主動推薦產品
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「產品資訊查詢方式」這個問題,目前我們的知識庫中沒有相關的具體說明。如果您有特定想查詢的產品名稱、型號或關鍵字,歡迎直接告訴我,我可以幫您進行查詢,為您提供最合適的資訊。 如果還有其他想了解的細節,也請隨時告訴我,讓我們一起在知識的海洋裡尋找答案。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統僅回答知識內容
    II 重要限制 w 30%
    • 不會主動推薦產品
    Judge 推理
    回覆中提到的「目前我們的知識庫中沒有相關的具體說明」與事實不符,因為系統應該僅回答知識內容,且不應主動推薦產品。回覆未遵循規則,缺少了不會主動推薦產品的關鍵限制。
    錯誤陳述 (1)
    • 目前我們的知識庫中沒有相關的具體說明
  • 案例 AFBD9B8D

    請問有關科技假髮的使用壽命大約是多久?

    已完成
    第 1 次嘗試 · 已完成 13495ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問有關科技假髮的使用壽命大約是多久?
    BOT正在為您搜尋最新資料 ⏳ 您好,我是 test,很高興為您服務。關於「科技假髮的使用壽命」這個問題,目前我們的知識庫中沒有相關的資料。如果您有其他想了解的細節或需要進一步協助,歡迎隨時告訴我。讓我們一起在生活裡尋找美好與自信的可能!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 科技假髮的使用壽命取決於使用情況和維護
    • 通常建議定期檢查與保養以延長使用壽命
    II 重要
    III 補充
    AI 回覆
    正在為您搜尋最新資料 ⏳ 您好,我是 test,很高興為您服務。關於「科技假髮的使用壽命」這個問題,目前我們的知識庫中沒有相關的資料。如果您有其他想了解的細節或需要進一步協助,歡迎隨時告訴我。讓我們一起在生活裡尋找美好與自信的可能!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 科技假髮的使用壽命取決於使用情況和維護
    • 通常建議定期檢查與保養以延長使用壽命
    Judge 推理
    回覆未能提供任何有關科技假髮使用壽命的資訊,完全未回答用戶的問題,因此在相關性、完整性和正確性上均得分為零。
  • 案例 4EA63D03

    你們的系統會主動推薦產品嗎

    已完成
    第 1 次嘗試 · 已完成 10638ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們的系統會主動推薦產品嗎
    BOT讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。關於您詢問「系統會不會主動推薦產品」,目前我們的資料中沒有相關說明。如果您有特定產品或需求,歡迎直接告訴我,我可以協助您查詢或推薦合適的選項。期待您的回覆,讓我們一起尋找最適合您的答案!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    46.7%
    相關性
    90.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 系統僅回答知識內容
    II 重要
    0.0% · w 30%
    • 不會主動推薦產品
    III 補充
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。關於您詢問「系統會不會主動推薦產品」,目前我們的資料中沒有相關說明。如果您有特定產品或需求,歡迎直接告訴我,我可以協助您查詢或推薦合適的選項。期待您的回覆,讓我們一起尋找最適合您的答案!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統僅回答知識內容
    II 重要限制 w 30%
    • 不會主動推薦產品
    Judge 推理
    這個回覆未能正確回答用戶的問題,並且違反了規則,因為系統不應主動推薦產品。回覆中提到的查詢和推薦不符合要求,導致完整性和正確性得分低。
  • 案例 D44673EF

    請問可以查詢一下進階統一搜尋的功能嗎?

    已完成
    第 1 次嘗試 · 已完成 10332ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 請問最新的無線耳機有哪些推薦? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問可以查詢一下進階統一搜尋的功能嗎?
    BOT稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。關於「進階統一搜尋的功能」,目前查詢結果中沒有相關的知識內容。如果您有更具體的問題或想了解其他功能,歡迎再告訴我,我會盡力為您尋找答案。您的每一個提問,都是一場美麗的探索旅程。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    33.3%
    相關性
    70.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 進階統一搜尋是一個支援跨知識庫和產品的查詢 API 工具
    • 能夠提供完整資訊並進行自適應的三通道重排序
    II 重要
    III 補充
    AI 回覆
    稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。關於「進階統一搜尋的功能」,目前查詢結果中沒有相關的知識內容。如果您有更具體的問題或想了解其他功能,歡迎再告訴我,我會盡力為您尋找答案。您的每一個提問,都是一場美麗的探索旅程。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 進階統一搜尋是一個支援跨知識庫和產品的查詢 API 工具
    • 能夠提供完整資訊並進行自適應的三通道重排序
    Judge 推理
    回覆未能提供進階統一搜尋的具體功能說明,且未遵循規則僅回答知識內容,導致相關性和完整性得分偏低。
  • 案例 E8F49DD8

    進階統一搜尋是什麼?

    已完成
    第 1 次嘗試 · 已完成 10048ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER進階統一搜尋是什麼?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「進階統一搜尋是什麼」這個問題,目前資料庫中沒有相關的說明或資訊。如果您有更詳細的需求或想了解其他相關主題,歡迎再告訴我,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    16.7%
    相關性
    50.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 進階統一搜尋是一個 API 工具
    • 支援跨知識庫和產品的查詢
    • 可以提供完整的資訊
    II 重要
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「進階統一搜尋是什麼」這個問題,目前資料庫中沒有相關的說明或資訊。如果您有更詳細的需求或想了解其他相關主題,歡迎再告訴我,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 進階統一搜尋是一個 API 工具
    • 支援跨知識庫和產品的查詢
    • 可以提供完整的資訊
    Judge 推理
    回覆未能提供進階統一搜尋的定義和功能,且錯誤地聲稱資料庫中沒有相關資訊,導致回答不完整且不正確。
    錯誤陳述 (1)
    • 目前資料庫中沒有相關的說明或資訊
  • 案例 9A96F01B

    為什麼你們不能主動推薦產品呢?

    已完成
    第 1 次嘗試 · 已完成 10121ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER為什麼你們不能主動推薦產品呢?
    BOT稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。關於「為什麼不能主動推薦產品」這個問題,目前我們的知識庫中沒有相關的說明內容。如果您有其他想了解的主題或需要查詢特定產品資訊,歡迎隨時告訴我,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    63.3%
    相關性
    90.0%
    完整性
    50.0%
    正確性
    50.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們的系統僅回答知識內容
    • 不會主動推薦產品
    II 重要
    0.0% · w 30%
    • 這樣做是為了確保提供給客戶的資訊更為精確與客觀
    III 補充
    AI 回覆
    稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。關於「為什麼不能主動推薦產品」這個問題,目前我們的知識庫中沒有相關的說明內容。如果您有其他想了解的主題或需要查詢特定產品資訊,歡迎隨時告訴我,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的系統僅回答知識內容
    • 不會主動推薦產品
    II 重要限制 w 30%
    • 這樣做是為了確保提供給客戶的資訊更為精確與客觀
    Judge 推理
    這個回答雖然有提到知識庫的限制,但未完整回答用戶的問題,缺少了關於不主動推薦產品的具體說明,且未解釋這樣做的原因,因此在完整性和正確性上都受到影響。
項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
100.0%
2 / 2 適用
答得到位 平均
answer_quality
66.7%
[33.3% – 100.0%] · n=2
2 / 2 適用
  • 案例 6425DB2D

    可以直接轉接真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 8734ms
    腳本進度 · 轉接真人客服 ✓ 已走完
    STEP
    01

    觸發條件

    ● 已觸發 轉接真人客服
    腳本規則
    - 當用戶要求轉接真人客服,例如:線上客服、真人客服、轉真人、找真人
    
    轉接真人客服的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    — 此案例不測
    此案例 expected_tools 為空 — bot 不需呼叫工具
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 直接觸發轉接真人
    測試 2 步 · 此案例不測 2 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER可以直接轉接真人客服嗎
    BOT正在為您轉接真人客服,請稍候。
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    100.0%
    相關性
    100.0%
    完整性
    100.0%
    正確性
    100.0%
    加權拆解 · 三層 coverage
    I 核心
    100.0% · w 60%
    II 重要
    III 補充
    AI 回覆
    正在為您轉接真人客服,請稍候。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 轉接真人客服
    Judge 推理
    回覆完全符合用戶的要求,成功轉接真人客服,且沒有遺漏任何關鍵點。
  • 案例 085567AE

    查詢主題需要幾個字啊?

    已完成
    第 1 次嘗試 · 已完成 9406ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER查詢主題需要幾個字啊?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「查詢主題需要幾個字」這個問題,目前資料庫中沒有相關的具體說明。如果您有其他更詳細的需求或想詢問不同的主題,歡迎隨時告訴我,我會盡力協助您!

    回答品質

    33.3%
    相關性
    70.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    30.0% · w 60%
    • 主要問題或主題需為 3-20 字的短語
    II 重要
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「查詢主題需要幾個字」這個問題,目前資料庫中沒有相關的具體說明。如果您有其他更詳細的需求或想詢問不同的主題,歡迎隨時告訴我,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 主要問題或主題需為 3-20 字的短語
    Judge 推理
    回覆未能提供用戶查詢的具體字數要求,且聲稱資料庫中沒有相關說明,這與正確答案相違背。
    錯誤陳述 (1)
    • 資料庫中沒有相關的具體說明