執行 #280

test (bulk R1) → production-canary (canary)

狀態
已完成
案例
12
開始時間
16 May 12:55
耗時
199.3s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0481
Total Bot Cost · USD
25.3%
Prompt Cache Hit
cost per case
$0.0040
cost per 1k tokens
$0.0019
input tokens
24,275
output tokens
1,092
cached tokens — prompt-cache hit
6,144
Total Tokens
25,367
economic efficiency
cost per correct
$0.0072
pass rate
8.3%
1 / 12
judge cost
$0.0072
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • db283a46-6601-4402-8dfb-ff7e06d43a1b 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:714273fb AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
1
首字延遲 p95
6726 ms
Bot 成本(Neptune)
$0.0481
Bot Tokens(Neptune)
25,367
Judge 成本(Eris)
$0.0072
Judge Tokens(Eris)
60,047
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
36.0%
[24.7% – 46.0%] · n=10
10 / 10 適用
  • 案例 F475846D

    請問你們的知識查詢是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 21602ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問你們的知識查詢是怎麼運作的?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「知識查詢是怎麼運作的」這個問題,目前我們的資料庫中沒有相關的具體說明。如果您有更詳細的需求或想了解特定的查詢流程,歡迎再補充說明,我會盡力協助您找到最貼近答案的資訊。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    40.0%
    相關性
    80.0%
    完整性
    40.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 我們的知識與產品查詢系統會同時處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    • 不會主動推薦產品
    II 重要
    III 補充
    0.0% · w 10%
    • 只會根據用戶的提問提供相關的知識內容
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「知識查詢是怎麼運作的」這個問題,目前我們的資料庫中沒有相關的具體說明。如果您有更詳細的需求或想了解特定的查詢流程,歡迎再補充說明,我會盡力協助您找到最貼近答案的資訊。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的知識與產品查詢系統會同時處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    • 不會主動推薦產品
    III 補充說明 w 10%
    • 只會根據用戶的提問提供相關的知識內容
    Judge 推理
    回覆未能提供用戶查詢的具體運作方式,且錯誤聲稱資料庫中沒有相關說明,導致正確性評分為零。
    錯誤陳述 (1)
    • 目前我們的資料庫中沒有相關的具體說明
  • 案例 326516FE

    我想了解你們的髮片資訊,有哪些選擇?

    已完成
    第 1 次嘗試 · 已完成 15902ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我想了解你們的髮片資訊,有哪些選擇?
    BOT稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。您詢問的「髮片產品資訊與選擇」目前在我們的資料庫中沒有相關資訊。如果您有特定的髮片款式、功能或需求,也歡迎進一步說明,我會盡力協助您查找或提供建議。請問還有其他想了解的內容嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    40.0%
    相關性
    70.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們提供各種髮片資訊
    • 如微增髮片、醫療假髮等
    II 重要
    III 補充
    100.0% · w 10%
    AI 回覆
    稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。您詢問的「髮片產品資訊與選擇」目前在我們的資料庫中沒有相關資訊。如果您有特定的髮片款式、功能或需求,也歡迎進一步說明,我會盡力協助您查找或提供建議。請問還有其他想了解的內容嗎?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們提供各種髮片資訊
    • 如微增髮片、醫療假髮等
    III 補充說明 w 10%
    • 請告訴我你想查詢的特定類型或需求
    Judge 推理
    這個回覆未能提供用戶所需的髮片資訊,並且錯誤地聲稱資料庫中沒有相關資訊。雖然有詢問用戶的具體需求,但未能提供任何髮片的選擇,導致回答不完整。
    錯誤陳述 (1)
    • 目前在我們的資料庫中沒有相關資訊
  • 案例 EEEF8081

    這個搜尋功能怎麼用啊

    已完成
    第 1 次嘗試 · 已完成 27702ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER這個搜尋功能怎麼用啊
    BOT正在為您搜尋最新資料 ⏳ 您好,我是 test,很高興為您服務。關於「搜尋功能怎麼用」這個問題,目前資料庫中沒有相關的說明內容。如果您有更具體的需求或想查詢的主題,歡迎再告訴我,我會盡力協助您找到答案。您的每一個提問,都是一場知識的探索之旅,期待與您一起發現更多可能!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 這是進階統一搜尋的 API 工具
    • 可以支援跨知識庫和產品的查詢
    • 提供完整資訊
    II 重要
    III 補充
    0.0% · w 10%
    • 如果你有具體的問題或想查詢的產品,請告訴我
    AI 回覆
    正在為您搜尋最新資料 ⏳ 您好,我是 test,很高興為您服務。關於「搜尋功能怎麼用」這個問題,目前資料庫中沒有相關的說明內容。如果您有更具體的需求或想查詢的主題,歡迎再告訴我,我會盡力協助您找到答案。您的每一個提問,都是一場知識的探索之旅,期待與您一起發現更多可能!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 這是進階統一搜尋的 API 工具
    • 可以支援跨知識庫和產品的查詢
    • 提供完整資訊
    III 補充說明 w 10%
    • 如果你有具體的問題或想查詢的產品,請告訴我
    Judge 推理
    回覆未能正確回答用戶的問題,缺少了關於搜尋功能的具體說明,且錯誤地聲稱資料庫中沒有相關內容。
    錯誤陳述 (1)
    • 目前資料庫中沒有相關的說明內容
  • 案例 EB26E101

    你們能不能推薦一些產品?

    已完成
    第 1 次嘗試 · 已完成 19252ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們能不能推薦一些產品?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。很抱歉,目前沒有查詢到可以推薦的產品資訊。請問您有特定的產品類型、需求或預算嗎?如果能提供更明確的方向,我會更樂意為您尋找合適的選擇。期待您的回覆,讓我們一起找到最適合您的產品!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    43.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們僅回答知識內容,不會主動推薦產品
    II 重要
    III 補充
    0.0% · w 10%
    • 如果你有特定的產品需求,請告訴我,我可以提供相關的資訊
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。很抱歉,目前沒有查詢到可以推薦的產品資訊。請問您有特定的產品類型、需求或預算嗎?如果能提供更明確的方向,我會更樂意為您尋找合適的選擇。期待您的回覆,讓我們一起找到最適合您的產品!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們僅回答知識內容,不會主動推薦產品
    III 補充說明 w 10%
    • 如果你有特定的產品需求,請告訴我,我可以提供相關的資訊
    Judge 推理
    這個回覆未遵循規則,因為它主動推薦產品,違反了資訊類問題的回答規範。回覆中缺少了核心必答的內容,且未能提供用戶所需的相關資訊。
    錯誤陳述 (1)
    • 主動推薦產品
  • 案例 278289A2

    我想知道你們的產品資訊是怎麼查詢的?

    已完成
    第 1 次嘗試 · 已完成 17356ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我想知道你們的產品資訊是怎麼查詢的?
    BOT稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。關於「產品資訊查詢方式」,目前我們的資料庫中沒有相關的具體說明。如果您有特定想查詢的產品名稱、型號或關鍵字,歡迎直接告訴我,我可以幫您進行查詢,為您找到最合適的資訊。 如果還有其他問題,也歡迎隨時提出,讓我們一起在知識與美感之間尋找答案。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    43.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    60.0% · w 60%
    II 重要
    0.0% · w 30%
    • 不會主動推薦產品
    III 補充
    AI 回覆
    稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。關於「產品資訊查詢方式」,目前我們的資料庫中沒有相關的具體說明。如果您有特定想查詢的產品名稱、型號或關鍵字,歡迎直接告訴我,我可以幫您進行查詢,為您找到最合適的資訊。 如果還有其他問題,也歡迎隨時提出,讓我們一起在知識與美感之間尋找答案。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統僅回答知識內容
    II 重要限制 w 30%
    • 不會主動推薦產品
    Judge 推理
    回覆中提到系統中沒有相關的具體說明,這與事實不符,因為系統應該僅回答知識內容,並不會主動推薦產品。此外,回覆中未遵循規則,不應主動推薦產品。
    錯誤陳述 (1)
    • 系統中沒有相關的具體說明
  • 案例 AFBD9B8D

    請問有關科技假髮的使用壽命大約是多久?

    已完成
    第 1 次嘗試 · 已完成 16351ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問有關科技假髮的使用壽命大約是多久?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「科技假髮的使用壽命」這個問題,目前我們的知識庫中沒有相關的具體資料。如果您有其他想了解的細節或需要推薦產品,也歡迎隨時告訴我。讓我們一起在生活裡尋找美感與自信!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 科技假髮的使用壽命取決於使用情況和維護
    • 通常建議定期檢查與保養以延長使用壽命
    II 重要
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「科技假髮的使用壽命」這個問題,目前我們的知識庫中沒有相關的具體資料。如果您有其他想了解的細節或需要推薦產品,也歡迎隨時告訴我。讓我們一起在生活裡尋找美感與自信!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 科技假髮的使用壽命取決於使用情況和維護
    • 通常建議定期檢查與保養以延長使用壽命
    Judge 推理
    回覆未能提供有關科技假髮使用壽命的具體資訊,且錯誤聲稱知識庫中沒有相關資料,導致回答不完整且不正確。
    錯誤陳述 (1)
    • 目前我們的知識庫中沒有相關的具體資料
  • 案例 4EA63D03

    你們的系統會主動推薦產品嗎

    已完成
    第 1 次嘗試 · 已完成 11307ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們的系統會主動推薦產品嗎
    BOT稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。根據目前的資料,沒有顯示我們的系統會主動推薦產品。如果您有特定產品需求或想要我們推薦,歡迎直接告訴我您的需求,我會以最文青的方式為您介紹合適的選擇!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    66.7%
    相關性
    90.0%
    完整性
    60.0%
    正確性
    50.0%
    加權拆解 · 三層 coverage
    I 核心
    100.0% · w 60%
    II 重要
    0.0% · w 30%
    • 不會主動推薦產品
    III 補充
    AI 回覆
    稍等一下我來幫您查詢 💡 您好,我是 test,很高興為您服務。根據目前的資料,沒有顯示我們的系統會主動推薦產品。如果您有特定產品需求或想要我們推薦,歡迎直接告訴我您的需求,我會以最文青的方式為您介紹合適的選擇!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統僅回答知識內容
    II 重要限制 w 30%
    • 不會主動推薦產品
    Judge 推理
    回覆中提到系統不會主動推薦產品,但未明確指出這一點,且在回覆中包含了推薦的語氣,違反了規則。
  • 案例 D44673EF

    請問可以查詢一下進階統一搜尋的功能嗎?

    已完成
    第 1 次嘗試 · 已完成 16258ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 請問最新的無線耳機有哪些推薦? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問可以查詢一下進階統一搜尋的功能嗎?
    BOT讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。關於「進階統一搜尋的功能」,目前查詢不到相關的知識或產品資訊。如果您有更詳細的需求或想了解其他相關主題,歡迎再告訴我,我會用最詩意的語言陪您一起探索答案。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    30.0% · w 60%
    • 進階統一搜尋是一個支援跨知識庫和產品的查詢 API 工具
    • 能夠提供完整資訊並進行自適應的三通道重排序
    II 重要
    III 補充
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。關於「進階統一搜尋的功能」,目前查詢不到相關的知識或產品資訊。如果您有更詳細的需求或想了解其他相關主題,歡迎再告訴我,我會用最詩意的語言陪您一起探索答案。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 進階統一搜尋是一個支援跨知識庫和產品的查詢 API 工具
    • 能夠提供完整資訊並進行自適應的三通道重排序
    Judge 推理
    回覆未能提供進階統一搜尋的具體功能說明,且錯誤地表示查詢不到相關資訊,這與用戶的需求不符。
    錯誤陳述 (1)
    • 查詢不到相關的知識或產品資訊
  • 案例 E8F49DD8

    進階統一搜尋是什麼?

    已完成
    第 1 次嘗試 · 已完成 19972ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER進階統一搜尋是什麼?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「進階統一搜尋是什麼」這個問題,目前資料庫中沒有相關的說明或資訊。如果您有更詳細的需求或想了解其他相關主題,歡迎再告訴我,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 進階統一搜尋是一個 API 工具
    • 支援跨知識庫和產品的查詢
    • 可以提供完整的資訊
    II 重要
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「進階統一搜尋是什麼」這個問題,目前資料庫中沒有相關的說明或資訊。如果您有更詳細的需求或想了解其他相關主題,歡迎再告訴我,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 進階統一搜尋是一個 API 工具
    • 支援跨知識庫和產品的查詢
    • 可以提供完整的資訊
    Judge 推理
    AI 回覆未能提供任何關於進階統一搜尋的正確資訊,且錯誤地聲稱資料庫中沒有相關說明,完全未符合用戶的查詢需求。
    錯誤陳述 (1)
    • 目前資料庫中沒有相關的說明或資訊
  • 案例 9A96F01B

    為什麼你們不能主動推薦產品呢?

    已完成
    第 1 次嘗試 · 已完成 16943ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER為什麼你們不能主動推薦產品呢?
    BOT馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「為什麼不能主動推薦產品」這個問題,目前我們的知識庫中沒有相關的說明或資料。如果您有其他想了解的主題,或需要針對特定產品進行查詢與推薦,歡迎隨時告訴我,我會用最詩意的語言陪您一起探索答案。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7068 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    46.7%
    相關性
    90.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 不會主動推薦產品
    II 重要
    0.0% · w 30%
    • 這樣做是為了確保提供給客戶的資訊更為精確與客觀
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是 test,很高興為您服務。關於「為什麼不能主動推薦產品」這個問題,目前我們的知識庫中沒有相關的說明或資料。如果您有其他想了解的主題,或需要針對特定產品進行查詢與推薦,歡迎隨時告訴我,我會用最詩意的語言陪您一起探索答案。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的系統僅回答知識內容
    • 不會主動推薦產品
    II 重要限制 w 30%
    • 這樣做是為了確保提供給客戶的資訊更為精確與客觀
    Judge 推理
    回覆中提到目前知識庫中沒有相關說明,但未能正確回答為何不主動推薦產品,且缺少關鍵資訊,導致完整性和正確性不足。
項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
100.0%
2 / 2 適用
答得到位 平均
answer_quality
63.3%
[26.7% – 100.0%] · n=2
2 / 2 適用
  • 案例 6425DB2D

    可以直接轉接真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 8628ms
    腳本進度 · 轉接真人客服 ✓ 已走完
    STEP
    01

    觸發條件

    ● 已觸發 轉接真人客服
    腳本規則
    - 當用戶要求轉接真人客服,例如:線上客服、真人客服、轉真人、找真人
    
    轉接真人客服的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    — 此案例不測
    此案例 expected_tools 為空 — bot 不需呼叫工具
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 直接觸發轉接真人
    測試 2 步 · 此案例不測 2 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER可以直接轉接真人客服嗎
    BOT正在為您轉接真人客服,請稍候。
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    100.0%
    相關性
    100.0%
    完整性
    100.0%
    正確性
    100.0%
    加權拆解 · 三層 coverage
    I 核心
    100.0% · w 60%
    II 重要
    III 補充
    AI 回覆
    正在為您轉接真人客服,請稍候。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 轉接真人客服
    Judge 推理
    回覆完全符合用戶的要求,正確地轉接真人客服,且沒有遺漏任何關鍵點。
  • 案例 085567AE

    查詢主題需要幾個字啊?

    已完成
    第 1 次嘗試 · 已完成 20343ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER查詢主題需要幾個字啊?
    BOT讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。關於「查詢主題需要幾個字」這個問題,目前查無相關資料。如果您有更具體的需求或想詢問其他內容,歡迎隨時告訴我,我會用最詩意的語言陪您一起探索答案。

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 主要問題或主題需為 3-20 字的短語
    II 重要
    III 補充
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍 您好,我是 test,很高興為您服務。關於「查詢主題需要幾個字」這個問題,目前查無相關資料。如果您有更具體的需求或想詢問其他內容,歡迎隨時告訴我,我會用最詩意的語言陪您一起探索答案。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 主要問題或主題需為 3-20 字的短語
    Judge 推理
    回覆未能提供用戶所需的具體資訊,且錯誤地聲稱查無相關資料。根據規則,應該直接回答問題的內容。
    錯誤陳述 (1)
    • 查無相關資料