執行 #409

欣寶XianBot (bulk R1) → production-baseline

狀態
已完成
案例
12
開始時間
16 May 13:52
耗時
251.9s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0319
Total Bot Cost · USD
52.7%
Prompt Cache Hit
cost per case
$0.0027
cost per 1k tokens
$0.0014
input tokens
21,847
output tokens
690
cached tokens — prompt-cache hit
11,520
Total Tokens
22,537
economic efficiency
cost per correct
$0.0069
pass rate
8.3%
1 / 12
judge cost
$0.0069
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 00281e2f-11c8-430b-8362-029fb28ee590 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:ba6f960c AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
3
首字延遲 p95
3172 ms
Bot 成本(Neptune)
$0.0319
Bot Tokens(Neptune)
22,537
Judge 成本(Eris)
$0.0069
Judge Tokens(Eris)
57,852
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
70.0%
[40.0% – 100.0%] · n=10
F1 70.0% · 召回 70.0% · 精確 70.0%
10 / 10 適用
用對工具 召回
tool_usage
70.0%
[40.0% – 100.0%] · n=10
F1 70.0% · 召回 70.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
31.3%
[15.0% – 48.3%] · n=10
10 / 10 適用
  • 案例 5FC3ED98

    最近有什麼新產品推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 16247ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER最近有什麼新產品推薦嗎?
    BOT馬上為您找找看相關內容 📋 您好,我是欣寶XianBot,很高興為您服務!目前查詢結果中沒有找到近期的新產品推薦資訊。如果您有特定的產品類型或需求,歡迎再提供更詳細的說明,我會協助您進一步查詢或推薦合適的產品。請問有沒有特別想了解的產品方向呢?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 我們最近推出了一些新產品
    • 包括先進的髮片技術和最新的假髮樣式
    II 重要
    III 補充
    0.0% · w 10%
    • 如果有特定的需求或想了解的產品,請告訴我,我可以提供詳細的資訊
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是欣寶XianBot,很高興為您服務!目前查詢結果中沒有找到近期的新產品推薦資訊。如果您有特定的產品類型或需求,歡迎再提供更詳細的說明,我會協助您進一步查詢或推薦合適的產品。請問有沒有特別想了解的產品方向呢?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們最近推出了一些新產品
    • 包括先進的髮片技術和最新的假髮樣式
    III 補充說明 w 10%
    • 如果有特定的需求或想了解的產品,請告訴我,我可以提供詳細的資訊
    Judge 推理
    回覆未能提供任何新產品的具體資訊,且錯誤地聲稱沒有找到相關資訊,這與用戶的查詢不符。根據規則,應該提供新產品的名稱、價格和特色。
    錯誤陳述 (1)
    • 目前查詢結果中沒有找到近期的新產品推薦資訊
  • 案例 38DE170E

    有什麼產品推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 8925ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER有什麼產品推薦嗎?
    BOT正在為您搜尋最新資料 ⏳ 目前查無相關產品推薦資訊。請問您有特定的需求或想了解哪一類型的產品嗎?歡迎提供更詳細的說明,我會協助您找到最合適的選擇!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    40.0%
    相關性
    70.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    II 重要
    III 補充
    10.0% · w 10%
    • 請稍候,我為您查詢中
    AI 回覆
    正在為您搜尋最新資料 ⏳ 目前查無相關產品推薦資訊。請問您有特定的需求或想了解哪一類型的產品嗎?歡迎提供更詳細的說明,我會協助您找到最合適的選擇!
    預期答案 · 加權拆解
    III 補充說明 w 10%
    • 請稍候,我為您查詢中
    Judge 推理
    回覆未能提供用戶所需的產品名稱、價格和特色,且錯誤地聲稱查無相關產品推薦資訊,違反了規則。
    錯誤陳述 (1)
    • 查無相關產品推薦資訊
  • 案例 53AC576A

    為什麼我問的問題不會推薦產品?

    已完成
    第 1 次嘗試 · 已完成 11894ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER為什麼我問的問題不會推薦產品?
    BOT馬上為您找找看相關內容 📋 您好,我是欣寶XianBot,很高興為您服務! 根據目前的資料,當您詢問資訊類問題時,我會專注於提供知識內容,不會主動推薦產品。只有在您明確要求推薦時,才會提供產品名稱、價格與特色。如果您有需要產品推薦,歡迎直接告訴我您的需求,我會立即為您查詢合適的產品資訊!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    96.7%
    相關性
    100.0%
    完整性
    90.0%
    正確性
    100.0%
    加權拆解 · 三層 coverage
    I 核心
    100.0% · w 60%
    II 重要
    100.0% · w 30%
    III 補充
    0.0% · w 10%
    • 我們將提供相關的產品名稱、價格和特色
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是欣寶XianBot,很高興為您服務! 根據目前的資料,當您詢問資訊類問題時,我會專注於提供知識內容,不會主動推薦產品。只有在您明確要求推薦時,才會提供產品名稱、價格與特色。如果您有需要產品推薦,歡迎直接告訴我您的需求,我會立即為您查詢合適的產品資訊!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統僅會回答知識內容
    • 不會主動推薦產品
    II 重要限制 w 30%
    • 如果您需要推薦,請明確提出您的需求
    III 補充說明 w 10%
    • 我們將提供相關的產品名稱、價格和特色
    Judge 推理
    回覆內容針對用戶的問題進行了清楚的解釋,並且符合規則要求。雖然涵蓋了所有核心和重要限制,但缺少了補充的 CTA,導致完整性分數略低。
  • 案例 FA3AFF6F

    我想知道假髮的種類有哪些

    已完成
    第 1 次嘗試 · 已完成 2693ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER我想知道假髮的種類有哪些
    BOT這個問題不在目前的服務範圍內,能否再重新描述一次?我才能協助您!

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    意料之外 (1)
    • ! early_stopped
    TP 0
    FP 1
    FN 1

    工具使用

    0.0%
    Precision
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • search_unified
    TP 0
    FP 0
    FN 1

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    AI 回覆
    這個問題不在目前的服務範圍內,能否再重新描述一次?我才能協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 假髮的種類包括全頭假髮、局部假髮、醫療假髮
    III 補充說明 w 10%
    • 若要了解更詳細的資訊,請告訴我您具體想查詢的類別
    Judge 推理
    這個回覆完全沒有回答用戶的問題,且未提供任何假髮的種類,違反了回答的要求。
    遺漏要點 (1)
    • 假髮的種類包括全頭假髮、局部假髮、醫療假髮
  • 案例 DDFA8E2E

    請問有關最新的髮片資訊可以查詢哪些內容呢?

    已完成
    第 1 次嘗試 · 已完成 11027ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問有關最新的髮片資訊可以查詢哪些內容呢?
    BOT稍等一下我來幫您查詢 💡 您好,我是欣寶XianBot,很高興為您服務!目前查詢不到有關「最新髮片資訊」的相關內容。如果您有特定想了解的髮片品牌、型號或其他細節,歡迎提供更明確的資訊,我會協助您進一步查詢。請問還有其他需要協助的地方嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    40.0%
    相關性
    70.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 可以查詢有關髮片的各種資訊
    II 重要
    III 補充
    0.0% · w 10%
    • 請告訴我具體想了解的內容
    AI 回覆
    稍等一下我來幫您查詢 💡 您好,我是欣寶XianBot,很高興為您服務!目前查詢不到有關「最新髮片資訊」的相關內容。如果您有特定想了解的髮片品牌、型號或其他細節,歡迎提供更明確的資訊,我會協助您進一步查詢。請問還有其他需要協助的地方嗎?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以查詢有關髮片的各種資訊
    III 補充說明 w 10%
    • 請告訴我具體想了解的內容
    Judge 推理
    回覆未能提供用戶所需的髮片資訊,且錯誤聲稱無法查詢相關內容。回覆中缺少了關於髮片的各種資訊的提及,未能滿足用戶的查詢需求。
    錯誤陳述 (1)
    • 查詢不到有關「最新髮片資訊」的相關內容
  • 案例 F3F6CF58

    推介一下你們的假髮有哪些?

    已完成
    第 1 次嘗試 · 已完成 4332ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER推介一下你們的假髮有哪些?
    BOT您的問題超出服務範圍,請換個方式詢問,我才能協助您!

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    意料之外 (1)
    • ! early_stopped
    TP 0
    FP 1
    FN 1

    工具使用

    0.0%
    Precision
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • search_unified
    TP 0
    FP 0
    FN 1

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 我們的假髮系列有多種選擇,包括不同的顏色和款式
    II 重要
    III 補充
    • 如果你想要具體的推薦,可以告訴我你的需求,我會提供相關的名稱、價格和特色
    AI 回覆
    您的問題超出服務範圍,請換個方式詢問,我才能協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的假髮系列有多種選擇,包括不同的顏色和款式
    III 補充說明 w 10%
    • 如果你想要具體的推薦,可以告訴我你的需求,我會提供相關的名稱、價格和特色
    Judge 推理
    AI的回覆完全未回應用戶的問題,且錯誤地聲稱問題超出服務範圍,這與用戶的需求不符。回覆中缺少了關於假髮系列的基本資訊,未能提供任何有用的內容。
    錯誤陳述 (1)
    • 您的問題超出服務範圍,請換個方式詢問,我才能協助您!
  • 案例 C0A19F5E

    有什麼髮片嗎?

    已完成
    第 1 次嘗試 · 已完成 3053ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER有什麼髮片嗎?
    BOT您的問題超出服務範圍,請換個方式詢問,我才能協助您!

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    意料之外 (1)
    • ! early_stopped
    TP 0
    FP 1
    FN 1

    工具使用

    0.0%
    Precision
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • search_unified
    TP 0
    FP 0
    FN 1

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 可以查詢各種髮片的資訊
    II 重要
    III 補充
    • 您想了解哪一種髮片呢
    AI 回覆
    您的問題超出服務範圍,請換個方式詢問,我才能協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以查詢各種髮片的資訊
    III 補充說明 w 10%
    • 您想了解哪一種髮片呢
    Judge 推理
    AI的回覆完全未針對用戶的問題,且錯誤地表示問題超出服務範圍,未提供任何有用的資訊。
    錯誤陳述 (1)
    • 您的問題超出服務範圍,請換個方式詢問,我才能協助您!
  • 案例 379326FF

    我想知道你們的知識查詢是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 12972ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我想知道你們的知識查詢是怎麼運作的?
    BOT讓我幫您查詢一下相關資訊 🔍 很高興為您服務!目前查詢不到有關「知識查詢運作方式」的相關資料。如果您有更具體的問題或想了解哪一部分的運作細節,歡迎再補充說明,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    33.3%
    相關性
    70.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 會觸發知識與產品查詢
    • 統一處理知識庫與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    II 重要
    III 補充
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍 很高興為您服務!目前查詢不到有關「知識查詢運作方式」的相關資料。如果您有更具體的問題或想了解哪一部分的運作細節,歡迎再補充說明,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 會觸發知識與產品查詢
    • 統一處理知識庫與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    Judge 推理
    回覆未能提供用戶所需的知識查詢運作方式的具體資訊,且未遵循規則僅回答知識內容,導致相關性和完整性得分偏低。
  • 案例 C9E1AF54

    我想知道你們有哪些產品

    已完成
    第 1 次嘗試 · 已完成 15420ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我想知道你們有哪些產品
    BOT讓我幫您查詢一下相關資訊 🔍 很高興為您服務!目前查詢不到關於欣寶XianBot產品的詳細資訊。為了更精確協助您,請問您有特定想了解的產品類型或功能嗎?也歡迎您提供更多需求細節,我會盡力協助您找到合適的解決方案。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    43.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們提供多款產品,包括髮片、假髮等
    II 重要
    III 補充
    0.0% · w 10%
    • 如果有特定需求或想詢問的產品,請告訴我
    AI 回覆
    讓我幫您查詢一下相關資訊 🔍 很高興為您服務!目前查詢不到關於欣寶XianBot產品的詳細資訊。為了更精確協助您,請問您有特定想了解的產品類型或功能嗎?也歡迎您提供更多需求細節,我會盡力協助您找到合適的解決方案。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們提供多款產品,包括髮片、假髮等
    III 補充說明 w 10%
    • 如果有特定需求或想詢問的產品,請告訴我
    Judge 推理
    回覆中未提供任何產品名稱,且未遵循規則要求僅回答知識內容,導致正確性得分為零。雖然有詢問用戶需求,但未能涵蓋核心必答的內容。
    錯誤陳述 (1)
    • 查詢不到關於欣寶XianBot產品的詳細資訊
  • 案例 75389657

    這個搜尋工具是什麼?

    已完成
    第 1 次嘗試 · 已完成 11342ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER這個搜尋工具是什麼?
    BOT馬上為您找找看相關內容 📋 您好,我是欣寶XianBot,很高興為您服務!目前查無「搜尋工具」的相關說明資料。如果您能提供更詳細的描述或具體想了解的功能內容,我會更精確地協助您。請問您想詢問的是哪一種搜尋工具呢?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 5934 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    33.3%
    相關性
    70.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    30.0% · w 60%
    • 搜索統一是一個進階統一搜尋工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 可以提供完整的資訊
    II 重要
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋 您好,我是欣寶XianBot,很高興為您服務!目前查無「搜尋工具」的相關說明資料。如果您能提供更詳細的描述或具體想了解的功能內容,我會更精確地協助您。請問您想詢問的是哪一種搜尋工具呢?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 搜索統一是一個進階統一搜尋工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 可以提供完整的資訊
    Judge 推理
    這個回覆未能提供用戶所詢問的搜尋工具的具體資訊,且未遵循規則僅回答知識內容。回覆中缺少了關鍵的核心資訊,導致完整性和正確性得分低。
項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
2 / 2 適用
答得到位 平均
answer_quality
31.7%
[26.7% – 36.7%] · n=2
2 / 2 適用
  • 案例 39B9919C

    我想要轉接真人客服,可以嗎

    已完成
    第 1 次嘗試 · 已完成 7793ms
    腳本進度 · 轉接真人客服 ✓ 已走完
    STEP
    01

    觸發條件

    ● 已觸發 轉接真人客服
    腳本規則
    - 當用戶要求轉接真人客服,例如:線上客服、真人客服、轉真人、找真人
    
    轉接真人客服的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    — 此案例不測
    此案例 expected_tools 為空 — bot 不需呼叫工具
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 直接觸發轉接真人
    測試 2 步 · 此案例不測 2 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER我想要轉接真人客服,可以嗎
    BOT目前僅提供線上協助,您可點此填寫表單留資料
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    36.7%
    相關性
    80.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 轉接真人客服
    II 重要
    III 補充
    AI 回覆
    目前僅提供線上協助,您可點此填寫表單留資料
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 轉接真人客服
    Judge 推理
    回覆未能直接轉接真人客服,且提供的資訊與用戶需求不符,因此在相關性和完整性上得分較低。
    錯誤陳述 (1)
    • 目前僅提供線上協助,您可點此填寫表單留資料
  • 案例 0B469E27

    可以推薦一下產品嗎?

    已完成
    第 1 次嘗試 · 已完成 9481ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER可以推薦一下產品嗎?
    BOT正在為您搜尋最新資料 ⏳ 目前查無可推薦的產品資訊。請問您有特定需求或想了解的產品類型嗎?歡迎提供更詳細的說明,我會盡力協助您!
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 可以提供產品名稱、價格和特色
    II 重要
    III 補充
    AI 回覆
    正在為您搜尋最新資料 ⏳ 目前查無可推薦的產品資訊。請問您有特定需求或想了解的產品類型嗎?歡迎提供更詳細的說明,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以提供產品名稱、價格和特色
    Judge 推理
    回覆未能提供用戶所需的產品名稱、價格和特色,且錯誤地聲稱查無可推薦的產品資訊。
    錯誤陳述 (1)
    • 查無可推薦的產品資訊