執行 #158

Judy TEST (bulk R1) → production-canary (canary)

狀態
已完成
案例
12
開始時間
16 May 11:55
耗時
560.7s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0379
Total Bot Cost · USD
37.0%
Prompt Cache Hit
cost per case
$0.0032
cost per 1k tokens
$0.0017
input tokens
22,132
output tokens
741
cached tokens — prompt-cache hit
8,192
Total Tokens
22,873
economic efficiency
cost per correct
$0.0023
pass rate
25.0%
3 / 12
judge cost
$0.0068
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 5d3cebb7-60a0-4893-bb9d-4179f47ab950 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:9646f795 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
0
首字延遲 p95
11377 ms
Bot 成本(Neptune)
$0.0379
Bot Tokens(Neptune)
22,873
Judge 成本(Eris)
$0.0068
Judge Tokens(Eris)
56,630
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
40.7%
[25.7% – 56.0%] · n=10
10 / 10 適用
  • 案例 FA84EB52

    有關你們產品的查詢怎麼進行?

    已完成
    第 1 次嘗試 · 已完成 20439ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER有關你們產品的查詢怎麼進行?
    BOT您好,我是 Judy TEST,很高興為您服務!目前查無有關「產品查詢方式」的相關資訊。如果您有特定產品名稱、型號或想了解的內容,請提供更詳細的資訊,我會立即為您查詢。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    43.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 系統會進行知識與產品查詢
    • 統一處理並提供完整資訊
    II 重要
    III 補充
    AI 回覆
    您好,我是 Judy TEST,很高興為您服務!目前查無有關「產品查詢方式」的相關資訊。如果您有特定產品名稱、型號或想了解的內容,請提供更詳細的資訊,我會立即為您查詢。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統會進行知識與產品查詢
    • 統一處理並提供完整資訊
    Judge 推理
    回覆中未能提供用戶查詢的具體流程,且錯誤聲稱查無相關資訊,導致正確性評分為零。
    錯誤陳述 (1)
    • 查無有關「產品查詢方式」的相關資訊
  • 案例 ADCF751D

    有什麼產品適合用於髮片的護理?

    已完成
    第 1 次嘗試 · 已完成 31856ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER有什麼產品適合用於髮片的護理?
    BOT目前查無適合用於髮片護理的產品相關資訊。如果您有特定品牌、型號或需求,歡迎提供更詳細的資訊,我可以再為您查詢。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 建議使用無硫酸鹽和無酒精的洗護產品
    • 維持髮片的清潔和潤澤是非常重要的
    • 使用適合的梳理工具可以幫助保持髮片的形狀與光澤
    II 重要
    III 補充
    AI 回覆
    目前查無適合用於髮片護理的產品相關資訊。如果您有特定品牌、型號或需求,歡迎提供更詳細的資訊,我可以再為您查詢。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 建議使用無硫酸鹽和無酒精的洗護產品
    • 維持髮片的清潔和潤澤是非常重要的
    • 使用適合的梳理工具可以幫助保持髮片的形狀與光澤
    Judge 推理
    回覆未能提供任何有關髮片護理的建議,且缺乏對用戶問題的具體回答,導致相關性和完整性得分低。
  • 案例 2CC14FF4

    你們的產品查詢需要我提供什麼嗎

    已完成
    第 1 次嘗試 · 已完成 27156ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們的產品查詢需要我提供什麼嗎
    BOT您好,我是 Judy TEST,很高興為您服務! 目前查無相關資料說明產品查詢時需要提供哪些資訊。為了更有效協助您,建議您可以提供您想查詢的產品名稱、型號或關鍵字。如果有具體需求,也歡迎直接告訴我,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    83.3%
    相關性
    90.0%
    完整性
    70.0%
    正確性
    90.0%
    加權拆解 · 三層 coverage
    I 核心
    II 重要
    III 補充
    100.0% · w 10%
    AI 回覆
    您好,我是 Judy TEST,很高興為您服務! 目前查無相關資料說明產品查詢時需要提供哪些資訊。為了更有效協助您,建議您可以提供您想查詢的產品名稱、型號或關鍵字。如果有具體需求,也歡迎直接告訴我,我會盡力協助您!
    預期答案 · 加權拆解
    III 補充說明 w 10%
    • 如果你有任何問題或查詢需求,請提供你的主要問題或查詢主題
    Judge 推理
    這個回覆在相關性上表現良好,因為它回應了用戶的查詢需求,但在完整性上略有不足,未能明確要求用戶提供主要問題或查詢主題。回覆的正確性也符合要求,沒有錯誤的陳述。
  • 案例 232C9263

    你們有沒有適合油性頭皮的洗髮精可以推薦的?

    已完成
    第 1 次嘗試 · 已完成 23034ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們有沒有適合油性頭皮的洗髮精可以推薦的?
    BOT目前查無適合油性頭皮的洗髮精推薦相關資訊。如果您有特定品牌或需求,也歡迎提供更詳細的資訊,我可以再幫您查詢。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 適合油性頭皮的洗髮精有活性炭洗髮精和控油洗髮精
    • 活性炭洗髮精價格約 NT$500,特色是深層清潔
    • 控油洗髮精價格約 NT$400,特色是持久控油效果
    II 重要
    III 補充
    AI 回覆
    目前查無適合油性頭皮的洗髮精推薦相關資訊。如果您有特定品牌或需求,也歡迎提供更詳細的資訊,我可以再幫您查詢。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 適合油性頭皮的洗髮精有活性炭洗髮精和控油洗髮精
    • 活性炭洗髮精價格約 NT$500,特色是深層清潔
    • 控油洗髮精價格約 NT$400,特色是持久控油效果
    Judge 推理
    回覆未提供任何適合油性頭皮的洗髮精資訊,與用戶的需求不符。根據規則,應該提供相關產品的名稱、價格和特色。
  • 案例 0D4EEE20

    能不能推薦幾款髮片?

    已完成
    第 1 次嘗試 · 已完成 13014ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER能不能推薦幾款髮片?
    BOT很抱歉,目前沒有找到相關的髮片產品推薦資訊。如果您有特定品牌、型號或需求,歡迎提供更詳細的資訊,我會再為您查詢!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 我們有多款髮片可供選擇
    • 微增髮片,價格為 NT$500,特色是自然隱形
    • K2 髮片,價格為 NT$800,特色是輕便耐用
    • 醫療假髮,價格為 NT$1200,特色是專為需要使用者設計,舒適度高
    II 重要
    III 補充
    AI 回覆
    很抱歉,目前沒有找到相關的髮片產品推薦資訊。如果您有特定品牌、型號或需求,歡迎提供更詳細的資訊,我會再為您查詢!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們有多款髮片可供選擇
    • 微增髮片,價格為 NT$500,特色是自然隱形
    • K2 髮片,價格為 NT$800,特色是輕便耐用
    • 醫療假髮,價格為 NT$1200,特色是專為需要使用者設計,舒適度高
    Judge 推理
    回覆未能提供任何髮片的推薦資訊,與用戶的要求不符。根據規則,應提供髮片的名稱、價格和特色,但回覆完全未涵蓋這些要點。
  • 案例 67B029F0

    請問要如何選擇適合的假髮呢?

    已完成
    第 1 次嘗試 · 已完成 15004ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問要如何選擇適合的假髮呢?
    BOT很抱歉,目前沒有找到關於「如何選擇適合的假髮」的相關資訊。如果您有特定需求或想了解某種類型的假髮,歡迎提供更詳細的說明,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 建議您考慮假髮的材質、顏色及長度
    II 重要
    III 補充
    0.0% · w 10%
    • 如果您需要更具體的資訊或推薦,隨時告訴我
    AI 回覆
    很抱歉,目前沒有找到關於「如何選擇適合的假髮」的相關資訊。如果您有特定需求或想了解某種類型的假髮,歡迎提供更詳細的說明,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 建議您考慮假髮的材質、顏色及長度
    III 補充說明 w 10%
    • 如果您需要更具體的資訊或推薦,隨時告訴我
    Judge 推理
    這個回答未能提供任何有關選擇假髮的具體建議,且未遵循規則要求提供知識內容,導致相關性和完整性都很低。
  • 案例 0FC8E6E8

    為什麼我在你們網站上找不到你們的服務資訊?

    已完成
    第 1 次嘗試 · 已完成 26697ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 請問最新的無線耳機有哪些推薦? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER為什麼我在你們網站上找不到你們的服務資訊?
    BOT您好,我是 Judy TEST,很高興為您服務。 目前在我們的知識庫中沒有找到關於「網站上找不到服務資訊的原因」的相關資料。建議您可以提供更詳細的描述,例如您想查詢的具體服務內容或遇到的頁面問題,我會盡力協助您解決。請問還有其他需要協助的地方嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    73.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    90.0%
    加權拆解 · 三層 coverage
    I 核心
    II 重要
    III 補充
    100.0% · w 10%
    AI 回覆
    您好,我是 Judy TEST,很高興為您服務。 目前在我們的知識庫中沒有找到關於「網站上找不到服務資訊的原因」的相關資料。建議您可以提供更詳細的描述,例如您想查詢的具體服務內容或遇到的頁面問題,我會盡力協助您解決。請問還有其他需要協助的地方嗎?
    預期答案 · 加權拆解
    III 補充說明 w 10%
    • 如果你有特定的問題或想查詢的服務內容,可以告訴我
    Judge 推理
    這個回覆在相關性上表現良好,因為它試圖了解用戶的具體需求,但未能提供明確的服務資訊,導致完整性分數偏低。回覆中包含了補充的 CTA,符合規範。
  • 案例 D270C725

    有什麼產品可以查詢的嗎

    已完成
    第 1 次嘗試 · 已完成 24050ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER有什麼產品可以查詢的嗎
    BOT您好,我是 Judy TEST,很高興為您服務!目前查無可查詢的產品相關資訊。請問您有特定想了解的產品名稱或類型嗎?歡迎告訴我,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    73.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    90.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 可以查詢各式各樣的產品資訊
    II 重要
    III 補充
    100.0% · w 10%
    AI 回覆
    您好,我是 Judy TEST,很高興為您服務!目前查無可查詢的產品相關資訊。請問您有特定想了解的產品名稱或類型嗎?歡迎告訴我,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以查詢各式各樣的產品資訊
    III 補充說明 w 10%
    • 請告訴我你想了解的主題或問題
    Judge 推理
    回覆中提到查無可查詢的產品資訊,未能涵蓋可以查詢各式各樣的產品資訊的核心內容。雖然有詢問用戶的需求,但未能提供具體的產品資訊,導致完整性不足。
  • 案例 325D50EE

    進階統一搜尋是什麼?

    已完成
    第 1 次嘗試 · 已完成 15853ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 請問最新的無線耳機有哪些推薦? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER進階統一搜尋是什麼?
    BOT您好,我是 Judy TEST,很高興為您服務!目前查無「進階統一搜尋」的相關說明資料。如果您有其他問題或需要更詳細的資訊,歡迎隨時告訴我。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 進階統一搜尋是一個整合知識庫和產品資訊的搜尋工具
    • 能提供完整的資訊查詢功能
    II 重要
    III 補充
    AI 回覆
    您好,我是 Judy TEST,很高興為您服務!目前查無「進階統一搜尋」的相關說明資料。如果您有其他問題或需要更詳細的資訊,歡迎隨時告訴我。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 進階統一搜尋是一個整合知識庫和產品資訊的搜尋工具
    • 能提供完整的資訊查詢功能
    Judge 推理
    AI 回覆未能提供任何關於進階統一搜尋的資訊,完全未回答用戶的問題,且錯誤地聲稱查無相關資料。
    錯誤陳述 (1)
    • 查無「進階統一搜尋」的相關說明資料
  • 案例 0468ED98

    我最近想了解一下你們的髮片,可以推薦幾款嗎?

    已完成
    第 1 次嘗試 · 已完成 13461ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我最近想了解一下你們的髮片,可以推薦幾款嗎?
    BOT很抱歉,目前查無相關髮片的推薦產品資訊。如果您有特定需求或想了解其他產品,歡迎告訴我,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7521 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 我們有幾款髮片可供選擇
    • K2 髮片價格是 2500 元
    • K2 髮片特色是自然遮蓋和舒適佩戴
    • 微增髮片價格是 3000 元
    II 重要
    III 補充
    AI 回覆
    很抱歉,目前查無相關髮片的推薦產品資訊。如果您有特定需求或想了解其他產品,歡迎告訴我,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們有幾款髮片可供選擇
    • K2 髮片價格是 2500 元
    • K2 髮片特色是自然遮蓋和舒適佩戴
    • 微增髮片價格是 3000 元
    • 微增髮片在增量上效果更佳,適合各種場合
    Judge 推理
    回覆未能提供任何髮片的具體資訊,與用戶的需求不符。根據規則,應提供髮片的名稱、價格和特色,但回覆完全缺失這些內容。
項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
2 / 2 適用
答得到位 平均
answer_quality
33.3%
[26.7% – 40.0%] · n=2
2 / 2 適用
  • 案例 C5EF70D8

    查詢的問題要怎麼寫才可以?

    已完成
    第 1 次嘗試 · 已完成 14505ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 請問最新的無線耳機有哪些推薦? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER查詢的問題要怎麼寫才可以?
    BOT請您提供更詳細的資訊,這樣我能更好地協助您。

    回答品質

    40.0%
    相關性
    90.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 用戶在查詢時必須提供主要問題或主題作為 query
    • 這個問題或主題需要在 3-20 個字之間
    • 需要清晰表達最新的意圖
    II 重要
    III 補充
    AI 回覆
    請您提供更詳細的資訊,這樣我能更好地協助您。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 用戶在查詢時必須提供主要問題或主題作為 query
    • 這個問題或主題需要在 3-20 個字之間
    • 需要清晰表達最新的意圖
    Judge 推理
    回覆雖然請求用戶提供更多資訊,但未能回答用戶查詢的具體要求,且缺少了關鍵的內容,導致完整性和正確性得分低。
  • 案例 E5FF689C

    請問要怎麼轉接真人客服呢?

    已完成
    第 1 次嘗試 · 已完成 15634ms
    腳本進度 · 轉接真人客服 ✓ 已走完
    STEP
    01

    觸發條件

    ● 已觸發 轉接真人客服
    腳本規則
    - 當用戶要求轉接真人客服,例如:線上客服、真人客服、轉真人、找真人
    
    轉接真人客服的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    — 此案例不測
    此案例 expected_tools 為空 — bot 不需呼叫工具
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 直接觸發轉接真人
    測試 2 步 · 此案例不測 2 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER請問要怎麼轉接真人客服呢?
    BOT目前僅提供線上協助,您可點此填寫表單留資料
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 您可以使用關鍵字如線上客服、真人客服、轉真人或找真人來觸發轉接
    II 重要
    III 補充
    AI 回覆
    目前僅提供線上協助,您可點此填寫表單留資料
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 您可以使用關鍵字如線上客服、真人客服、轉真人或找真人來觸發轉接
    Judge 推理
    回覆未能提供正確的轉接方式,且錯誤地表示僅提供線上協助,未符合轉接真人客服的要求。
    錯誤陳述 (1)
    • 目前僅提供線上協助,您可點此填寫表單留資料