執行 #69

Anthony's testing (bulk R1) → production-baseline

狀態
已完成
案例
11
開始時間
16 May 11:14
耗時
447.1s
¶ Economics · Bot-side N=11 attempts

Cost & Tokens

$0.0387
Total Bot Cost · USD
37.2%
Prompt Cache Hit
cost per case
$0.0035
cost per 1k tokens
$0.0017
input tokens
22,021
output tokens
872
cached tokens — prompt-cache hit
8,192
Total Tokens
22,893
economic efficiency
cost per correct
$0.0061
pass rate
9.1%
1 / 11
judge cost
$0.0061
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 22f3fa00-9a05-4505-a8bd-516ae9b2a77c 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:b6fd48eb AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
11 / 11
錯誤
0
失敗維度
0
首字延遲 p95
7662 ms
Bot 成本(Neptune)
$0.0387
Bot Tokens(Neptune)
22,893
Judge 成本(Eris)
$0.0061
Judge Tokens(Eris)
51,017
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
36.0%
[21.3% – 50.3%] · n=10
10 / 10 適用
  • 案例 684B51FD

    請問如何查詢某個產品的型號跟代碼?

    已完成
    第 1 次嘗試 · 已完成 12768ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問如何查詢某個產品的型號跟代碼?
    BOT很抱歉,目前沒有查詢到關於「如何查詢產品型號與代碼」的相關資訊。如果您有特定的產品名稱或類別,請提供更詳細的資訊,我可以協助您進一步查詢。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    40.0%
    相關性
    70.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 請提供產品的名稱和相關的型號或代碼
    II 重要
    III 補充
    0.0% · w 10%
    • 這樣我就能幫您進行查詢
    AI 回覆
    很抱歉,目前沒有查詢到關於「如何查詢產品型號與代碼」的相關資訊。如果您有特定的產品名稱或類別,請提供更詳細的資訊,我可以協助您進一步查詢。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 請提供產品的名稱和相關的型號或代碼
    III 補充說明 w 10%
    • 這樣我就能幫您進行查詢
    Judge 推理
    回覆未能提供用戶所需的具體查詢方式,且未涵蓋任何關鍵要點,導致完整性和正確性評分低。
  • 案例 7A85C901

    請問如何找到你們的髮片資訊呢?

    已完成
    第 1 次嘗試 · 已完成 11285ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能和價格 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問如何找到你們的髮片資訊呢?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務! 目前在我們的資料庫中沒有找到有關「髮片」的相關資訊。如果您有其他想查詢的產品或服務,歡迎告訴我,我會盡力協助您!如果需要其他協助,也請隨時告知。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們可以提供各種髮片的資訊
    II 重要
    III 補充
    0.0% · w 10%
    • 您可以告訴我們具體想了解的內容
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務! 目前在我們的資料庫中沒有找到有關「髮片」的相關資訊。如果您有其他想查詢的產品或服務,歡迎告訴我,我會盡力協助您!如果需要其他協助,也請隨時告知。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們可以提供各種髮片的資訊
    III 補充說明 w 10%
    • 您可以告訴我們具體想了解的內容
    Judge 推理
    這個回覆未能正確回答用戶的問題,並且錯誤地聲稱資料庫中沒有髮片資訊,這與正確的回答相矛盾。回覆中缺少了關鍵的資訊和引導用戶提供具體需求的內容。
    錯誤陳述 (1)
    • 目前在我們的資料庫中沒有找到有關「髮片」的相關資訊
  • 案例 B179B73A

    你們可以查詢什麼資訊?

    已完成
    第 1 次嘗試 · 已完成 10887ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們可以查詢什麼資訊?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務! 目前查無相關「可查詢的資訊範圍」的具體說明。如果您有特定想查詢的主題、產品或問題,請直接告訴我,我會立即為您搜尋並提供最合適的資訊。請問您想了解哪方面的內容呢?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    43.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們可以進行知識與產品查詢
    • 使用並發搜尋提供完整資訊
    II 重要
    III 補充
    0.0% · w 10%
    • 如果你有具體的問題或想查詢的產品,請告訴我
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務! 目前查無相關「可查詢的資訊範圍」的具體說明。如果您有特定想查詢的主題、產品或問題,請直接告訴我,我會立即為您搜尋並提供最合適的資訊。請問您想了解哪方面的內容呢?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們可以進行知識與產品查詢
    • 使用並發搜尋提供完整資訊
    III 補充說明 w 10%
    • 如果你有具體的問題或想查詢的產品,請告訴我
    Judge 推理
    回覆中未能提供具體的可查詢資訊,且錯誤地表示查無相關說明,導致回答不完整且不正確。
    錯誤陳述 (1)
    • 查無相關「可查詢的資訊範圍」的具體說明
  • 案例 A7CD96BC

    知識與產品查詢是什麼啊

    已完成
    第 1 次嘗試 · 已完成 9955ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER知識與產品查詢是什麼啊
    BOT您好,我是 Anthony's testing 客服,很高興為您服務!目前查無「知識與產品查詢」的相關說明或資料。如果您有特定想了解的知識內容或產品資訊,歡迎告訴我更詳細的需求,我會協助您查詢。請問有沒有特定主題或產品是您想進一步了解的呢?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    33.3%
    相關性
    70.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 知識與產品查詢是統一處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊的流程
    II 重要
    III 補充
    AI 回覆
    您好,我是 Anthony's testing 客服,很高興為您服務!目前查無「知識與產品查詢」的相關說明或資料。如果您有特定想了解的知識內容或產品資訊,歡迎告訴我更詳細的需求,我會協助您查詢。請問有沒有特定主題或產品是您想進一步了解的呢?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 知識與產品查詢是統一處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊的流程
    Judge 推理
    回覆未能正確回答用戶的問題,缺少了關於「知識與產品查詢」的具體定義和流程說明,且未遵循規則僅回答知識內容。
  • 案例 D4C2D3E8

    進階統一搜尋是什麼?

    已完成
    第 1 次嘗試 · 已完成 16484ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER進階統一搜尋是什麼?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務!關於「進階統一搜尋是什麼」這個問題,目前我們的資料庫中沒有相關的說明。如果您有其他問題或需要更詳細的資訊,歡迎隨時告訴我!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 進階統一搜尋是一個工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 能夠提供完整資訊來滿足用戶的查詢需求
    II 重要
    III 補充
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務!關於「進階統一搜尋是什麼」這個問題,目前我們的資料庫中沒有相關的說明。如果您有其他問題或需要更詳細的資訊,歡迎隨時告訴我!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 進階統一搜尋是一個工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 能夠提供完整資訊來滿足用戶的查詢需求
    Judge 推理
    AI 回覆未能回答用戶的問題,完全缺乏相關資訊,且未遵循規則提供知識內容。
  • 案例 36FC4AD4

    有沒有髮片推薦?

    已完成
    第 1 次嘗試 · 已完成 7200ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER有沒有髮片推薦?
    BOT很抱歉,目前沒有找到相關的髮片推薦資訊。如果您有特定品牌、型號或需求,歡迎提供更詳細的資訊,我會再為您查詢!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 我們的髮片有很多選擇
    • 可以提供各種顏色和樣式
    II 重要
    III 補充
    0.0% · w 10%
    • 請告訴我你們需要的特點或預算,再進一步幫你推薦
    AI 回覆
    很抱歉,目前沒有找到相關的髮片推薦資訊。如果您有特定品牌、型號或需求,歡迎提供更詳細的資訊,我會再為您查詢!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的髮片有很多選擇
    • 可以提供各種顏色和樣式
    III 補充說明 w 10%
    • 請告訴我你們需要的特點或預算,再進一步幫你推薦
    Judge 推理
    回覆未能提供任何髮片的選擇或特色,且未遵循用戶要求推薦的指示,導致相關性和完整性得分低。
  • 案例 4778B4CB

    這個統一搜尋工具到底是做什麼的?

    已完成
    第 1 次嘗試 · 已完成 7993ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER這個統一搜尋工具到底是做什麼的?
    BOT很抱歉,目前沒有找到關於「統一搜尋工具是做什麼的」的相關資料。如果您有更具體的問題或想了解某個功能,歡迎提供更多細節,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    0.0%
    相關性
    0.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • search_unified 是一個進階統一搜尋工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 能夠提供完整資訊
    II 重要
    III 補充
    AI 回覆
    很抱歉,目前沒有找到關於「統一搜尋工具是做什麼的」的相關資料。如果您有更具體的問題或想了解某個功能,歡迎提供更多細節,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • search_unified 是一個進階統一搜尋工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 能夠提供完整資訊
    Judge 推理
    AI的回覆完全未回答用戶的問題,且沒有提供任何相關的知識內容,導致在相關性、完整性和正確性上均得分為零。
  • 案例 57B12B6A

    有關產品資訊可以查什麼?

    已完成
    第 1 次嘗試 · 已完成 14193ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER有關產品資訊可以查什麼?
    BOT您好,我是 Anthony's testing 客服,很高興為您服務! 目前查無相關「產品資訊查詢範圍」的具體資料。如果您有特定產品、型號或關鍵字,請提供更詳細的資訊,我可以幫您查詢該產品的詳細內容、價格或特色。請問您想了解哪一類產品或有特定需求嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    66.7%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    70.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 可以查詢產品的詳細資訊
    • 例如功能、規格和使用方式
    II 重要
    100.0% · w 30%
    III 補充
    AI 回覆
    您好,我是 Anthony's testing 客服,很高興為您服務! 目前查無相關「產品資訊查詢範圍」的具體資料。如果您有特定產品、型號或關鍵字,請提供更詳細的資訊,我可以幫您查詢該產品的詳細內容、價格或特色。請問您想了解哪一類產品或有特定需求嗎?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以查詢產品的詳細資訊
    • 例如功能、規格和使用方式
    II 重要限制 w 30%
    • 不會主動推薦任何產品
    Judge 推理
    回覆中提到查無相關資料,未能提供用戶所需的產品資訊查詢範圍,且未主動推薦產品,符合規範,但缺少了具體的查詢內容。
  • 案例 F5FD977F

    你們有提供什麼商品的資訊嗎

    已完成
    第 1 次嘗試 · 已完成 7996ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們有提供什麼商品的資訊嗎
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務。我們目前沒有查詢到具體的商品資訊。如果您有特定想了解的商品名稱、型號或關鍵字,請提供更詳細的資訊,我可以幫您進一步查詢。請問您有特別想了解哪一類的商品嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    46.7%
    相關性
    90.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們的知識與產品查詢可以統一處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    II 重要
    III 補充
    0.0% · w 10%
    • 請告訴我你想查詢的產品或問題,我將為你提供詳細的資訊
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務。我們目前沒有查詢到具體的商品資訊。如果您有特定想了解的商品名稱、型號或關鍵字,請提供更詳細的資訊,我可以幫您進一步查詢。請問您有特別想了解哪一類的商品嗎?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的知識與產品查詢可以統一處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    III 補充說明 w 10%
    • 請告訴我你想查詢的產品或問題,我將為你提供詳細的資訊
    Judge 推理
    這個回覆在相關性上表現良好,但缺乏完整性,未能涵蓋所有關鍵點,且包含了不符合規則的主動推薦產品的內容,因此正確性得分為零。
    錯誤陳述 (1)
    • 主動推薦產品
  • 案例 2DF3F6C5

    請問如何查詢你們的產品資訊?

    已完成
    第 1 次嘗試 · 已完成 9123ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問如何查詢你們的產品資訊?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務!目前查無相關「查詢產品資訊方式」的具體說明。請問您有特定想了解的產品名稱、型號或關鍵字嗎?您也可以直接告訴我您的需求,我可以幫您查詢相關產品資訊。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    76.7%
    相關性
    90.0%
    完整性
    60.0%
    正確性
    80.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們將針對您的詢問進行知識與產品的查詢
    II 重要
    III 補充
    0.0% · w 10%
    • 並提供完整的資訊
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務!目前查無相關「查詢產品資訊方式」的具體說明。請問您有特定想了解的產品名稱、型號或關鍵字嗎?您也可以直接告訴我您的需求,我可以幫您查詢相關產品資訊。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 您可以直接提出您的問題或查詢需求
    • 我們將針對您的詢問進行知識與產品的查詢
    III 補充說明 w 10%
    • 並提供完整的資訊
    Judge 推理
    這個回答在相關性上表現良好,但未能完整回答用戶的查詢需求,缺少了關鍵的查詢方式說明,且未提供完整的資訊,導致完整性得分偏低。
項目 III.

對話素養(混合問答)

mixed_qa 1 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
1 / 1 適用
答得到位 平均
answer_quality
26.7%
1 / 1 適用
  • 案例 28EEED3F

    請問要怎麼轉接真人客服呢?

    已完成
    第 1 次嘗試 · 已完成 11290ms
    腳本進度 · 轉接真人客服 ✓ 已走完
    STEP
    01

    觸發條件

    ● 已觸發 轉接真人客服
    腳本規則
    - 當用戶要求轉接真人客服,例如:線上客服、真人客服、轉真人、找真人
    
    轉接真人客服的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    — 此案例不測
    此案例 expected_tools 為空 — bot 不需呼叫工具
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 直接觸發轉接真人
    測試 2 步 · 此案例不測 2 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER請問要怎麼轉接真人客服呢?
    BOT目前僅提供線上協助,您可以點此填寫表單留下資訊。
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 轉接真人客服
    II 重要
    III 補充
    AI 回覆
    目前僅提供線上協助,您可以點此填寫表單留下資訊。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 轉接真人客服
    Judge 推理
    回覆未能直接轉接真人客服,且提供的資訊與用戶需求不符,因此在相關性、完整性和正確性上均未達標。
    錯誤陳述 (1)
    • 目前僅提供線上協助,您可以點此填寫表單留下資訊。