執行 #70

Anthony's testing (bulk R1) → production-canary (canary)

狀態
已完成
案例
11
開始時間
16 May 11:14
耗時
382.3s
¶ Economics · Bot-side N=11 attempts

Cost & Tokens

$0.0433
Total Bot Cost · USD
23.2%
Prompt Cache Hit
cost per case
$0.0039
cost per 1k tokens
$0.0019
input tokens
22,023
output tokens
865
cached tokens — prompt-cache hit
5,120
Total Tokens
22,888
economic efficiency
cost per correct
$0.0030
pass rate
18.2%
2 / 11
judge cost
$0.006
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 22f3fa00-9a05-4505-a8bd-516ae9b2a77c 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:b6fd48eb AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
11 / 11
錯誤
0
失敗維度
0
首字延遲 p95
20406 ms
Bot 成本(Neptune)
$0.0433
Bot Tokens(Neptune)
22,888
Judge 成本(Eris)
$0.0060
Judge Tokens(Eris)
49,518
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
41.0%
[32.0% – 51.7%] · n=10
10 / 10 適用
  • 案例 684B51FD

    請問如何查詢某個產品的型號跟代碼?

    已完成
    第 1 次嘗試 · 已完成 23934ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問如何查詢某個產品的型號跟代碼?
    BOT很抱歉,目前沒有查詢到關於「如何查詢產品型號與代碼」的相關資訊。如果您有特定的產品名稱或類別,請提供更詳細的資訊,我可以協助您進一步查詢。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    40.0%
    相關性
    70.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 請提供產品的名稱和相關的型號或代碼
    II 重要
    III 補充
    0.0% · w 10%
    • 這樣我就能幫您進行查詢
    AI 回覆
    很抱歉,目前沒有查詢到關於「如何查詢產品型號與代碼」的相關資訊。如果您有特定的產品名稱或類別,請提供更詳細的資訊,我可以協助您進一步查詢。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 請提供產品的名稱和相關的型號或代碼
    III 補充說明 w 10%
    • 這樣我就能幫您進行查詢
    Judge 推理
    回覆未能提供用戶所需的具體查詢方式,且未遵循規則僅回答知識內容,導致回答的正確性為零。
  • 案例 7A85C901

    請問如何找到你們的髮片資訊呢?

    已完成
    第 1 次嘗試 · 已完成 17783ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶功能和價格 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問如何找到你們的髮片資訊呢?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務! 目前在我們的資料庫中沒有找到有關「髮片」的相關資訊。如果您有其他想查詢的產品或服務,歡迎告訴我,我會盡力協助您!如果需要推薦或查詢其他項目,也請隨時告知。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們可以提供各種髮片的資訊
    II 重要
    III 補充
    0.0% · w 10%
    • 您可以告訴我們具體想了解的內容
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務! 目前在我們的資料庫中沒有找到有關「髮片」的相關資訊。如果您有其他想查詢的產品或服務,歡迎告訴我,我會盡力協助您!如果需要推薦或查詢其他項目,也請隨時告知。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們可以提供各種髮片的資訊
    III 補充說明 w 10%
    • 您可以告訴我們具體想了解的內容
    Judge 推理
    這個回覆未能提供用戶所需的髮片資訊,並且錯誤地聲稱資料庫中沒有相關資訊。回覆也未能引導用戶提供具體需求以便進一步協助。
    錯誤陳述 (1)
    • 目前在我們的資料庫中沒有找到有關「髮片」的相關資訊
  • 案例 B179B73A

    你們可以查詢什麼資訊?

    已完成
    第 1 次嘗試 · 已完成 27401ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們可以查詢什麼資訊?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務! 目前查無具體的可查詢資訊範圍與類型說明。如果您有特定想了解的主題、產品或服務,請直接告訴我您的需求,我會立即為您查詢相關資料。請問有什麼我可以幫您查詢的嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    70.0%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    80.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們可以進行知識與產品查詢
    • 使用並發搜尋提供完整資訊
    II 重要
    III 補充
    100.0% · w 10%
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務! 目前查無具體的可查詢資訊範圍與類型說明。如果您有特定想了解的主題、產品或服務,請直接告訴我您的需求,我會立即為您查詢相關資料。請問有什麼我可以幫您查詢的嗎?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們可以進行知識與產品查詢
    • 使用並發搜尋提供完整資訊
    III 補充說明 w 10%
    • 如果你有具體的問題或想查詢的產品,請告訴我
    Judge 推理
    回覆中提到查無具體的可查詢資訊範圍,未能直接回答用戶的問題,導致核心內容缺失。雖然有詢問用戶需求,但未涵蓋所有必要的查詢資訊。
  • 案例 A7CD96BC

    知識與產品查詢是什麼啊

    已完成
    第 1 次嘗試 · 已完成 17526ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER知識與產品查詢是什麼啊
    BOT您好,我是 Anthony's testing 客服,很高興為您服務! 目前查無「知識與產品查詢」的相關說明或定義。如果您有特定想了解的內容或功能,請提供更詳細的描述,我會協助您進一步查詢。請問還有其他需要協助的地方嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    33.3%
    相關性
    70.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 知識與產品查詢是統一處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊的流程
    II 重要
    III 補充
    AI 回覆
    您好,我是 Anthony's testing 客服,很高興為您服務! 目前查無「知識與產品查詢」的相關說明或定義。如果您有特定想了解的內容或功能,請提供更詳細的描述,我會協助您進一步查詢。請問還有其他需要協助的地方嗎?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 知識與產品查詢是統一處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊的流程
    Judge 推理
    回覆未能提供用戶查詢的明確定義,且未涵蓋知識與產品查詢的核心內容,導致完整性和正確性得分低。
  • 案例 D4C2D3E8

    進階統一搜尋是什麼?

    已完成
    第 1 次嘗試 · 已完成 27519ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER進階統一搜尋是什麼?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務! 目前查無「進階統一搜尋」的相關說明資料。如果您有其他更詳細的問題描述或想了解的內容,歡迎補充,我會盡力協助您!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 進階統一搜尋是一個工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 能夠提供完整資訊來滿足用戶的查詢需求
    II 重要
    III 補充
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務! 目前查無「進階統一搜尋」的相關說明資料。如果您有其他更詳細的問題描述或想了解的內容,歡迎補充,我會盡力協助您!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 進階統一搜尋是一個工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 能夠提供完整資訊來滿足用戶的查詢需求
    Judge 推理
    這個回覆未能提供任何關於進階統一搜尋的具體資訊,完全沒有回答用戶的問題,因此在相關性、完整性和正確性上都得分很低。
  • 案例 36FC4AD4

    有沒有髮片推薦?

    已完成
    第 1 次嘗試 · 已完成 27695ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER有沒有髮片推薦?
    BOT很抱歉,目前沒有找到相關的髮片推薦資訊。如果您有特定品牌、型號或需求,歡迎提供更詳細的資訊,我會再為您查詢!

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 我們的髮片有很多選擇
    • 可以提供各種顏色和樣式
    II 重要
    III 補充
    0.0% · w 10%
    • 請告訴我你們需要的特點或預算,再進一步幫你推薦
    AI 回覆
    很抱歉,目前沒有找到相關的髮片推薦資訊。如果您有特定品牌、型號或需求,歡迎提供更詳細的資訊,我會再為您查詢!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的髮片有很多選擇
    • 可以提供各種顏色和樣式
    III 補充說明 w 10%
    • 請告訴我你們需要的特點或預算,再進一步幫你推薦
    Judge 推理
    回覆未能提供任何髮片的選擇或特點,且錯誤地聲稱沒有相關資訊。根據規則,應該提供髮片的選擇和特點,並詢問用戶的需求。
    錯誤陳述 (1)
    • 目前沒有找到相關的髮片推薦資訊
  • 案例 4778B4CB

    這個統一搜尋工具到底是做什麼的?

    已完成
    第 1 次嘗試 · 已完成 19418ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手機型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER這個統一搜尋工具到底是做什麼的?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務! 目前查詢不到「統一搜尋工具」的相關說明。如果您有更詳細的描述或其他關鍵字,歡迎提供,我可以再幫您查詢。請問還有其他需要協助的地方嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • search_unified 是一個進階統一搜尋工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 能夠提供完整資訊
    II 重要
    III 補充
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務! 目前查詢不到「統一搜尋工具」的相關說明。如果您有更詳細的描述或其他關鍵字,歡迎提供,我可以再幫您查詢。請問還有其他需要協助的地方嗎?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • search_unified 是一個進階統一搜尋工具
    • 支援跨知識庫、產品與連結資料的搜尋
    • 能夠提供完整資訊
    Judge 推理
    這個回覆未能正確回答用戶的問題,缺乏關於統一搜尋工具的具體資訊,且錯誤地表示查詢不到相關說明。
    錯誤陳述 (1)
    • 查詢不到「統一搜尋工具」的相關說明
  • 案例 57B12B6A

    有關產品資訊可以查什麼?

    已完成
    第 1 次嘗試 · 已完成 32039ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER有關產品資訊可以查什麼?
    BOT您好,我是 Anthony's testing 客服,很高興為您服務! 目前查詢不到有關「產品資訊可以查詢哪些內容」的相關資料。如果您有特定的產品名稱、型號或想了解的內容,請提供更詳細的資訊,我可以幫您進一步查詢。請問您想查詢哪一類產品或哪個型號呢?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    40.0%
    相關性
    70.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 可以查詢產品的詳細資訊
    • 例如功能、規格和使用方式
    II 重要
    0.0% · w 30%
    • 不會主動推薦任何產品
    III 補充
    AI 回覆
    您好,我是 Anthony's testing 客服,很高興為您服務! 目前查詢不到有關「產品資訊可以查詢哪些內容」的相關資料。如果您有特定的產品名稱、型號或想了解的內容,請提供更詳細的資訊,我可以幫您進一步查詢。請問您想查詢哪一類產品或哪個型號呢?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 可以查詢產品的詳細資訊
    • 例如功能、規格和使用方式
    II 重要限制 w 30%
    • 不會主動推薦任何產品
    Judge 推理
    這個回覆未能提供用戶所需的產品資訊,且未遵循規則不主動推薦產品。回覆中缺少了關鍵的查詢內容,導致完整性和正確性都受到影響。
  • 案例 F5FD977F

    你們有提供什麼商品的資訊嗎

    已完成
    第 1 次嘗試 · 已完成 30083ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER你們有提供什麼商品的資訊嗎
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務。我們目前沒有查詢到具體的商品資訊。如果您有特定想了解的商品名稱、型號或關鍵字,請提供更詳細的資訊,我可以幫您進一步查詢。請問您有特定想了解的產品嗎?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    46.7%
    相關性
    90.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我們的知識與產品查詢可以統一處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    II 重要
    III 補充
    0.0% · w 10%
    • 請告訴我你想查詢的產品或問題,我將為你提供詳細的資訊
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務。我們目前沒有查詢到具體的商品資訊。如果您有特定想了解的商品名稱、型號或關鍵字,請提供更詳細的資訊,我可以幫您進一步查詢。請問您有特定想了解的產品嗎?
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我們的知識與產品查詢可以統一處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    III 補充說明 w 10%
    • 請告訴我你想查詢的產品或問題,我將為你提供詳細的資訊
    Judge 推理
    這個回覆雖然有詢問用戶的需求,但未能提供任何具體的商品資訊,且主動要求用戶提供更多資訊的方式不符合規則。回覆中缺少了知識庫查詢的相關內容,導致完整性和正確性都受到影響。
    錯誤陳述 (1)
    • 主動推薦產品
  • 案例 2DF3F6C5

    請問如何查詢你們的產品資訊?

    已完成
    第 1 次嘗試 · 已完成 23548ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 當用戶提出問題或查詢需求時觸發
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — 進階統一搜尋:跨知識庫、產品與連結資料,支援自適應三通道重排序
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 資訊類問題 → 僅回答知識內容,不主動推薦產品
    - 用戶明確要求推薦時 → 僅提供名稱、價格、特色
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問如何查詢你們的產品資訊?
    BOT您好,我是 Anthony's testing 的客服,很高興為您服務!目前查詢不到有關「如何查詢我們產品資訊」的相關資料。請問您是否有特定想了解的產品名稱、型號或關鍵字?提供更詳細的資訊後,我可以幫您進一步查詢。

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 7229 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    73.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    90.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 您可以直接提出您的問題或查詢需求
    • 我們將針對您的詢問進行知識與產品的查詢
    II 重要
    III 補充
    0.0% · w 10%
    • 並提供完整的資訊
    AI 回覆
    您好,我是 Anthony's testing 的客服,很高興為您服務!目前查詢不到有關「如何查詢我們產品資訊」的相關資料。請問您是否有特定想了解的產品名稱、型號或關鍵字?提供更詳細的資訊後,我可以幫您進一步查詢。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 您可以直接提出您的問題或查詢需求
    • 我們將針對您的詢問進行知識與產品的查詢
    III 補充說明 w 10%
    • 並提供完整的資訊
    Judge 推理
    這個回覆雖然有詢問用戶的需求,但未能直接提供查詢產品資訊的具體方法,缺少了核心必答的內容,導致完整性不足。
項目 III.

對話素養(混合問答)

mixed_qa 1 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
1 / 1 適用
答得到位 平均
answer_quality
26.7%
1 / 1 適用
  • 案例 28EEED3F

    請問要怎麼轉接真人客服呢?

    已完成
    第 1 次嘗試 · 已完成 20065ms
    腳本進度 · 轉接真人客服 ✓ 已走完
    STEP
    01

    觸發條件

    ● 已觸發 轉接真人客服
    腳本規則
    - 當用戶要求轉接真人客服,例如:線上客服、真人客服、轉真人、找真人
    
    轉接真人客服的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    — 此案例不測
    此案例 expected_tools 為空 — bot 不需呼叫工具
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - 直接觸發轉接真人
    測試 2 步 · 此案例不測 2 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER請問要怎麼轉接真人客服呢?
    BOT目前僅提供線上協助,您可以點此填寫表單留下資訊。
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 轉接真人客服
    II 重要
    III 補充
    AI 回覆
    目前僅提供線上協助,您可以點此填寫表單留下資訊。
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 轉接真人客服
    Judge 推理
    回覆未能直接轉接真人客服,且提供的資訊與用戶需求不符,因此在相關性、完整性和正確性上均得分不高。
    錯誤陳述 (1)
    • 目前僅提供線上協助,您可以點此填寫表單留下資訊。