執行 #303

全寵家AI客服 (bulk R1) → production-baseline

狀態
已完成
案例
16
開始時間
16 May 13:02
耗時
297.7s
¶ Economics · Bot-side N=16 attempts

Cost & Tokens

$0.0452
Total Bot Cost · USD
91.0%
Prompt Cache Hit
cost per case
$0.0028
cost per 1k tokens
$0.0008
input tokens
55,959
output tokens
1,210
cached tokens — prompt-cache hit
50,944
Total Tokens
57,169
economic efficiency
cost per correct
$0.0012
pass rate
50.0%
8 / 16
judge cost
$0.0093
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 8ce4f599-2de3-437e-b636-35d676a0139c 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:ee868bc4 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
16 / 16
錯誤
0
失敗維度
0
首字延遲 p95
3134 ms
Bot 成本(Neptune)
$0.0452
Bot Tokens(Neptune)
57,169
Judge 成本(Eris)
$0.0093
Judge Tokens(Eris)
77,815
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
80.0%
[50.0% – 100.0%] · n=10
F1 66.7% · 召回 80.0% · 精確 60.0%
10 / 10 適用
用對工具 召回
tool_usage
40.0%
[10.0% – 70.0%] · n=10
F1 40.0% · 召回 40.0% · 精確 50.0%
10 / 10 適用
答得到位 平均
answer_quality
68.7%
[55.0% – 82.0%] · n=10
10 / 10 適用
  • 案例 1FD7C6D1

    我想詢問我的訂單,你們需要什麼資料嗎?

    已完成
    第 1 次嘗試 · 已完成 9380ms
    腳本進度 · 詢問訂單相關 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 詢問訂單相關
    腳本規則
    - 當用戶提到關於訂單相關問題
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 1 項
    未收集:訂單編號
    腳本規則
    ### 訂單 — 跟訂單相關的資訊搜集
    - 訂單編號 [number] (必填): 訂單編號
    預期 / 已收集 (0/1)
    欄位 預期值(generate) 已收集(run)
    訂單編號 ORD123456789 — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — Concurrent search tool for knowledge base and products
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER我想詢問我的訂單,你們需要什麼資料嗎?
    BOT稍等一下我來幫您查詢 💡 您好!我是全寵家AI客服,很高興為您服務 😊 若您想查詢訂單相關資訊,請提供您的「訂單編號」,我們就能幫您查詢訂單狀態或其他相關問題喔! 請問您的訂單編號是?

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 990 · 詢問訂單相關
    TP 1
    FP 0
    FN 0

    工具使用

    0.0%
    Precision
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • search_unified
    TP 0
    FP 0
    FN 1

    回答品質

    100.0%
    相關性
    100.0%
    完整性
    100.0%
    正確性
    100.0%
    加權拆解 · 三層 coverage
    I 核心
    II 重要
    III 補充
    100.0% · w 10%
    AI 回覆
    稍等一下我來幫您查詢 💡 您好!我是全寵家AI客服,很高興為您服務 😊 若您想查詢訂單相關資訊,請提供您的「訂單編號」,我們就能幫您查詢訂單狀態或其他相關問題喔! 請問您的訂單編號是?
    預期答案 · 加權拆解
    III 補充說明 w 10%
    • 請提供您的訂單編號,好讓我幫您查詢相關資訊
    Judge 推理
    這個回覆完全符合用戶的查詢,並且要求提供訂單編號以便進行查詢,涵蓋了所有必要的資訊,且沒有錯誤的陳述。
  • 案例 595C50CF

    我的訂單號碼查不到,怎麼會這樣?

    已完成
    第 1 次嘗試 · 已完成 14559ms
    腳本進度 · 訂單查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 訂單查詢
    腳本規則
    - When user has questions about specific order details, shipping status, or purchase history (only after user provides required personal info).
    
    訂單查詢的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:shopline_search_orders
    腳本規則
    1. shopline_search_orders — 根據聊天記錄搜尋相關訂單資訊
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - Provide clear and concise answers based on order search results from tool messages
    - If multiple relevant orders found, combine them logically
    - If no relevant order found, acknowledge and offer to check with customer service
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我的訂單號碼查不到,怎麼會這樣?
    BOT稍等一下我來幫您查詢 💡 根據我的了解,訂單號碼查不到可能有多種原因,例如輸入錯誤、訂單尚未成立或系統延遲等。為了確保準確,建議你跟真人客服確認一下喔!如果有其他細節也歡迎提供,我會盡力協助你!😊

    情境路由

    66.7%
    Precision
    50.0%
    Recall
    100.0%
    F1
    66.7%
    預期 (1)
    • 978 · 訂單查詢
    意料之外 (1)
    • ! 知識與產品查詢
    TP 1
    FP 1
    FN 0

    工具使用

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • shopline_search_orders
    意料之外 (1)
    • ! search_unified
    TP 0
    FP 1
    FN 1

    回答品質

    86.7%
    相關性
    100.0%
    完整性
    70.0%
    正確性
    90.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 系統未找到相關訂單
    • 提供的訂單號碼有誤
    II 重要
    III 補充
    100.0% · w 10%
    AI 回覆
    稍等一下我來幫您查詢 💡 根據我的了解,訂單號碼查不到可能有多種原因,例如輸入錯誤、訂單尚未成立或系統延遲等。為了確保準確,建議你跟真人客服確認一下喔!如果有其他細節也歡迎提供,我會盡力協助你!😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統未找到相關訂單
    • 提供的訂單號碼有誤
    III 補充說明 w 10%
    • 建議聯繫客服以獲取進一步協助
    Judge 推理
    這個回覆針對用戶的問題提供了相關的解釋,但未完全涵蓋所有關鍵點。特別是缺少了系統未找到訂單和訂單號碼有誤的具體說明。
  • 案例 222DE2B0

    髮片功能有哪些?

    已完成
    第 1 次嘗試 · 已完成 12423ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 通用查詢觸發(優先級最高 - ABSOLUTE PRIORITY):
                        - ⚠️ CRITICAL: ANY query with "?" "嗎" "呢" "嗎?" → MUST trigger knowledge and product search immediately
                        - Question words: "如何" "怎麼" "什麼" "哪裡" "哪個" "多少" "為什麼"
                        - Short queries under 10 characters
                        - OVERRIDE RULE: Question markers ALWAYS take precedence over order triggers
    - 活動相關:
                        - 活動/報名/參加
                        - 優惠/折扣/促銷
                        - 抽獎/贈品/獎品
    - 公司資訊相關:
                        - 粉絲團/粉專/FB/Facebook/臉書
                        - Instagram/IG/社群/社群媒體
                        - 官網/網站/官方網站
                        - LINE/Line官方帳號
                        - Youtube/YT/影片/頻道
                        - 公司/品牌/關於我們
    - 服務相關:
                        - 服務時間/營業時間/上班時間
                        - 聯絡方式/電話/信箱/地址
                        - 退換貨/退款/退費
                        - 保固/維修/售後
                        - 配送/運費/到貨時間
                        - 付款方式/分期/優惠
                        - 會員/積分/紅利
                        - 發票/收據/證明
    - 政策相關:
                        - 政策/規定/條款
                        - 隱私/個資/資料
                        - 安全/保障/保護
                        - 責任/義務/權利
    - 技術問題:
                        - 無法/不能/不行
                        - 錯誤/異常/問題
                        - 當機/卡住/慢
                        - 登入/註冊/密碼
                        - 設定/安裝/使用
    - 產品使用方式:
                        - 怎麼用/如何使用/使用方法
                        - 使用方式/操作方式/使用步驟
                        - 安裝/設定/配置
                        - 第一次使用/新手使用/初次使用
                        - 使用技巧/使用建議/使用訣竅
                        - 使用注意/注意事項/使用須知
                        - 使用限制/使用條件/使用要求
    - 產品組合搭配:
                        - 搭配/組合/配對
                        - 一起用/同時使用/配合使用
                        - 推薦組合/熱門組合/最佳搭配
                        - 套餐/套組/套裝
                        - 加購/加買/額外購買
                        - 相關產品/相關商品/配套
                        - 升級/升級版/進階版
    - 功能補充說明:
                        - 功能/特色/特性
                        - 詳細說明/詳細介紹/詳細規格
                        - 補充說明/額外說明/更多資訊
                        - 技術規格/技術參數/技術細節
                        - 適用範圍/適用對象/適用情境
                        - 限制/限制條件/使用限制
                        - 差異/不同/區別
    - 產品比較:
                        - 比較/對比/差異
                        - 哪個好/哪個適合/選擇建議
                        - 優缺點/優劣/好壞
                        - 推薦/建議/選擇
                        - 性價比/CP值/划算
    - 產品維護保養:
                        - 保養/維護/清潔
                        - 保存/存放/收藏
                        - 壽命/使用期限/保固期
                        - 維修/故障/問題排除
                        - 更換/替換/更新
    - 直接產品需求:
                        - 商品/產品/物品
                        - 推薦/介紹/建議
                        - 我想要/我需要/我在找
                        - 購買/買/訂購
    - 產品特性:
                        - 功能/特色/優點
                        - 規格/尺寸/容量
                        - 價格/費用/成本
                        - 品質/評價/口碑
                        - 適用/適合/符合
    - 使用場景:
                        - 用途/目的/需求
                        - 場合/情境/環境
                        - 對象/年齡/性別
                        - 預算/範圍/限制
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能? — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - ### 🚨 Language Consistency (Highest Priority)
    - **Absolutely NO language mixing**: Responses must be 100% in the language specified by Response Language
    - **No results response format**: When tools return no results, use language-appropriate responses:
    -   • If Response Language is Chinese: '根據我的了解,[general answer]。為了確保準確,建議你跟真人客服確認一下喔!'
    -   • If Response Language is English: 'Based on my understanding, [general answer]. For accuracy, I recommend confirming with our customer service team!'
    -   • If Response Language is French: 'Selon ma compréhension, [réponse générale]. Pour plus de précision, je recommande de confirmer avec notre service client !'
    -   • For other languages: Use equivalent expressions in the target language
    - 
    - ### Core Principles
    - All answers MUST be based on <tool: search_knowledge_and_products> tool output, NEVER fabricate
    - NEVER fabricate: Product/service details, policies, promotional offers, pre-sales/after-sales services, real-time data
    - 
    - ### User Intent Analysis (CRITICAL)
    - **Informational questions** (how/why/what/when/where) → Focus ONLY on knowledge answers, DO NOT proactively recommend products
    - **Product requests** (recommendations/suggestions/comparisons) → Provide product information
    - **Mixed intent** → Start with knowledge answer, then ASK if user wants product recommendations (don't assume)
    - 
    - ### Conversation History Check (Avoid Repetition)
    - **MANDATORY**: Before recommending products, review conversation history for already mentioned products
    - If products were previously recommended but user showed NO strong interest → DO NOT repeat those products
    - If user actively asked follow-up questions about previously mentioned products → MAY mention them again with NEW information
    - ONLY repeat previous products if user explicitly asks about them again or shows clear purchase intent
    - 
    - ### Response & Format Requirements
    - **Product recommendation rules** (STRICT criteria):
    -   • **ONLY recommend products when user explicitly uses these phrases**:
    -     • '推薦[商品]' (recommend [product]), '介紹[商品]' (introduce [product])
    -     • '想買' (want to buy), '購買' (purchase), '選擇' (choose)
    -     • '比較' (compare), '差別' (difference between products)
    -   • **NEVER recommend products for**:
    -     • Pure informational questions (how/why/what/when/where)
    -     • Knowledge-seeking queries without purchase intent
    -     • General curiosity about topics
    -     • Questions answered sufficiently with knowledge content
    -   • **FORBIDDEN phrases that trigger unwanted recommendations**:
    -     • '不過我可以為您推薦一些產品'
    -     • '如果您有興趣,我可以推薦'
    -     • '我們有以下產品可以考慮'
    -     • Any proactive product suggestions when not requested
    -   • **When products ARE appropriate**: Provide ONLY these details:
    -     • Product Title
    -     • Price (also show price_sale if available)
    -     • Key specifications
    -     • One-sentence recommendation reason
    -     • **STRICTLY FORBIDDEN for products**: URLs, links, images, or any other information not listed above
    - **Knowledge information display**: When providing knowledge answers:
    -   • **URL format**: 'Topic Name: URL' (example: Customer Form: https://example.com)
    -   • **ABSOLUTELY FORBIDDEN**: markdown format [text](url). NEVER write [Customer Form](url), ALWAYS write Customer Form: url
    -   • **Image format**: 
    
    ![](image_url)
    
     (Use ONLY image links from tool messages)
    - 
    - ### Prohibited Terms
    - MUST NOT mention: 'knowledge base', 'database', 'system records', 'internal data', 'documentation'
    - NEVER use robotic phrases: 'according to our data', 'based on knowledge base', 'system shows'
    - Always rephrase naturally, making responses sound like a helpful human assistant
    - 
    - **Pre-response Checklist**: □ Correct language □ Based on tool results □ Natural expression
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER髮片功能有哪些?
    BOT正在為您搜尋最新資料 ⏳ 根據我的了解,髮片的功能可能包括增厚髮量、修飾造型等。不過目前沒有查到更詳細的資訊。為了確保準確,建議你跟真人客服確認一下喔!如果還有其他問題,也歡迎隨時詢問我~😊

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 977 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    76.7%
    相關性
    90.0%
    完整性
    60.0%
    正確性
    80.0%
    加權拆解 · 三層 coverage
    I 核心
    60.0% · w 60%
    • 髮片的主要功能包括改善外觀以及適合不同的髮型需求
    II 重要
    III 補充
    0.0% · w 10%
    • 建議查看我們的產品介紹喔
    AI 回覆
    正在為您搜尋最新資料 ⏳ 根據我的了解,髮片的功能可能包括增厚髮量、修飾造型等。不過目前沒有查到更詳細的資訊。為了確保準確,建議你跟真人客服確認一下喔!如果還有其他問題,也歡迎隨時詢問我~😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 髮片的主要功能包括增添髮量、改善外觀以及適合不同的髮型需求
    III 補充說明 w 10%
    • 建議查看我們的產品介紹喔
    Judge 推理
    回覆中提到的髮片功能不夠完整,缺少了改善外觀和適合不同髮型需求的描述。此外,根據規則,應該建議查看產品介紹,但這部分也未提及。
  • 案例 6597E8D8

    可以查詢我的訂單嗎?

    已完成
    第 1 次嘗試 · 已完成 8310ms
    腳本進度 · 詢問訂單相關 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 詢問訂單相關
    腳本規則
    - 當用戶提到關於訂單相關問題
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 1 項
    未收集:訂單編號
    腳本規則
    ### 訂單 — 跟訂單相關的資訊搜集
    - 訂單編號 [number] (必填): 訂單編號
    預期 / 已收集 (0/1)
    欄位 預期值(generate) 已收集(run)
    訂單編號 A123456789 — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — Concurrent search tool for knowledge base and products
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → shopline_search_orders
    USER可以查詢我的訂單嗎?
    BOT正在為您搜尋最新資料 ⏳ 您好!我是全寵家AI客服,很高興為您服務 😊 目前查詢不到您的訂單資訊。請您提供更詳細的資料,例如訂單編號、下單時的手機號碼或電子郵件信箱,我會再幫您查詢喔!如果有其他問題也歡迎隨時告訴我~

    情境路由

    66.7%
    Precision
    50.0%
    Recall
    100.0%
    F1
    66.7%
    預期 (1)
    • 990 · 詢問訂單相關
    意料之外 (1)
    • ! 訂單查詢
    TP 1
    FP 1
    FN 0

    工具使用

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • search_unified
    意料之外 (1)
    • ! shopline_search_orders
    TP 0
    FP 1
    FN 1

    回答品質

    83.3%
    相關性
    90.0%
    完整性
    70.0%
    正確性
    90.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 我可以幫你查詢訂單的狀態
    • 我需要你的訂單編號來進行查詢
    II 重要
    III 補充
    AI 回覆
    正在為您搜尋最新資料 ⏳ 您好!我是全寵家AI客服,很高興為您服務 😊 目前查詢不到您的訂單資訊。請您提供更詳細的資料,例如訂單編號、下單時的手機號碼或電子郵件信箱,我會再幫您查詢喔!如果有其他問題也歡迎隨時告訴我~
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 我可以幫你查詢訂單的狀態
    • 我需要你的訂單編號來進行查詢
    Judge 推理
    回覆中提到需要更詳細的資料來查詢訂單,但未明確告知用戶可以查詢訂單狀態,且缺少了需要訂單編號的要求,因此在完整性上有所不足。
  • 案例 6FC4C51C

    為什麼我的訂單查詢沒有回覆啊?

    已完成
    第 1 次嘗試 · 已完成 9508ms
    腳本進度 · 訂單查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 訂單查詢
    腳本規則
    - When user has questions about specific order details, shipping status, or purchase history (only after user provides required personal info).
    
    訂單查詢的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:shopline_search_orders
    腳本規則
    1. shopline_search_orders — 根據聊天記錄搜尋相關訂單資訊
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - Provide clear and concise answers based on order search results from tool messages
    - If multiple relevant orders found, combine them logically
    - If no relevant order found, acknowledge and offer to check with customer service
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER為什麼我的訂單查詢沒有回覆啊?
    BOT稍等一下我來幫您查詢 💡 根據我的了解,訂單查詢沒有回覆可能有多種原因,例如系統繁忙、網路異常或資料傳送延遲等。為了確保準確,建議你跟真人客服確認一下喔!如果還有其他問題,也歡迎隨時告訴我~😊

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • 978 · 訂單查詢
    意料之外 (2)
    • ! 知識與產品查詢
    • ! 詢問訂單相關
    TP 0
    FP 2
    FN 1

    工具使用

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • shopline_search_orders
    意料之外 (1)
    • ! search_unified
    TP 0
    FP 1
    FN 1

    回答品質

    66.7%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    70.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 系統會邏輯性地合併回覆多個相關訂單
    II 重要
    III 補充
    0.0% · w 10%
    • 請提供你的訂單相關資訊,方便我幫你查詢
    AI 回覆
    稍等一下我來幫您查詢 💡 根據我的了解,訂單查詢沒有回覆可能有多種原因,例如系統繁忙、網路異常或資料傳送延遲等。為了確保準確,建議你跟真人客服確認一下喔!如果還有其他問題,也歡迎隨時告訴我~😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統會邏輯性地合併回覆多個相關訂單
    III 補充說明 w 10%
    • 請提供你的訂單相關資訊,方便我幫你查詢
    Judge 推理
    這個回覆雖然提到了可能的原因,但沒有提供具體的訂單查詢資訊,也沒有請求用戶提供相關的訂單資訊,導致完整性不足。
  • 案例 F7818DA5

    我想查詢我的訂單狀態,訂單編號要提供嗎?

    已完成
    第 1 次嘗試 · 已完成 13038ms
    腳本進度 · 詢問訂單相關 ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 詢問訂單相關
    腳本規則
    - 當用戶提到關於訂單相關問題
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 1 項
    未收集:訂單編號
    腳本規則
    ### 訂單 — 跟訂單相關的資訊搜集
    - 訂單編號 [number] (必填): 訂單編號
    預期 / 已收集 (0/1)
    欄位 預期值(generate) 已收集(run)
    訂單編號 ORD123456789 — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — Concurrent search tool for knowledge base and products
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我想查詢我的訂單狀態,訂單編號要提供嗎?
    BOT稍等一下我來幫您查詢 💡 根據我的了解,查詢訂單狀態時通常需要提供訂單編號,這樣才能幫您準確找到相關資訊。為了確保準確,建議你跟真人客服確認一下喔!如果還有其他問題,也歡迎隨時詢問我!😊

    情境路由

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • 990 · 詢問訂單相關
    意料之外 (1)
    • ! 知識與產品查詢
    TP 0
    FP 1
    FN 1

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    63.3%
    相關性
    90.0%
    完整性
    50.0%
    正確性
    50.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 您需要提供訂單編號才能查詢訂單相關資訊
    II 重要
    III 補充
    AI 回覆
    稍等一下我來幫您查詢 💡 根據我的了解,查詢訂單狀態時通常需要提供訂單編號,這樣才能幫您準確找到相關資訊。為了確保準確,建議你跟真人客服確認一下喔!如果還有其他問題,也歡迎隨時詢問我!😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 您需要提供訂單編號才能查詢訂單相關資訊
    Judge 推理
    回覆中提到需要提供訂單編號,但未直接回答用戶的問題,且建議聯繫真人客服,這不符合預期的具體回答風格。
    錯誤陳述 (1)
    • 建議你跟真人客服確認一下喔!
  • 案例 70ABED6F

    這個髮片的使用方法是什麼?

    已完成
    第 1 次嘗試 · 已完成 15727ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 通用查詢觸發(優先級最高 - ABSOLUTE PRIORITY):
                        - ⚠️ CRITICAL: ANY query with "?" "嗎" "呢" "嗎?" → MUST trigger knowledge and product search immediately
                        - Question words: "如何" "怎麼" "什麼" "哪裡" "哪個" "多少" "為什麼"
                        - Short queries under 10 characters
                        - OVERRIDE RULE: Question markers ALWAYS take precedence over order triggers
    - 活動相關:
                        - 活動/報名/參加
                        - 優惠/折扣/促銷
                        - 抽獎/贈品/獎品
    - 公司資訊相關:
                        - 粉絲團/粉專/FB/Facebook/臉書
                        - Instagram/IG/社群/社群媒體
                        - 官網/網站/官方網站
                        - LINE/Line官方帳號
                        - Youtube/YT/影片/頻道
                        - 公司/品牌/關於我們
    - 服務相關:
                        - 服務時間/營業時間/上班時間
                        - 聯絡方式/電話/信箱/地址
                        - 退換貨/退款/退費
                        - 保固/維修/售後
                        - 配送/運費/到貨時間
                        - 付款方式/分期/優惠
                        - 會員/積分/紅利
                        - 發票/收據/證明
    - 政策相關:
                        - 政策/規定/條款
                        - 隱私/個資/資料
                        - 安全/保障/保護
                        - 責任/義務/權利
    - 技術問題:
                        - 無法/不能/不行
                        - 錯誤/異常/問題
                        - 當機/卡住/慢
                        - 登入/註冊/密碼
                        - 設定/安裝/使用
    - 產品使用方式:
                        - 怎麼用/如何使用/使用方法
                        - 使用方式/操作方式/使用步驟
                        - 安裝/設定/配置
                        - 第一次使用/新手使用/初次使用
                        - 使用技巧/使用建議/使用訣竅
                        - 使用注意/注意事項/使用須知
                        - 使用限制/使用條件/使用要求
    - 產品組合搭配:
                        - 搭配/組合/配對
                        - 一起用/同時使用/配合使用
                        - 推薦組合/熱門組合/最佳搭配
                        - 套餐/套組/套裝
                        - 加購/加買/額外購買
                        - 相關產品/相關商品/配套
                        - 升級/升級版/進階版
    - 功能補充說明:
                        - 功能/特色/特性
                        - 詳細說明/詳細介紹/詳細規格
                        - 補充說明/額外說明/更多資訊
                        - 技術規格/技術參數/技術細節
                        - 適用範圍/適用對象/適用情境
                        - 限制/限制條件/使用限制
                        - 差異/不同/區別
    - 產品比較:
                        - 比較/對比/差異
                        - 哪個好/哪個適合/選擇建議
                        - 優缺點/優劣/好壞
                        - 推薦/建議/選擇
                        - 性價比/CP值/划算
    - 產品維護保養:
                        - 保養/維護/清潔
                        - 保存/存放/收藏
                        - 壽命/使用期限/保固期
                        - 維修/故障/問題排除
                        - 更換/替換/更新
    - 直接產品需求:
                        - 商品/產品/物品
                        - 推薦/介紹/建議
                        - 我想要/我需要/我在找
                        - 購買/買/訂購
    - 產品特性:
                        - 功能/特色/優點
                        - 規格/尺寸/容量
                        - 價格/費用/成本
                        - 品質/評價/口碑
                        - 適用/適合/符合
    - 使用場景:
                        - 用途/目的/需求
                        - 場合/情境/環境
                        - 對象/年齡/性別
                        - 預算/範圍/限制
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶型號和功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - ### 🚨 Language Consistency (Highest Priority)
    - **Absolutely NO language mixing**: Responses must be 100% in the language specified by Response Language
    - **No results response format**: When tools return no results, use language-appropriate responses:
    -   • If Response Language is Chinese: '根據我的了解,[general answer]。為了確保準確,建議你跟真人客服確認一下喔!'
    -   • If Response Language is English: 'Based on my understanding, [general answer]. For accuracy, I recommend confirming with our customer service team!'
    -   • If Response Language is French: 'Selon ma compréhension, [réponse générale]. Pour plus de précision, je recommande de confirmer avec notre service client !'
    -   • For other languages: Use equivalent expressions in the target language
    - 
    - ### Core Principles
    - All answers MUST be based on <tool: search_knowledge_and_products> tool output, NEVER fabricate
    - NEVER fabricate: Product/service details, policies, promotional offers, pre-sales/after-sales services, real-time data
    - 
    - ### User Intent Analysis (CRITICAL)
    - **Informational questions** (how/why/what/when/where) → Focus ONLY on knowledge answers, DO NOT proactively recommend products
    - **Product requests** (recommendations/suggestions/comparisons) → Provide product information
    - **Mixed intent** → Start with knowledge answer, then ASK if user wants product recommendations (don't assume)
    - 
    - ### Conversation History Check (Avoid Repetition)
    - **MANDATORY**: Before recommending products, review conversation history for already mentioned products
    - If products were previously recommended but user showed NO strong interest → DO NOT repeat those products
    - If user actively asked follow-up questions about previously mentioned products → MAY mention them again with NEW information
    - ONLY repeat previous products if user explicitly asks about them again or shows clear purchase intent
    - 
    - ### Response & Format Requirements
    - **Product recommendation rules** (STRICT criteria):
    -   • **ONLY recommend products when user explicitly uses these phrases**:
    -     • '推薦[商品]' (recommend [product]), '介紹[商品]' (introduce [product])
    -     • '想買' (want to buy), '購買' (purchase), '選擇' (choose)
    -     • '比較' (compare), '差別' (difference between products)
    -   • **NEVER recommend products for**:
    -     • Pure informational questions (how/why/what/when/where)
    -     • Knowledge-seeking queries without purchase intent
    -     • General curiosity about topics
    -     • Questions answered sufficiently with knowledge content
    -   • **FORBIDDEN phrases that trigger unwanted recommendations**:
    -     • '不過我可以為您推薦一些產品'
    -     • '如果您有興趣,我可以推薦'
    -     • '我們有以下產品可以考慮'
    -     • Any proactive product suggestions when not requested
    -   • **When products ARE appropriate**: Provide ONLY these details:
    -     • Product Title
    -     • Price (also show price_sale if available)
    -     • Key specifications
    -     • One-sentence recommendation reason
    -     • **STRICTLY FORBIDDEN for products**: URLs, links, images, or any other information not listed above
    - **Knowledge information display**: When providing knowledge answers:
    -   • **URL format**: 'Topic Name: URL' (example: Customer Form: https://example.com)
    -   • **ABSOLUTELY FORBIDDEN**: markdown format [text](url). NEVER write [Customer Form](url), ALWAYS write Customer Form: url
    -   • **Image format**: 
    
    ![](image_url)
    
     (Use ONLY image links from tool messages)
    - 
    - ### Prohibited Terms
    - MUST NOT mention: 'knowledge base', 'database', 'system records', 'internal data', 'documentation'
    - NEVER use robotic phrases: 'according to our data', 'based on knowledge base', 'system shows'
    - Always rephrase naturally, making responses sound like a helpful human assistant
    - 
    - **Pre-response Checklist**: □ Correct language □ Based on tool results □ Natural expression
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER這個髮片的使用方法是什麼?
    BOT正在為您搜尋最新資料 ⏳ 根據我的了解,髮片的使用方法可能會因產品不同而有所差異。為了確保準確,建議你跟真人客服確認一下喔!如果有特定的髮片品牌或型號,也可以提供給我,我再幫你查詢更詳細的資訊!😊

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 977 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 髮片的使用方法包括先將髮片與自己的頭髮融合,然後固定在需要的部位,最後調整到合適的樣式
    II 重要
    0.0% · w 30%
    • 使用時要注意避免潮濕環境及用力拉扯髮片,以延長使用壽命
    III 補充
    AI 回覆
    正在為您搜尋最新資料 ⏳ 根據我的了解,髮片的使用方法可能會因產品不同而有所差異。為了確保準確,建議你跟真人客服確認一下喔!如果有特定的髮片品牌或型號,也可以提供給我,我再幫你查詢更詳細的資訊!😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 髮片的使用方法包括先將髮片與自己的頭髮融合,然後固定在需要的部位,最後調整到合適的樣式
    II 重要限制 w 30%
    • 使用時要注意避免潮濕環境及用力拉扯髮片,以延長使用壽命
    Judge 推理
    這個回答未能提供髮片的具體使用方法,且包含了不必要的建議去詢問真人客服,這與用戶的需求不符。
    錯誤陳述 (1)
    • 根據我的了解,髮片的使用方法可能會因產品不同而有所差異。
  • 案例 133CAB3E

    請問有關於優惠的活動資訊可以查詢嗎?

    已完成
    第 1 次嘗試 · 已完成 7210ms
    腳本進度 · 知識與產品查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 知識與產品查詢
    腳本規則
    - 通用查詢觸發(優先級最高 - ABSOLUTE PRIORITY):
                        - ⚠️ CRITICAL: ANY query with "?" "嗎" "呢" "嗎?" → MUST trigger knowledge and product search immediately
                        - Question words: "如何" "怎麼" "什麼" "哪裡" "哪個" "多少" "為什麼"
                        - Short queries under 10 characters
                        - OVERRIDE RULE: Question markers ALWAYS take precedence over order triggers
    - 活動相關:
                        - 活動/報名/參加
                        - 優惠/折扣/促銷
                        - 抽獎/贈品/獎品
    - 公司資訊相關:
                        - 粉絲團/粉專/FB/Facebook/臉書
                        - Instagram/IG/社群/社群媒體
                        - 官網/網站/官方網站
                        - LINE/Line官方帳號
                        - Youtube/YT/影片/頻道
                        - 公司/品牌/關於我們
    - 服務相關:
                        - 服務時間/營業時間/上班時間
                        - 聯絡方式/電話/信箱/地址
                        - 退換貨/退款/退費
                        - 保固/維修/售後
                        - 配送/運費/到貨時間
                        - 付款方式/分期/優惠
                        - 會員/積分/紅利
                        - 發票/收據/證明
    - 政策相關:
                        - 政策/規定/條款
                        - 隱私/個資/資料
                        - 安全/保障/保護
                        - 責任/義務/權利
    - 技術問題:
                        - 無法/不能/不行
                        - 錯誤/異常/問題
                        - 當機/卡住/慢
                        - 登入/註冊/密碼
                        - 設定/安裝/使用
    - 產品使用方式:
                        - 怎麼用/如何使用/使用方法
                        - 使用方式/操作方式/使用步驟
                        - 安裝/設定/配置
                        - 第一次使用/新手使用/初次使用
                        - 使用技巧/使用建議/使用訣竅
                        - 使用注意/注意事項/使用須知
                        - 使用限制/使用條件/使用要求
    - 產品組合搭配:
                        - 搭配/組合/配對
                        - 一起用/同時使用/配合使用
                        - 推薦組合/熱門組合/最佳搭配
                        - 套餐/套組/套裝
                        - 加購/加買/額外購買
                        - 相關產品/相關商品/配套
                        - 升級/升級版/進階版
    - 功能補充說明:
                        - 功能/特色/特性
                        - 詳細說明/詳細介紹/詳細規格
                        - 補充說明/額外說明/更多資訊
                        - 技術規格/技術參數/技術細節
                        - 適用範圍/適用對象/適用情境
                        - 限制/限制條件/使用限制
                        - 差異/不同/區別
    - 產品比較:
                        - 比較/對比/差異
                        - 哪個好/哪個適合/選擇建議
                        - 優缺點/優劣/好壞
                        - 推薦/建議/選擇
                        - 性價比/CP值/划算
    - 產品維護保養:
                        - 保養/維護/清潔
                        - 保存/存放/收藏
                        - 壽命/使用期限/保固期
                        - 維修/故障/問題排除
                        - 更換/替換/更新
    - 直接產品需求:
                        - 商品/產品/物品
                        - 推薦/介紹/建議
                        - 我想要/我需要/我在找
                        - 購買/買/訂購
    - 產品特性:
                        - 功能/特色/優點
                        - 規格/尺寸/容量
                        - 價格/費用/成本
                        - 品質/評價/口碑
                        - 適用/適合/符合
    - 使用場景:
                        - 用途/目的/需求
                        - 場合/情境/環境
                        - 對象/年齡/性別
                        - 預算/範圍/限制
    
    統一處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 2 項
    未收集:query、keywords_or_codes
    腳本規則
    ### knowledge_and_product_search_parameters — 知識庫與產品並發搜尋參數
    - query [string] (必填): User's current main question or topic to inquire about, or product they want to query or get recommendations for (3-20 word phrase, focusing on latest intent, excluding resolved or irrelevant content)
    - keywords_or_codes [array] (必填): All codes, labels, product keywords, model numbers appearing in user's message (e.g., C90012, T1234), empty array if none
    預期 / 已收集 (0/2)
    欄位 預期值(generate) 已收集(run)
    query 我想了解最新的智能手錶有哪些功能 — (對話未走到)
    keywords_or_codes [] — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - ### 🚨 Language Consistency (Highest Priority)
    - **Absolutely NO language mixing**: Responses must be 100% in the language specified by Response Language
    - **No results response format**: When tools return no results, use language-appropriate responses:
    -   • If Response Language is Chinese: '根據我的了解,[general answer]。為了確保準確,建議你跟真人客服確認一下喔!'
    -   • If Response Language is English: 'Based on my understanding, [general answer]. For accuracy, I recommend confirming with our customer service team!'
    -   • If Response Language is French: 'Selon ma compréhension, [réponse générale]. Pour plus de précision, je recommande de confirmer avec notre service client !'
    -   • For other languages: Use equivalent expressions in the target language
    - 
    - ### Core Principles
    - All answers MUST be based on <tool: search_knowledge_and_products> tool output, NEVER fabricate
    - NEVER fabricate: Product/service details, policies, promotional offers, pre-sales/after-sales services, real-time data
    - 
    - ### User Intent Analysis (CRITICAL)
    - **Informational questions** (how/why/what/when/where) → Focus ONLY on knowledge answers, DO NOT proactively recommend products
    - **Product requests** (recommendations/suggestions/comparisons) → Provide product information
    - **Mixed intent** → Start with knowledge answer, then ASK if user wants product recommendations (don't assume)
    - 
    - ### Conversation History Check (Avoid Repetition)
    - **MANDATORY**: Before recommending products, review conversation history for already mentioned products
    - If products were previously recommended but user showed NO strong interest → DO NOT repeat those products
    - If user actively asked follow-up questions about previously mentioned products → MAY mention them again with NEW information
    - ONLY repeat previous products if user explicitly asks about them again or shows clear purchase intent
    - 
    - ### Response & Format Requirements
    - **Product recommendation rules** (STRICT criteria):
    -   • **ONLY recommend products when user explicitly uses these phrases**:
    -     • '推薦[商品]' (recommend [product]), '介紹[商品]' (introduce [product])
    -     • '想買' (want to buy), '購買' (purchase), '選擇' (choose)
    -     • '比較' (compare), '差別' (difference between products)
    -   • **NEVER recommend products for**:
    -     • Pure informational questions (how/why/what/when/where)
    -     • Knowledge-seeking queries without purchase intent
    -     • General curiosity about topics
    -     • Questions answered sufficiently with knowledge content
    -   • **FORBIDDEN phrases that trigger unwanted recommendations**:
    -     • '不過我可以為您推薦一些產品'
    -     • '如果您有興趣,我可以推薦'
    -     • '我們有以下產品可以考慮'
    -     • Any proactive product suggestions when not requested
    -   • **When products ARE appropriate**: Provide ONLY these details:
    -     • Product Title
    -     • Price (also show price_sale if available)
    -     • Key specifications
    -     • One-sentence recommendation reason
    -     • **STRICTLY FORBIDDEN for products**: URLs, links, images, or any other information not listed above
    - **Knowledge information display**: When providing knowledge answers:
    -   • **URL format**: 'Topic Name: URL' (example: Customer Form: https://example.com)
    -   • **ABSOLUTELY FORBIDDEN**: markdown format [text](url). NEVER write [Customer Form](url), ALWAYS write Customer Form: url
    -   • **Image format**: 
    
    ![](image_url)
    
     (Use ONLY image links from tool messages)
    - 
    - ### Prohibited Terms
    - MUST NOT mention: 'knowledge base', 'database', 'system records', 'internal data', 'documentation'
    - NEVER use robotic phrases: 'according to our data', 'based on knowledge base', 'system shows'
    - Always rephrase naturally, making responses sound like a helpful human assistant
    - 
    - **Pre-response Checklist**: □ Correct language □ Based on tool results □ Natural expression
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問有關於優惠的活動資訊可以查詢嗎?
    BOT馬上為您找找看相關內容 📋 根據我的了解,目前沒有查詢到相關的優惠活動資訊喔!為了確保準確,建議你跟真人客服確認一下喔!如果還有其他問題,也歡迎隨時問我~😊

    情境路由

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • 977 · 知識與產品查詢
    TP 1
    FP 0
    FN 0

    工具使用

    100.0%
    Precision
    100.0%
    Recall
    100.0%
    F1
    100.0%
    預期 (1)
    • search_unified
    TP 1
    FP 0
    FN 0

    回答品質

    50.0%
    相關性
    90.0%
    完整性
    60.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 您可以查看我們的官方網站或社群媒體平台以獲得最新消息
    II 重要
    III 補充
    100.0% · w 10%
    AI 回覆
    馬上為您找找看相關內容 📋 根據我的了解,目前沒有查詢到相關的優惠活動資訊喔!為了確保準確,建議你跟真人客服確認一下喔!如果還有其他問題,也歡迎隨時問我~😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 您可以查看我們的官方網站或社群媒體平台以獲得最新消息
    III 補充說明 w 10%
    • 建議您跟真人客服確認一下喔
    Judge 推理
    這個回答的內容不完全符合用戶的查詢,缺少了查詢優惠活動的具體資訊,並且錯誤地聲稱沒有相關資訊。根據規則,應該提供官方網站或社群媒體平台的資訊。
    錯誤陳述 (1)
    • 目前沒有查詢到相關的優惠活動資訊
  • 案例 18C6F134

    我的訂單狀態怎麼查?

    已完成
    第 1 次嘗試 · 已完成 9908ms
    腳本進度 · 訂單查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 訂單查詢
    腳本規則
    - When user has questions about specific order details, shipping status, or purchase history (only after user provides required personal info).
    
    訂單查詢的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:shopline_search_orders
    腳本規則
    1. shopline_search_orders — 根據聊天記錄搜尋相關訂單資訊
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - Provide clear and concise answers based on order search results from tool messages
    - If multiple relevant orders found, combine them logically
    - If no relevant order found, acknowledge and offer to check with customer service
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER我的訂單狀態怎麼查?
    BOT馬上為您找找看相關內容 📋 根據我的了解,查詢訂單狀態通常可以在會員中心或訂單查詢頁面進行。為了確保準確,建議你跟真人客服確認一下喔!如果有其他需要協助的地方,也歡迎隨時告訴我!😊

    情境路由

    66.7%
    Precision
    50.0%
    Recall
    100.0%
    F1
    66.7%
    預期 (1)
    • 978 · 訂單查詢
    意料之外 (1)
    • ! 知識與產品查詢
    TP 1
    FP 1
    FN 0

    工具使用

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • shopline_search_orders
    意料之外 (1)
    • ! search_unified
    TP 0
    FP 1
    FN 1

    回答品質

    43.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 需要提供一些個人相關資訊才能查詢訂單狀態
    • 包含訂單編號等
    II 重要
    III 補充
    0.0% · w 10%
    • 請告訴我你的訂單編號
    AI 回覆
    馬上為您找找看相關內容 📋 根據我的了解,查詢訂單狀態通常可以在會員中心或訂單查詢頁面進行。為了確保準確,建議你跟真人客服確認一下喔!如果有其他需要協助的地方,也歡迎隨時告訴我!😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 需要提供一些個人相關資訊才能查詢訂單狀態
    • 包含訂單編號等
    III 補充說明 w 10%
    • 請告訴我你的訂單編號
    Judge 推理
    這個回覆雖然提到查詢訂單狀態的方式,但沒有要求用戶提供必要的個人資訊和訂單編號,導致不完整。回覆也未能遵循規則,未能提供清晰的指示。
  • 案例 0E25BFDD

    請問我的訂單狀態查詢,系統未能找到相關訂單該怎麼辦呢?

    已完成
    第 1 次嘗試 · 已完成 9115ms
    腳本進度 · 訂單查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 訂單查詢
    腳本規則
    - When user has questions about specific order details, shipping status, or purchase history (only after user provides required personal info).
    
    訂單查詢的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:shopline_search_orders
    腳本規則
    1. shopline_search_orders — 根據聊天記錄搜尋相關訂單資訊
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - Provide clear and concise answers based on order search results from tool messages
    - If multiple relevant orders found, combine them logically
    - If no relevant order found, acknowledge and offer to check with customer service
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問我的訂單狀態查詢,系統未能找到相關訂單該怎麼辦呢?
    BOT馬上為您找找看相關內容 📋 根據我的了解,當系統查詢不到您的訂單時,建議您可以再次確認訂單編號或相關資訊是否正確。如果還是找不到,建議您直接聯繫我們的真人客服協助處理喔!😊

    情境路由

    66.7%
    Precision
    50.0%
    Recall
    100.0%
    F1
    66.7%
    預期 (1)
    • 978 · 訂單查詢
    意料之外 (1)
    • ! 知識與產品查詢
    TP 1
    FP 1
    FN 0

    工具使用

    0.0%
    Precision
    0.0%
    Recall
    0.0%
    F1
    0.0%
    預期 (1)
    • shopline_search_orders
    意料之外 (1)
    • ! search_unified
    TP 0
    FP 1
    FN 1

    回答品質

    90.0%
    相關性
    100.0%
    完整性
    70.0%
    正確性
    100.0%
    加權拆解 · 三層 coverage
    I 核心
    100.0% · w 60%
    II 重要
    III 補充
    0.0% · w 10%
    • 建議您聯繫客服以獲得進一步的協助
    AI 回覆
    馬上為您找找看相關內容 📋 根據我的了解,當系統查詢不到您的訂單時,建議您可以再次確認訂單編號或相關資訊是否正確。如果還是找不到,建議您直接聯繫我們的真人客服協助處理喔!😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 系統未能找到相關訂單
    III 補充說明 w 10%
    • 建議您聯繫客服以獲得進一步的協助
    Judge 推理
    回覆內容針對訂單查詢的問題提供了相關建議,但未包含建議聯繫客服的部分,因此在完整性上有所缺失。
項目 III.

對話素養(混合問答)

mixed_qa 6 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
50.0%
[0.0% – 100.0%] · n=2
6 / 6 適用
答得到位 平均
answer_quality
54.4%
[32.8% – 75.0%] · n=6
6 / 6 適用
  • 案例 8D8BB4C7

    查不到我的訂單怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 29612ms
    腳本進度 · 訂單查詢 ✗ 卡關
    STEP
    01

    觸發條件

    ● 已觸發 訂單查詢
    腳本規則
    - When user has questions about specific order details, shipping status, or purchase history (only after user provides required personal info).
    
    訂單查詢的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:shopline_search_orders
    腳本規則
    1. shopline_search_orders — 根據聊天記錄搜尋相關訂單資訊
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - Provide clear and concise answers based on order search results from tool messages
    - If multiple relevant orders found, combine them logically
    - If no relevant order found, acknowledge and offer to check with customer service
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER查不到我的訂單怎麼辦?
    BOT正在為您搜尋最新資料 ⏳ 根據我的了解,若查不到訂單,建議你跟真人客服確認一下喔!😊 若有其他問題也歡迎隨時詢問,我很樂意協助你!
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    73.3%
    相關性
    90.0%
    完整性
    50.0%
    正確性
    80.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 系統會確認並提供聯繫客服的選項
    II 重要
    III 補充
    AI 回覆
    正在為您搜尋最新資料 ⏳ 根據我的了解,若查不到訂單,建議你跟真人客服確認一下喔!😊 若有其他問題也歡迎隨時詢問,我很樂意協助你!
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 如果未找到相關訂單,系統會確認並提供聯繫客服的選項
    Judge 推理
    回覆中提到建議聯繫客服,但未明確說明系統會確認訂單的步驟,因此在完整性上有所欠缺。
  • 案例 57406A3A

    電商訂單搜尋怎麼做?

    已完成
    第 1 次嘗試 · 已完成 8709ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:shopline_search_orders
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER電商訂單搜尋怎麼做?
    BOT稍等一下我來幫您查詢 💡 根據我的了解,電商訂單搜尋的方式可能會依照不同平台有所不同。為了確保準確,建議你跟真人客服確認一下喔!如果有其他相關問題,也歡迎隨時詢問我~😊

    回答品質

    26.7%
    相關性
    50.0%
    完整性
    30.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 電商訂單搜尋是透過 JTCG SaaS API 和 vendor parser 來格式化資料的
    II 重要
    III 補充
    AI 回覆
    稍等一下我來幫您查詢 💡 根據我的了解,電商訂單搜尋的方式可能會依照不同平台有所不同。為了確保準確,建議你跟真人客服確認一下喔!如果有其他相關問題,也歡迎隨時詢問我~😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 電商訂單搜尋是透過 JTCG SaaS API 和 vendor parser 來格式化資料的
    Judge 推理
    回覆未直接回答用戶的問題,且缺乏關鍵資訊,無法提供正確的搜尋方式。
  • 案例 B9800C6E

    這個 get_history 是什麼功能?

    已完成
    第 1 次嘗試 · 已完成 10204ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:get_history
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER這個 get_history 是什麼功能?
    BOT馬上為您找找看相關內容 📋 根據我的了解,目前沒有找到「get_history」的相關功能說明。為了確保準確,建議你跟真人客服確認一下喔!如果有其他問題也歡迎再問我~😊

    回答品質

    16.7%
    相關性
    50.0%
    完整性
    0.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • get_history 是一個用於檢索早期對話記錄的工具
    • 可以查看最近 7 輪之前的對話
    • 沒有參數的話會顯示精簡摘要
    • 若有 trace/end_trace 參數則會顯示完整內容
    II 重要
    III 補充
    AI 回覆
    馬上為您找找看相關內容 📋 根據我的了解,目前沒有找到「get_history」的相關功能說明。為了確保準確,建議你跟真人客服確認一下喔!如果有其他問題也歡迎再問我~😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • get_history 是一個用於檢索早期對話記錄的工具
    • 可以查看最近 7 輪之前的對話
    • 沒有參數的話會顯示精簡摘要
    • 若有 trace/end_trace 參數則會顯示完整內容
    Judge 推理
    這個回答未能提供任何有關 get_history 的正確資訊,且錯誤地聲稱找不到相關功能說明,完全未涵蓋正確的功能描述。
    錯誤陳述 (1)
    • 目前沒有找到「get_history」的相關功能說明
  • 案例 E48457E4

    如果線上客服無法解決問題,我會轉接真人客服嗎?

    已完成
    第 1 次嘗試 · 已完成 8913ms
    腳本進度 · 轉接真人客服 ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 轉接真人客服
    腳本規則
    - 線上客服/轉線上客服
    - 在線客服/轉在線客服
    - 真人客服/轉真人客服
    - 轉真人/找真人
    - Direct transfer request
    - Emotional escalation
    - Resolution failure
    
    轉接真人客服的 Agent 情景
    STEP
    02

    資訊收集

    — 依規則行為(由「回答品質」評分)
    此情境無結構化欄位需收集,但 spec rules 約束 bot 行為(驗證關卡、禁止外洩等)— 評分由 answer_quality + spec_rules 維度承擔
    STEP
    03

    API 工具

    — 此案例不測
    此案例 expected_tools 為空 — bot 不需呼叫工具
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    腳本規則
    - Acknowledge situation
    - Return transfer response in specified format
    測試 2 步 · 此案例不測 2 步
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER如果線上客服無法解決問題,我會轉接真人客服嗎?
    BOT稍等一下我來幫您查詢 💡 根據我的了解,當線上客服無法解決您的問題時,通常會有協助轉接真人客服的服務。不過為了確保準確,建議你跟真人客服確認一下喔!如果還有其他疑問,也歡迎隨時告訴我 😊
    PARTIAL
    忠實度——metric 尚未齊全 (缺:hallucination_rate, citation_grounding)

    回答品質

    83.3%
    相關性
    100.0%
    完整性
    50.0%
    正確性
    100.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 如果線上客服無法解決問題,則會轉接真人客服
    II 重要
    III 補充
    AI 回覆
    稍等一下我來幫您查詢 💡 根據我的了解,當線上客服無法解決您的問題時,通常會有協助轉接真人客服的服務。不過為了確保準確,建議你跟真人客服確認一下喔!如果還有其他疑問,也歡迎隨時告訴我 😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 如果線上客服無法解決問題,則會轉接真人客服
    Judge 推理
    回覆提到轉接真人客服的情況,但未明確回答問題的核心內容,導致完整性不足。
  • 案例 F86693A1

    如果AI無法回答,會轉接到人類客服嗎

    已完成
    第 1 次嘗試 · 已完成 8106ms
    腳本進度 · early_return ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 early_return
    STEP
    02

    資訊收集

    — 此案例不測
    此案例 info_held 為空 — bot 不需問取資訊
    STEP
    03

    API 工具

    ✗ 已呼叫 0 / 1 個工具
    未呼叫:transfer_to_human_agent
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    測試 3 步 · 此案例不測 1 步
    對話流程 · 1 turn
    Turn 1 STEP 04
    USER如果AI無法回答,會轉接到人類客服嗎
    BOT目前僅提供線上協助,您可點此填寫表單留資料

    回答品質

    43.3%
    相關性
    80.0%
    完整性
    50.0%
    正確性
    0.0%
    加權拆解 · 三層 coverage
    I 核心
    0.0% · w 60%
    • 如果AI無法重複回答問題,則可以轉接至人類客服
    II 重要
    III 補充
    AI 回覆
    目前僅提供線上協助,您可點此填寫表單留資料
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 如果AI無法重複回答問題,則可以轉接至人類客服
    Judge 推理
    回覆未正確回答用戶的問題,且提供的資訊與事實不符,未提及AI無法回答時會轉接至人類客服。
    錯誤陳述 (1)
    • 目前僅提供線上協助,您可點此填寫表單留資料
  • 案例 C60D87E4

    請問我如何詢問我的訂單狀況呢?

    已完成
    第 1 次嘗試 · 已完成 9916ms
    腳本進度 · 詢問訂單相關 ✗ 卡關
    STEP
    01

    觸發條件

    ✗ 未進入 詢問訂單相關
    腳本規則
    - 當用戶提到關於訂單相關問題
    STEP
    02

    資訊收集

    ✗ 已收集 0 / 1 項
    未收集:訂單編號
    腳本規則
    ### 訂單 — 跟訂單相關的資訊搜集
    - 訂單編號 [number] (必填): 訂單編號
    預期 / 已收集 (0/1)
    欄位 預期值(generate) 已收集(run)
    訂單編號 ORD123456789 — (對話未走到)
    STEP
    03

    API 工具

    ○ 等待資訊收集完成
    腳本規則
    1. search_unified — Concurrent search tool for knowledge base and products
    STEP
    04

    回覆規則

    ● bot 已回覆(單問單答案例,未啟用多輪迴圈)
    完整測試 4 個步驟
    對話流程 · 1 turn
    Turn 1 STEP 03 · STEP 04 → search_unified
    USER請問我如何詢問我的訂單狀況呢?
    BOT馬上為您找找看相關內容 📋 根據我的了解,查詢訂單狀況通常可以透過平台的「訂單查詢」功能或聯繫客服協助。不過為了確保準確,建議你跟真人客服確認一下喔!如果有其他需要,也歡迎隨時告訴我!😊

    回答品質

    83.3%
    相關性
    90.0%
    完整性
    70.0%
    正確性
    90.0%
    加權拆解 · 三層 coverage
    I 核心
    50.0% · w 60%
    • 您可以直接詢問與訂單相關的問題
    II 重要
    III 補充
    50.0% · w 10%
    • 我會協助您查詢
    AI 回覆
    馬上為您找找看相關內容 📋 根據我的了解,查詢訂單狀況通常可以透過平台的「訂單查詢」功能或聯繫客服協助。不過為了確保準確,建議你跟真人客服確認一下喔!如果有其他需要,也歡迎隨時告訴我!😊
    預期答案 · 加權拆解
    I 核心必答 w 60%
    • 您可以直接詢問與訂單相關的問題
    III 補充說明 w 10%
    • 我會協助您查詢
    Judge 推理
    回覆中提到的查詢方式雖然相關,但未直接回答用戶的問題,且缺少了關鍵的指引內容,導致完整性不足。