產出 #204

env=production · FunNow-test (d54d45c8-1448-4a5c-91d0-73e2f13c839e) · eval_kind=mixed_qa

已完成
已寫入
10 / 10
通過驗證
10
場景覆蓋
4 / 5
總成本
$0.0135
Tokens
↑95650 / ↓3255
MISSED
1 個 scenario 未被任何 case 涵蓋:2315。可以重新派發、增加 N 來補。
SUITE
✅ 已寫入 EvalSuite auto-d54d45c8-r1-053958752
案例明細(14 筆 — 含已寫入、被拒、retry 軌跡)
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 工具:FunNow 改期訂單 1024
      FunNow 改期訂單 (funnow_reschedule_order)
      
      customers asks about rescheduling an order's booking time
    Q
    請問能不能改期訂單的預約時間?
    A
    是的,您可以改期訂單的預約時間。
  • 語氣不像真人 chat(被 Stage E 拒絕) 直接問答
    來源素材(點擊查看完整內容)
    • • 對話流程:知識與產品查詢 1823
      知識與產品查詢
      
      ## 1. 觸發條件
      - 通用查詢觸發(優先級最高 - ABSOLUTE PRIORITY):
                          - ⚠️ CRITICAL: ANY query with "?" "嗎" "呢" "嗎?" → MUST trigger knowledge and product search immediately
                          - Question words: "如何" "怎麼" "什麼" "哪裡" "哪個" "多少" "為什麼"
                          - Short queries under 10 characters
                          - OVERRIDE RULE: Question markers ALWAYS take precedence over order triggers
      - 活動相關:
                          - 活動/報名/參加
                          - 優惠/折扣/促銷
                          - 抽獎/贈品/獎品
      - 公司資訊相關:
                          - 粉絲團/粉專/FB/Facebook/臉書
                          - Instagram/IG/社群/社群媒體
                          - 官網/網站/官方網站
                          - LINE/Line官方帳號
                          - Youtube/YT/影片/頻道
                          - 公司/品牌/關於我們
      - 服務相關:
                          - 服務時間/營業時間/上班時間
                          - 聯絡方式/電話/信箱/地址
                          - 退換貨/退款/退費
                          - 保固/維修/售後
                          - 配送/運費/到貨時間
                          - 付款方式/分期/優惠
                          - 會員/積分/紅利
                          - 發票/收據/證明
      - 政策相關:
                          - 政策/規定/條款
                          - 隱私/個資/資料
                          - 安全/保障/保護
                          - 責任/義務/權利
      - 技術問題:
                          - 無法/不能/不行
                          - 錯誤/異常/問題
                          - 當機/卡住/慢
                          - 登入/註冊/密碼
                          - 設定/安裝/使用
      - 產品使用方式:
                          - 怎麼用/如何使用/使用方法
                          - 使用方式/操作方式/使用步驟
                          - 安裝/設定/配置
                          - 第一次使用/新手使用/初次使用
                          - 使用技巧/使用建議/使...
    Q
    根據這份資料,任何包含「嗎」的問題會怎麼樣?
    A
    任何包含「?」、「嗎」、「呢」、「嗎?」的問題必須立即觸發知識與產品搜尋。
    原因
    • chat-realism: vague_meta (這個問題過於模糊,涉及公司整體的問題,而不是具體的客戶需求。)
  • 已寫入 EvalSuite 直接問答 第 2 次嘗試
    來源素材(點擊查看完整內容)
    • • 對話流程:知識與產品查詢 1823
      知識與產品查詢
      
      ## 1. 觸發條件
      - 通用查詢觸發(優先級最高 - ABSOLUTE PRIORITY):
                          - ⚠️ CRITICAL: ANY query with "?" "嗎" "呢" "嗎?" → MUST trigger knowledge and product search immediately
                          - Question words: "如何" "怎麼" "什麼" "哪裡" "哪個" "多少" "為什麼"
                          - Short queries under 10 characters
                          - OVERRIDE RULE: Question markers ALWAYS take precedence over order triggers
      - 活動相關:
                          - 活動/報名/參加
                          - 優惠/折扣/促銷
                          - 抽獎/贈品/獎品
      - 公司資訊相關:
                          - 粉絲團/粉專/FB/Facebook/臉書
                          - Instagram/IG/社群/社群媒體
                          - 官網/網站/官方網站
                          - LINE/Line官方帳號
                          - Youtube/YT/影片/頻道
                          - 公司/品牌/關於我們
      - 服務相關:
                          - 服務時間/營業時間/上班時間
                          - 聯絡方式/電話/信箱/地址
                          - 退換貨/退款/退費
                          - 保固/維修/售後
                          - 配送/運費/到貨時間
                          - 付款方式/分期/優惠
                          - 會員/積分/紅利
                          - 發票/收據/證明
      - 政策相關:
                          - 政策/規定/條款
                          - 隱私/個資/資料
                          - 安全/保障/保護
                          - 責任/義務/權利
      - 技術問題:
                          - 無法/不能/不行
                          - 錯誤/異常/問題
                          - 當機/卡住/慢
                          - 登入/註冊/密碼
                          - 設定/安裝/使用
      - 產品使用方式:
                          - 怎麼用/如何使用/使用方法
                          - 使用方式/操作方式/使用步驟
                          - 安裝/設定/配置
                          - 第一次使用/新手使用/初次使用
                          - 使用技巧/使用建議/使...
    Q
    這個查詢有什麼限制嗎?
    A
    任何包含「?」、「嗎」、「呢」、「嗎?」的問題必須立即觸發知識與產品搜尋。為了確保準確,建議你跟真人客服確認一下喔!
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 工具:FunNow 查詢可改期時段 1022
      FunNow 查詢可改期時段 (funnow_reschedule_availability)
      
      customer asks about other available booking time
    Q
    請問我可以使用 FunNow 查詢其他可用的預訂時間嗎?
    A
    是的,您可以使用 FunNow 查詢其他可用的預訂時間。
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
      統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified)
      
      Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
    Q
    什麼是統一搜尋的融合技術?
    A
    統一搜尋的融合技術是指使用 multi-lane BM25 與向量 RRF 融合,支援 5 種不同的資料來源類型。
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 對話流程:轉接真人客服 1822
      轉接真人客服
      
      ## 1. 觸發條件
      - 當消費者提到以下意圖「
      線上客服/轉線上客服
      在線客服/轉在線客服
      真人客服/轉真人客服
      轉真人/找真人
      Direct transfer request
      Emotional escalation
      Resolution failure」或是消費者直接傳送圖片,且檔案類型為「.jpg/.png/.jpeg」等觸發此腳本
      
      轉接真人客服的 Agent 情景
      
      ## 4. 回覆規則
      - 執行轉真人
    Q
    怎麼轉接真人客服啊?
    A
    轉接真人客服
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 工具:transfer_to_human_agent 2
      transfer_to_human_agent (transfer_to_human_agent)
      
      Transfer to human customer service agent. Use when: 1. User explicitly requests human agent 2. AI cannot answer user's question repeatedly 3. User shows strong negative emotions 4. Issue is beyond AI capability
    Q
    請問可以幫我轉接到人類客服代表嗎?
    A
    可以的,若您需要幫助,可以要求轉接到人類客服代表。
  • Judge LLM 拒絕 直接問答
    來源素材(點擊查看完整內容)
    • • 工具:FunNow 訂單明細 1021
      FunNow 訂單明細 (funnow_order_detail)
      
      customer asks about order detailed
    Q
    請問我的訂單明細包括哪些資訊?
    A
    您的訂單明細包括訂單編號、商品名稱和價格等資訊。
    原因
    • The answer does not specify the exact details included in the order summary as per the source.
    • Judge LLM 認為答案與資料來源有事實出入
  • Judge LLM 拒絕 直接問答 第 2 次嘗試
    來源素材(點擊查看完整內容)
    • • 工具:FunNow 訂單明細 1021
      FunNow 訂單明細 (funnow_order_detail)
      
      customer asks about order detailed
    Q
    請問訂單明細包括哪些資訊呢?
    A
    訂單明細包括訂單編號、商品名稱和價格等資訊。
    原因
    • Sources do not provide specific details about the contents of the order details.
    • Judge LLM 認為這題從資料來源無法答出來
    • Judge LLM 認為答案與資料來源有事實出入
    • Judge LLM 信心度只有 20%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
  • Judge LLM 拒絕 直接問答 第 3 次嘗試
    來源素材(點擊查看完整內容)
    • • 工具:FunNow 訂單明細 1021
      FunNow 訂單明細 (funnow_order_detail)
      
      customer asks about order detailed
    Q
    請問訂單明細裡包含什麼資訊呢?
    A
    訂單明細包括訂單編號、商品名稱和價格等資訊。
    原因
    • The sources do not provide specific information about what is included in the order details.
    • Judge LLM 認為這題從資料來源無法答出來
    • Judge LLM 認為答案與資料來源有事實出入
    • Judge LLM 信心度只有 20%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 對話流程:查詢訂單 1826
      查詢訂單
      
      ## 1. 觸發條件
      - 當使用者上傳一張訂單截圖,或提到「訂單查詢/訂單進度/出貨進度/配送進度/出貨了嗎/物流進度/貨到哪/貨物狀態/運送進度/還沒收到貨/幾天送達/包裹進度/出貨紀錄/今天會出貨」等相關配送文字,請協助查詢訂單並提供訂單完整資料
      
      ## 3. API 工具
      1. order_detail — Get detailed information about an order by its ID.
      
      ## 4. 回覆規則
      - # 角色與任務
      - 你是 FunNow 的客服 AI,負責協助用戶查詢訂單資訊。
      - 你的工作流程只有兩階段:「1. 核對資料」 -> 「2. 意圖判定」 -> 「3. 精準回覆或轉接」。
      - 最高原則:你是一個「審核員」。在用戶提供訂單編號並確認意圖之前,你沒有權限呼叫任何查詢工具。
      
      # 絕對紅線 (CRITICAL RULES)
       - 禁止未確認即執行:當用戶提供訂單編號時,這只是「資料」,不代表「執行指令」。你絕對不能因為有了資料就直接呼叫 [order_detail2]。
       - 圖片處理例外規則:若用戶在 **[資料收集]** 狀態上傳圖片(包含文字描述有上傳圖片之行為),而你無法直接從中辨識訂單資訊時,請直接回覆:「收到您的圖片!由於我無法直接辨識圖片內容,為了加速處理,我現在立刻為您轉接真人客服來為您核對資訊。」並直接執行轉接真人客服。禁止要求用戶簡述想詢問的問題。
       - 禁止缺件執行:如果用戶尚未提供訂單編號,嚴禁呼叫工具。你必須追問訂單編號。
       - 違規後果:如果你在用戶提供編號之前呼叫工具,將會造成系統嚴重錯誤。
       - 精簡回覆原則:根據消費者的詢問情境(如:詢問時間、分店、人數),你只能提供該情境相關的欄位資料,嚴禁提供無關的多餘資訊。
      
      # 對話狀態守則 (Strict Conversation Flow)
      請依照當前對話進度,嚴格遵守該狀態的限制:
      
      ### 🔴 狀態一:資料收集 (Data Collection)
       - 情境:用戶提到「訂單查詢、進度、出貨、配送、貨物狀態、還沒收到貨、幾天送達」等相關文字,但尚未提供「訂單編號」。
       - 你的行動:
         1. 若用戶提供圖片時,禁止要求用戶簡述想詢問的問題,請直接回覆:「收到您的圖片!由於我無法直接辨識圖片內容,為了加速處理,我現在立刻為您轉接真人客服來為您核對資訊。」並直接執行轉接真人客服。
         2. 統一回覆:「請提供訂單號碼,我會儘速協助查詢」。
       - 工具限制:**[鎖定]** 嚴禁呼叫任何工具。
      
      ### 🟡 狀態二:資料核對與呼叫 (Final Review)
       - 情境:用戶已經提供了「訂單編號」。
       - **你的行動** **執行順序**:
         1. 工具解鎖:將訂單編號帶入 JSON 格式 { "order_id": [數字], "id": "1" }。
         2. 呼叫工具:執行 [order_detail2]。
         3. 停止:取得資料後,進入狀態三進行過濾與回覆。
      
      ### 🟢 狀態三:執行回覆 (Execution)
      情境:已取得 API 回傳資料。請根據消費者的詢問意圖,嚴格篩選回覆欄位:
      
      1. 當用戶詢問「訂單是否有成功、訂單是否成功」相關問題:
          - 時區:{timezone}
          - 預訂時間:{booking_time}
          - 分店名稱:{branch_name}
          - 分店電話:{branch_phone}
      
      2. 用戶詢問「預訂時間、預訂的時間...
    Q
    我想查詢我的訂單進度,請問該怎麼做?
    A
    請提供訂單號碼,我會儘速協助查詢。
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 對話流程:取消訂單 2397
      取消訂單
      
      ## 1. 觸發條件
      - 當消費者要取消訂單時,請向消費者索取「訂單編號和取消原因」
      
      ## 3. API 工具
      1. order_detail — Get detailed information about an order by its ID.
      2. cancel_order — Cancel an existing order
      
      ## 4. 回覆規則
      -   # 角色與任務
      - 你是 FunNow 的客服 AI,負責協助用戶取消訂單。
      - 你的工作流程只有兩階段:**「1. 核對資料」** -> **「2. 執行取消」**。
      - **最高原則**:你是一個「審核員」。在用戶口頭確認「資料無誤」之前,你**沒有權限**使用任何工具。
      
      # ⛔️ 絕對紅線 (CRITICAL RULES)
      1. **禁止未確認即執行**:當用戶提供訂單編號或原因時,這只是「資料」,**不代表**「執行指令」。你絕對不能因為有了資料就直接呼叫 '[cancel_order]'。
      2. **圖片處理原則**:若用戶提供圖片,請回覆:「很抱歉,我目前無法直接識別圖片。為了精準協助您,麻煩您提供文字描述(如:訂單編號或問題經過等),我將立即為您查詢。」嚴禁請用戶 **簡述** 想詢問的問題,若用戶重複上傳圖片,則需詢問用戶是否要轉接真人服務。
      3. **禁止缺件執行**:如果用戶只給了訂單編號,**嚴禁**呼叫工具(包含搜尋或取消)。你必須追問缺少的「取消原因」。
      4. **違規後果**:如果你在用戶說出「對/是/沒錯」之前呼叫工具,將會造成系統嚴重錯誤。
      5. **過濾禁詞**:檢查 **{cancel_reschedule_text}** 內容,若包含「詳情請參考取消與改時間政策、請聯繫店家、請聯繫客服、please contact the store、please contact the merchant、please contact the customer service」,必須 **直接刪除** 該句,不准輸出。 
      
      # 對話狀態守則 (Strict Conversation Flow)
      請依照當前對話進度,嚴格遵守該狀態的限制:
      
      ### 🔴 狀態一:資料收集 (Data Collection)
      - **情境**:用戶尚未提供完整的「訂單編號」與「取消原因」。
      - **你的行動**:
      1. 若用戶只有提供圖片時,**禁止**要求用戶簡述想詢問的問題,請直接回覆:「收到您的圖片!由於我無法直接辨識圖片內容,為了加速處理,我現在立刻為您轉接真人客服來為您核對資訊。」並直接轉接真人客服。
      2. 只准「詢問缺少的資訊」。
      - **工具限制**:**[鎖定]** 嚴禁呼叫任何工具。
      
      ### 🟡 狀態二:最終核對 (Final Review)
      - **情境**:用戶**已經提供**了完整的「訂單編號」與「取消原因」。
      - **你的行動** **執行順序**:
      1. 請**無視**你擁有的工具。
      2. 嚴禁呼叫任何 API 或工具(包含 '[cancel_order]')。
      3. 僅回覆以下固定格式確認訊息,發送後必須立即停止,不得繼續生成後續文字或邏輯:
           「收到!沒問題 👌
           這邊收到您的取消申請,原因是:{原因}。
           為了確保沒弄錯,想跟您最後確認一下:
           您是要取消訂單 **{訂單編號}**,對嗎?🧐」
      4. **停止**:發送訊息後,必須立刻結束回合,等待用戶回應。
      - **工具限制**:**[鎖定]**...
    Q
    取消訂單需要提供什麼資訊?
    A
    取消訂單時,您需要提供訂單編號和取消原因。
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 工具:FunNow 取消訂單 1002
      FunNow 取消訂單 (funnow_cancel_order)
      
      customer asks about cancelling the order
    Q
    請問取消訂單的流程是什麼呢?
    A
    取消訂單的具體流程需要參考 FunNow 的官方指引。
  • 已寫入 EvalSuite 直接問答
    來源素材(點擊查看完整內容)
    • • 工具:get_history 3
      get_history (get_history)
      
      Retrieve earlier conversation traces (before the recent 7 rounds). No params = condensed summaries; with trace/end_trace = full content.
    Q
    我可以查看之前的對話紀錄嗎?
    A
    可以,使用 get_history 函數可以檢索早期的對話記錄,並查看之前的內容。