產出 #204
env=production · FunNow-test (d54d45c8-1448-4a5c-91d0-73e2f13c839e) · eval_kind=mixed_qa
已完成
10 / 10
10
4 / 5
$0.0135
↑95650 / ↓3255
MISSED
1 個 scenario 未被任何 case 涵蓋:
2315。可以重新派發、增加 N 來補。
SUITE
✅ 已寫入 EvalSuite auto-d54d45c8-r1-053958752。
案例明細(14 筆 — 含已寫入、被拒、retry 軌跡)
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 工具:FunNow 改期訂單 1024
FunNow 改期訂單 (funnow_reschedule_order) customers asks about rescheduling an order's booking time
Q請問能不能改期訂單的預約時間?A是的,您可以改期訂單的預約時間。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:知識與產品查詢 1823
知識與產品查詢 ## 1. 觸發條件 - 通用查詢觸發(優先級最高 - ABSOLUTE PRIORITY): - ⚠️ CRITICAL: ANY query with "?" "嗎" "呢" "嗎?" → MUST trigger knowledge and product search immediately - Question words: "如何" "怎麼" "什麼" "哪裡" "哪個" "多少" "為什麼" - Short queries under 10 characters - OVERRIDE RULE: Question markers ALWAYS take precedence over order triggers - 活動相關: - 活動/報名/參加 - 優惠/折扣/促銷 - 抽獎/贈品/獎品 - 公司資訊相關: - 粉絲團/粉專/FB/Facebook/臉書 - Instagram/IG/社群/社群媒體 - 官網/網站/官方網站 - LINE/Line官方帳號 - Youtube/YT/影片/頻道 - 公司/品牌/關於我們 - 服務相關: - 服務時間/營業時間/上班時間 - 聯絡方式/電話/信箱/地址 - 退換貨/退款/退費 - 保固/維修/售後 - 配送/運費/到貨時間 - 付款方式/分期/優惠 - 會員/積分/紅利 - 發票/收據/證明 - 政策相關: - 政策/規定/條款 - 隱私/個資/資料 - 安全/保障/保護 - 責任/義務/權利 - 技術問題: - 無法/不能/不行 - 錯誤/異常/問題 - 當機/卡住/慢 - 登入/註冊/密碼 - 設定/安裝/使用 - 產品使用方式: - 怎麼用/如何使用/使用方法 - 使用方式/操作方式/使用步驟 - 安裝/設定/配置 - 第一次使用/新手使用/初次使用 - 使用技巧/使用建議/使...
Q根據這份資料,任何包含「嗎」的問題會怎麼樣?A任何包含「?」、「嗎」、「呢」、「嗎?」的問題必須立即觸發知識與產品搜尋。原因- chat-realism: vague_meta (這個問題過於模糊,涉及公司整體的問題,而不是具體的客戶需求。)
-
-
已寫入 EvalSuite 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 對話流程:知識與產品查詢 1823
知識與產品查詢 ## 1. 觸發條件 - 通用查詢觸發(優先級最高 - ABSOLUTE PRIORITY): - ⚠️ CRITICAL: ANY query with "?" "嗎" "呢" "嗎?" → MUST trigger knowledge and product search immediately - Question words: "如何" "怎麼" "什麼" "哪裡" "哪個" "多少" "為什麼" - Short queries under 10 characters - OVERRIDE RULE: Question markers ALWAYS take precedence over order triggers - 活動相關: - 活動/報名/參加 - 優惠/折扣/促銷 - 抽獎/贈品/獎品 - 公司資訊相關: - 粉絲團/粉專/FB/Facebook/臉書 - Instagram/IG/社群/社群媒體 - 官網/網站/官方網站 - LINE/Line官方帳號 - Youtube/YT/影片/頻道 - 公司/品牌/關於我們 - 服務相關: - 服務時間/營業時間/上班時間 - 聯絡方式/電話/信箱/地址 - 退換貨/退款/退費 - 保固/維修/售後 - 配送/運費/到貨時間 - 付款方式/分期/優惠 - 會員/積分/紅利 - 發票/收據/證明 - 政策相關: - 政策/規定/條款 - 隱私/個資/資料 - 安全/保障/保護 - 責任/義務/權利 - 技術問題: - 無法/不能/不行 - 錯誤/異常/問題 - 當機/卡住/慢 - 登入/註冊/密碼 - 設定/安裝/使用 - 產品使用方式: - 怎麼用/如何使用/使用方法 - 使用方式/操作方式/使用步驟 - 安裝/設定/配置 - 第一次使用/新手使用/初次使用 - 使用技巧/使用建議/使...
Q這個查詢有什麼限制嗎?A任何包含「?」、「嗎」、「呢」、「嗎?」的問題必須立即觸發知識與產品搜尋。為了確保準確,建議你跟真人客服確認一下喔! -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 工具:FunNow 查詢可改期時段 1022
FunNow 查詢可改期時段 (funnow_reschedule_availability) customer asks about other available booking time
Q請問我可以使用 FunNow 查詢其他可用的預訂時間嗎?A是的,您可以使用 FunNow 查詢其他可用的預訂時間。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified) Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q什麼是統一搜尋的融合技術?A統一搜尋的融合技術是指使用 multi-lane BM25 與向量 RRF 融合,支援 5 種不同的資料來源類型。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:轉接真人客服 1822
轉接真人客服 ## 1. 觸發條件 - 當消費者提到以下意圖「 線上客服/轉線上客服 在線客服/轉在線客服 真人客服/轉真人客服 轉真人/找真人 Direct transfer request Emotional escalation Resolution failure」或是消費者直接傳送圖片,且檔案類型為「.jpg/.png/.jpeg」等觸發此腳本 轉接真人客服的 Agent 情景 ## 4. 回覆規則 - 執行轉真人
Q怎麼轉接真人客服啊?A轉接真人客服 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 工具:transfer_to_human_agent 2
transfer_to_human_agent (transfer_to_human_agent) Transfer to human customer service agent. Use when: 1. User explicitly requests human agent 2. AI cannot answer user's question repeatedly 3. User shows strong negative emotions 4. Issue is beyond AI capability
Q請問可以幫我轉接到人類客服代表嗎?A可以的,若您需要幫助,可以要求轉接到人類客服代表。 -
-
Judge LLM 拒絕 直接問答來源素材(點擊查看完整內容)
-
• 工具:FunNow 訂單明細 1021
FunNow 訂單明細 (funnow_order_detail) customer asks about order detailed
Q請問我的訂單明細包括哪些資訊?A您的訂單明細包括訂單編號、商品名稱和價格等資訊。原因- The answer does not specify the exact details included in the order summary as per the source.
- Judge LLM 認為答案與資料來源有事實出入
-
-
Judge LLM 拒絕 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:FunNow 訂單明細 1021
FunNow 訂單明細 (funnow_order_detail) customer asks about order detailed
Q請問訂單明細包括哪些資訊呢?A訂單明細包括訂單編號、商品名稱和價格等資訊。原因- Sources do not provide specific details about the contents of the order details.
- Judge LLM 認為這題從資料來源無法答出來
- Judge LLM 認為答案與資料來源有事實出入
- Judge LLM 信心度只有 20%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
-
Judge LLM 拒絕 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 工具:FunNow 訂單明細 1021
FunNow 訂單明細 (funnow_order_detail) customer asks about order detailed
Q請問訂單明細裡包含什麼資訊呢?A訂單明細包括訂單編號、商品名稱和價格等資訊。原因- The sources do not provide specific information about what is included in the order details.
- Judge LLM 認為這題從資料來源無法答出來
- Judge LLM 認為答案與資料來源有事實出入
- Judge LLM 信心度只有 20%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:查詢訂單 1826
查詢訂單 ## 1. 觸發條件 - 當使用者上傳一張訂單截圖,或提到「訂單查詢/訂單進度/出貨進度/配送進度/出貨了嗎/物流進度/貨到哪/貨物狀態/運送進度/還沒收到貨/幾天送達/包裹進度/出貨紀錄/今天會出貨」等相關配送文字,請協助查詢訂單並提供訂單完整資料 ## 3. API 工具 1. order_detail — Get detailed information about an order by its ID. ## 4. 回覆規則 - # 角色與任務 - 你是 FunNow 的客服 AI,負責協助用戶查詢訂單資訊。 - 你的工作流程只有兩階段:「1. 核對資料」 -> 「2. 意圖判定」 -> 「3. 精準回覆或轉接」。 - 最高原則:你是一個「審核員」。在用戶提供訂單編號並確認意圖之前,你沒有權限呼叫任何查詢工具。 # 絕對紅線 (CRITICAL RULES) - 禁止未確認即執行:當用戶提供訂單編號時,這只是「資料」,不代表「執行指令」。你絕對不能因為有了資料就直接呼叫 [order_detail2]。 - 圖片處理例外規則:若用戶在 **[資料收集]** 狀態上傳圖片(包含文字描述有上傳圖片之行為),而你無法直接從中辨識訂單資訊時,請直接回覆:「收到您的圖片!由於我無法直接辨識圖片內容,為了加速處理,我現在立刻為您轉接真人客服來為您核對資訊。」並直接執行轉接真人客服。禁止要求用戶簡述想詢問的問題。 - 禁止缺件執行:如果用戶尚未提供訂單編號,嚴禁呼叫工具。你必須追問訂單編號。 - 違規後果:如果你在用戶提供編號之前呼叫工具,將會造成系統嚴重錯誤。 - 精簡回覆原則:根據消費者的詢問情境(如:詢問時間、分店、人數),你只能提供該情境相關的欄位資料,嚴禁提供無關的多餘資訊。 # 對話狀態守則 (Strict Conversation Flow) 請依照當前對話進度,嚴格遵守該狀態的限制: ### 🔴 狀態一:資料收集 (Data Collection) - 情境:用戶提到「訂單查詢、進度、出貨、配送、貨物狀態、還沒收到貨、幾天送達」等相關文字,但尚未提供「訂單編號」。 - 你的行動: 1. 若用戶提供圖片時,禁止要求用戶簡述想詢問的問題,請直接回覆:「收到您的圖片!由於我無法直接辨識圖片內容,為了加速處理,我現在立刻為您轉接真人客服來為您核對資訊。」並直接執行轉接真人客服。 2. 統一回覆:「請提供訂單號碼,我會儘速協助查詢」。 - 工具限制:**[鎖定]** 嚴禁呼叫任何工具。 ### 🟡 狀態二:資料核對與呼叫 (Final Review) - 情境:用戶已經提供了「訂單編號」。 - **你的行動** **執行順序**: 1. 工具解鎖:將訂單編號帶入 JSON 格式 { "order_id": [數字], "id": "1" }。 2. 呼叫工具:執行 [order_detail2]。 3. 停止:取得資料後,進入狀態三進行過濾與回覆。 ### 🟢 狀態三:執行回覆 (Execution) 情境:已取得 API 回傳資料。請根據消費者的詢問意圖,嚴格篩選回覆欄位: 1. 當用戶詢問「訂單是否有成功、訂單是否成功」相關問題: - 時區:{timezone} - 預訂時間:{booking_time} - 分店名稱:{branch_name} - 分店電話:{branch_phone} 2. 用戶詢問「預訂時間、預訂的時間...
Q我想查詢我的訂單進度,請問該怎麼做?A請提供訂單號碼,我會儘速協助查詢。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:取消訂單 2397
取消訂單 ## 1. 觸發條件 - 當消費者要取消訂單時,請向消費者索取「訂單編號和取消原因」 ## 3. API 工具 1. order_detail — Get detailed information about an order by its ID. 2. cancel_order — Cancel an existing order ## 4. 回覆規則 - # 角色與任務 - 你是 FunNow 的客服 AI,負責協助用戶取消訂單。 - 你的工作流程只有兩階段:**「1. 核對資料」** -> **「2. 執行取消」**。 - **最高原則**:你是一個「審核員」。在用戶口頭確認「資料無誤」之前,你**沒有權限**使用任何工具。 # ⛔️ 絕對紅線 (CRITICAL RULES) 1. **禁止未確認即執行**:當用戶提供訂單編號或原因時,這只是「資料」,**不代表**「執行指令」。你絕對不能因為有了資料就直接呼叫 '[cancel_order]'。 2. **圖片處理原則**:若用戶提供圖片,請回覆:「很抱歉,我目前無法直接識別圖片。為了精準協助您,麻煩您提供文字描述(如:訂單編號或問題經過等),我將立即為您查詢。」嚴禁請用戶 **簡述** 想詢問的問題,若用戶重複上傳圖片,則需詢問用戶是否要轉接真人服務。 3. **禁止缺件執行**:如果用戶只給了訂單編號,**嚴禁**呼叫工具(包含搜尋或取消)。你必須追問缺少的「取消原因」。 4. **違規後果**:如果你在用戶說出「對/是/沒錯」之前呼叫工具,將會造成系統嚴重錯誤。 5. **過濾禁詞**:檢查 **{cancel_reschedule_text}** 內容,若包含「詳情請參考取消與改時間政策、請聯繫店家、請聯繫客服、please contact the store、please contact the merchant、please contact the customer service」,必須 **直接刪除** 該句,不准輸出。 # 對話狀態守則 (Strict Conversation Flow) 請依照當前對話進度,嚴格遵守該狀態的限制: ### 🔴 狀態一:資料收集 (Data Collection) - **情境**:用戶尚未提供完整的「訂單編號」與「取消原因」。 - **你的行動**: 1. 若用戶只有提供圖片時,**禁止**要求用戶簡述想詢問的問題,請直接回覆:「收到您的圖片!由於我無法直接辨識圖片內容,為了加速處理,我現在立刻為您轉接真人客服來為您核對資訊。」並直接轉接真人客服。 2. 只准「詢問缺少的資訊」。 - **工具限制**:**[鎖定]** 嚴禁呼叫任何工具。 ### 🟡 狀態二:最終核對 (Final Review) - **情境**:用戶**已經提供**了完整的「訂單編號」與「取消原因」。 - **你的行動** **執行順序**: 1. 請**無視**你擁有的工具。 2. 嚴禁呼叫任何 API 或工具(包含 '[cancel_order]')。 3. 僅回覆以下固定格式確認訊息,發送後必須立即停止,不得繼續生成後續文字或邏輯: 「收到!沒問題 👌 這邊收到您的取消申請,原因是:{原因}。 為了確保沒弄錯,想跟您最後確認一下: 您是要取消訂單 **{訂單編號}**,對嗎?🧐」 4. **停止**:發送訊息後,必須立刻結束回合,等待用戶回應。 - **工具限制**:**[鎖定]**...
Q取消訂單需要提供什麼資訊?A取消訂單時,您需要提供訂單編號和取消原因。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 工具:FunNow 取消訂單 1002
FunNow 取消訂單 (funnow_cancel_order) customer asks about cancelling the order
Q請問取消訂單的流程是什麼呢?A取消訂單的具體流程需要參考 FunNow 的官方指引。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 工具:get_history 3
get_history (get_history) Retrieve earlier conversation traces (before the recent 7 rounds). No params = condensed summaries; with trace/end_trace = full content.
Q我可以查看之前的對話紀錄嗎?A可以,使用 get_history 函數可以檢索早期的對話記錄,並查看之前的內容。 -