產出 #138
env=production · botty (a3d64709-cb2b-41dd-8668-d195b7a81677) · eval_kind=mixed_qa
已完成
10 / 10
10
3 / 4
$0.0176
↑127408 / ↓5498
MISSED
1 個 scenario 未被任何 case 涵蓋:
314。可以重新派發、增加 N 來補。
SUITE
✅ 已寫入 EvalSuite auto-a3d64709-r1-053958512。
案例明細(25 筆 — 含已寫入、被拒、retry 軌跡)
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:運費如何計算? know_15189
Q: 運費如何計算? A: 訂單滿1000元免運費,未滿則酌收80元運費。
Q滿1000元有免運費嗎A訂單滿1000元免運費,未滿則酌收80元運費。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 工具:商品推薦(shopline alias) 63
商品推薦(shopline alias) (shopline_recommend_products) Recommend products via hybrid RAG search or direct product IDs. Returns vendor-normalized product info (title, price, stock, variations, etc.) suitable for shopping conversations. Vendor routing handled by backend.
Q請問商品推薦的功能可以提供哪些資訊呢?A商品推薦的功能可以提供標題、價格、庫存、變體等供應商標準化的產品信息,適合用於購物對話。原因- chat-realism: formal_chinese (The phrasing '可以提供哪些資訊' is too formal for a typical customer inquiry in chat.)
-
-
已寫入 EvalSuite 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:商品推薦(shopline alias) 63
商品推薦(shopline alias) (shopline_recommend_products) Recommend products via hybrid RAG search or direct product IDs. Returns vendor-normalized product info (title, price, stock, variations, etc.) suitable for shopping conversations. Vendor routing handled by backend.
Q請問你們的商品推薦是怎麼運作的?A商品推薦可以透過混合 RAG 搜尋或直接使用產品 ID 來推薦產品,返回經過供應商標準化的產品信息,包括標題、價格、庫存、變體等,適合用於購物對話。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:訂單查詢 316
訂單查詢 ## 1. 觸發條件 - When user has questions about specific order details, shipping status, or purchase history (only after user provides required personal info). 訂單查詢的 Agent 情景 ## 3. API 工具 1. shopline_search_orders — 根據聊天記錄搜尋相關訂單資訊 ## 4. 回覆規則 - Provide clear and concise answers based on order search results from tool messages - If multiple relevant orders found, combine them logically - If no relevant order found, acknowledge and offer to check with customer service
Q如何查詢我的訂單詳細資訊?A請提供您的姓名或聯絡電話,我可以幫您查詢訂單的詳細資訊。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 工具:get_history 3
get_history (get_history) Retrieve earlier conversation traces (before the recent 7 rounds). No params = condensed summaries; with trace/end_trace = full content.
Q請問使用 get_history 可以取得什麼內容?A使用 get_history 可以檢索之前的對話記錄,如果加上 trace/end_trace 參數,則會返回完整的內容。原因- chat-realism: internal_role_title (The question references 'get_history', which suggests an internal function or role that a typical customer wouldn't m...)
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:get_history 3
get_history (get_history) Retrieve earlier conversation traces (before the recent 7 rounds). No params = condensed summaries; with trace/end_trace = full content.
Q請問如何使用 get_history 來檢視早期對話內容?A使用 get_history 工具時,若不帶參數將返回簡要摘要,如需完整內容,請使用 trace/end_trace 參數。原因- chat-realism: internal_role_title (The question references 'get_history', which suggests an internal function or role that a typical customer wouldn't m...)
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 工具:get_history 3
get_history (get_history) Retrieve earlier conversation traces (before the recent 7 rounds). No params = condensed summaries; with trace/end_trace = full content.
Q使用 get_history 這個工具時如果帶有 trace/end_trace 參數會有什麼結果?A使用 get_history 並帶有 trace/end_trace 參數將返回完整內容。原因- chat-realism: internal_role_title (提到 'get_history' 和 'trace/end_trace' 參數的問題顯示出內部角色的專業術語,顯然不是一般顧客會使用的語言。)
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified) Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q統一搜尋要提供哪些地區的 BM25 關鍵字?A統一搜尋需提供每個地區的 BM25 關鍵字。原因- chat-realism: internal_role_title (The question mentions 'BM25' which suggests an internal technical term that a typical customer wouldn't reference.)
-
-
已寫入 EvalSuite 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified) Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q統一搜尋要提供什麼關鍵字?A統一搜尋需要提供每個地區的 BM25 關鍵字。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 工具:search_knowledges 21
search_knowledges (search_knowledges) Hybrid search (BM25 + vector) across KNOWLEDGE sources only (knowledge, doc_knowledge, link, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q請問如何進行知識源搜索呢?A知識源搜索需要使用混合搜索技術,包括 BM25 和向量查詢來搜尋知識來源。每次搜索會生成 3 個不同的向量查詢,以及每個語言地區的 BM25 關鍵字。原因- chat-realism: vague_meta (這個問題過於模糊,像是對公司整體知識的質疑,而不是具體的客戶詢問。)
-
-
已寫入 EvalSuite 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:search_knowledges 21
search_knowledges (search_knowledges) Hybrid search (BM25 + vector) across KNOWLEDGE sources only (knowledge, doc_knowledge, link, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q請問有什麼方法可以搜尋知識來源呢?A您可以使用混合搜尋方法,這包括 BM25 和向量搜尋,針對知識來源進行查詢。 -
-
Judge LLM 拒絕 直接問答來源素材(點擊查看完整內容)
-
• 工具:電商訂單搜尋 executor — 打 JTCG SaaS API + vendor parser 格式化 51
電商訂單搜尋 executor — 打 JTCG SaaS API + vendor parser 格式化 (shopline_search_orders) Search for order details based on the information user provided.
Q電商訂單搜尋是怎麼格式化的?A電商訂單搜尋會使用 JTCG SaaS API 和 vendor parser 來格式化數據。原因- The answer introduces the term 'vendor parser' without clear support from the sources.
- The source does not explicitly mention how the data is formatted, only that it uses the JTCG SaaS API.
- Judge LLM 認為答案與資料來源有事實出入
-
-
Judge LLM 拒絕 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:電商訂單搜尋 executor — 打 JTCG SaaS API + vendor parser 格式化 51
電商訂單搜尋 executor — 打 JTCG SaaS API + vendor parser 格式化 (shopline_search_orders) Search for order details based on the information user provided.
Q為什麼電商訂單要用 vendor parser 格式化?A電商訂單搜尋 executor 會使用 vendor parser 格式化數據,以確保信息的正確性和完整性。原因- The sources do not explain why vendor parser is used, only that it is used.
- The answer introduces the concept of 'correctness and completeness' without support from the sources.
- Judge LLM 認為這題從資料來源無法答出來
- Judge LLM 信心度只有 20%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
-
Judge LLM 拒絕 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 工具:電商訂單搜尋 executor — 打 JTCG SaaS API + vendor parser 格式化 51
電商訂單搜尋 executor — 打 JTCG SaaS API + vendor parser 格式化 (shopline_search_orders) Search for order details based on the information user provided.
Q電商訂單搜尋的 executor 是怎麼工作的?A電商訂單搜尋 executor 會使用 JTCG SaaS API 和 vendor parser 來格式化數據。原因- The answer introduces specific details about using JTCG SaaS API and vendor parser that are not explicitly mentioned in the source.
- Judge LLM 認為答案與資料來源有事實出入
-
-
Judge LLM 拒絕 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:FAQ查詢 314
FAQ查詢 ## 1. 觸發條件 - 品牌問題 - 平台規則 - 常見問題 - 知識庫 - 問答 - 品牌相關問題 FAQ 查詢的 Agent 情景 ## 2. 資訊收集 ### search_parameters — 搜尋參數 - query [string] (必填): 用戶當前最想查詢或了解的重點問題或主題(3-20字短語,聚焦最新意圖,排除已解決或無關內容) - keywords_or_codes [array] (必填): 用戶訊息中出現的所有代碼或標籤(如C90012、T1234等),如無則為空陣列 ## 3. API 工具 1. search_knowledges — 搜尋相關FAQ回答用戶問題 ## 4. 回覆規則 - All answer must be based on content output from <tool: search_knowledges>, never fabricate. - If multiple relevant answers found, combine them logically and clarify with the user. - If unable to answer, clearly explain and suggest human customer service assistance. - Strictly prohibit referencing, rewriting, or mixing content outside of <tool: search_knowledges> outputs.
Q請問我可以查詢哪些代碼或標籤呢?A您可以查詢任何相關的代碼或標籤,若無則為空陣列。您可以提供具體的問題或主題,我將協助您找到答案。原因- The answer suggests that any relevant codes or tags can be queried, but the sources specify that the user must provide specific keywords or codes, which is not mentioned in the answer.
- Judge LLM 認為答案與資料來源有事實出入
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 對話流程:FAQ查詢 314
FAQ查詢 ## 1. 觸發條件 - 品牌問題 - 平台規則 - 常見問題 - 知識庫 - 問答 - 品牌相關問題 FAQ 查詢的 Agent 情景 ## 2. 資訊收集 ### search_parameters — 搜尋參數 - query [string] (必填): 用戶當前最想查詢或了解的重點問題或主題(3-20字短語,聚焦最新意圖,排除已解決或無關內容) - keywords_or_codes [array] (必填): 用戶訊息中出現的所有代碼或標籤(如C90012、T1234等),如無則為空陣列 ## 3. API 工具 1. search_knowledges — 搜尋相關FAQ回答用戶問題 ## 4. 回覆規則 - All answer must be based on content output from <tool: search_knowledges>, never fabricate. - If multiple relevant answers found, combine them logically and clarify with the user. - If unable to answer, clearly explain and suggest human customer service assistance. - Strictly prohibit referencing, rewriting, or mixing content outside of <tool: search_knowledges> outputs.
Q請問 FAQ 查詢中,有哪些關鍵字和代碼?A在 FAQ 查詢中,若用戶訊息中出現的所有代碼或標籤將列出,若無則為空陣列。關鍵字和代碼有助於精確查詢相關的問題和主題。原因- chat-realism: sku_prefix_leak (The question contains the internal SKU prefix '代碼', which a real customer would not use.)
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 對話流程:FAQ查詢 314
FAQ查詢 ## 1. 觸發條件 - 品牌問題 - 平台規則 - 常見問題 - 知識庫 - 問答 - 品牌相關問題 FAQ 查詢的 Agent 情景 ## 2. 資訊收集 ### search_parameters — 搜尋參數 - query [string] (必填): 用戶當前最想查詢或了解的重點問題或主題(3-20字短語,聚焦最新意圖,排除已解決或無關內容) - keywords_or_codes [array] (必填): 用戶訊息中出現的所有代碼或標籤(如C90012、T1234等),如無則為空陣列 ## 3. API 工具 1. search_knowledges — 搜尋相關FAQ回答用戶問題 ## 4. 回覆規則 - All answer must be based on content output from <tool: search_knowledges>, never fabricate. - If multiple relevant answers found, combine them logically and clarify with the user. - If unable to answer, clearly explain and suggest human customer service assistance. - Strictly prohibit referencing, rewriting, or mixing content outside of <tool: search_knowledges> outputs.
Q請問我在查詢時需要提供哪些代碼或標籤呢?A在查詢時,如果有使用到特定代碼或標籤,請將它們提供出來。如果沒有代碼或標籤,則可以將該部分留空。原因- chat-realism: sku_prefix_leak (問題中提到的'代碼或標籤'暗示了內部SKU前綴的使用,這不符合真實客戶的提問方式。)
-
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:我要如何退換貨? know_15188
Q: 我要如何退換貨? A: 您可以在收到商品後7天內申請退換貨。請確保商品未使用且包裝完整。
Q退換貨要怎麼做啊?A您可以在收到商品後7天內申請退換貨。請確保商品未使用且包裝完整。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:轉接真人客服 313
轉接真人客服 ## 1. 觸發條件 - 線上客服/轉線上客服 - 在線客服/轉在線客服 - 真人客服/轉真人客服 - 轉真人/找真人 - Direct transfer request - Emotional escalation - Resolution failure 轉接真人客服的 Agent 情景 ## 4. 回覆規則 - Acknowledge situation - Return transfer response in specified format
Q如果線上客服解決不了問題,可以轉接真人客服嗎A是的,如果線上客服未能解決問題,可以轉接真人客服。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 工具:transfer_to_human_agent 2
transfer_to_human_agent (transfer_to_human_agent) Transfer to human customer service agent. Use when: 1. User explicitly requests human agent 2. AI cannot answer user's question repeatedly 3. User shows strong negative emotions 4. Issue is beyond AI capability
Q我可以請你轉接給人類客服嗎?A可以,當用戶明確要求人類客服時,我們可以轉接給人類客服代理。 -