產出 #558
env=production · 彭于晏 (69567f06-d3d2-494b-a6c8-60fe0ec2bf02) · eval_kind=mixed_qa
已完成
10 / 10
10
3 / 6
$0.0238
↑179749 / ↓7069
MISSED
3 個 scenario 未被任何 case 涵蓋:
288, 289, 2133。可以重新派發、增加 N 來補。
SUITE
✅ 已寫入 EvalSuite auto-69567f06-r1-054000147。
案例明細(36 筆 — 含已寫入、被拒、retry 軌跡)
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified) Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q統一搜尋可以處理哪些資料來源呢?A統一搜尋可以處理所有類型的資料來源,包括知識、產品、連結、文檔知識、文檔產品和視覺資料。原因- chat-realism: vague_meta (The question is vague and asks about company-wide capabilities rather than a specific service or feature.)
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified) Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q請問統一搜尋可以處理哪些類型的資料來源?A統一搜尋可以處理所有類型的資料來源,包括知識、產品、連結、文檔知識、文檔產品和視覺資料。原因- chat-realism: vague_meta (問題過於模糊,涉及公司整體的資料來源,而非具體的服務或產品。)
-
-
Judge LLM 拒絕 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:新增情境 2133
新增情境 ## 1. 觸發條件 - 當客人問到「帥」相關問題時 ## 4. 回覆規則 - 請照著訓練文件的方式去思考該如何回答,不能說超出範圍
Q帥的定義是什麼?A帥的定義通常指的是一種吸引人的外表或氣質,但具體標準可能因人而異。原因- The sources do not provide a definition of '帥' or any related content.
- Judge LLM 認為這題從資料來源無法答出來
- Judge LLM 認為答案與資料來源有事實出入
- Judge LLM 信心度只有 20%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
-
Judge LLM 拒絕 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 對話流程:新增情境 2133
新增情境 ## 1. 觸發條件 - 當客人問到「帥」相關問題時 ## 4. 回覆規則 - 請照著訓練文件的方式去思考該如何回答,不能說超出範圍
Q帥的定義是什麼?A在回答時不能超出範圍。原因- The question about the definition of '帥' is not addressed in the sources.
- Judge LLM 認為這題從資料來源無法答出來
- Judge LLM 認為答案與資料來源有事實出入
- Judge LLM 信心度只有 0%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
-
Judge LLM 拒絕 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 對話流程:新增情境 2133
新增情境 ## 1. 觸發條件 - 當客人問到「帥」相關問題時 ## 4. 回覆規則 - 請照著訓練文件的方式去思考該如何回答,不能說超出範圍
Q帥的定義是什麼?A帥的定義是主觀的,通常與外貌、風格和個性相關。每個人的標準不同,但一般來說,帥是指一個人擁有吸引人的外表和魅力。原因- Sources do not provide a definition of '帥' or related concepts.
- Judge LLM 認為這題從資料來源無法答出來
- Judge LLM 認為答案與資料來源有事實出入
- Judge LLM 信心度只有 20%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 工具:商品推薦(shopline alias) 63
商品推薦(shopline alias) (shopline_recommend_products) Recommend products via hybrid RAG search or direct product IDs. Returns vendor-normalized product info (title, price, stock, variations, etc.) suitable for shopping conversations. Vendor routing handled by backend.
Q供應商路由是怎麼處理的?A供應商路由由後端處理。原因- chat-realism: internal_role_title (The question mentions '供應商路由', which suggests an internal company role or process that a typical customer wouldn't re...)
-
-
LLM 產出錯誤 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:商品推薦(shopline alias) 63
商品推薦(shopline alias) (shopline_recommend_products) Recommend products via hybrid RAG search or direct product IDs. Returns vendor-normalized product info (title, price, stock, variations, etc.) suitable for shopping conversations. Vendor routing handled by backend.
原因- LLM 輸出格式錯誤(不是合法 JSON)—— 罕見,可重跑試試
-
-
已寫入 EvalSuite 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 工具:商品推薦(shopline alias) 63
商品推薦(shopline alias) (shopline_recommend_products) Recommend products via hybrid RAG search or direct product IDs. Returns vendor-normalized product info (title, price, stock, variations, etc.) suitable for shopping conversations. Vendor routing handled by backend.
Q你們是怎麼推薦商品的?A商品推薦由後端處理供應商路由,透過混合 RAG 搜索或直接商品 ID 來推薦商品。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:誰是帥哥 know_153556
Q: 誰是帥哥 A: Eddie 尤其是姓林的
QEddie 的姓是什麼?AEddie 的姓是林。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 工具:get_history 3
get_history (get_history) Retrieve earlier conversation traces (before the recent 7 rounds). No params = condensed summaries; with trace/end_trace = full content.
Q如何檢索最近七輪之前的對話記錄?A可以使用 get_history 工具來檢索之前的對話記錄,若不帶參數將會顯示簡潔的摘要,使用 trace 和 end_trace 參數則會顯示完整內容。原因- chat-realism: internal_role_title (提到的'七輪'暗示了內部角色或特定的對話記錄,這不是一般顧客會使用的表達方式。)
-
-
已寫入 EvalSuite 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:get_history 3
get_history (get_history) Retrieve earlier conversation traces (before the recent 7 rounds). No params = condensed summaries; with trace/end_trace = full content.
Q可以查詢最近七輪之前的對話記錄嗎A可以,您可以使用查詢功能來檢索最近七輪之前的對話記錄。 -
-
品質檢查未通過 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:姓名電話 2821
姓名電話 ## 1. 觸發條件 - 詢問顧客的姓名電話並儲存欄位 ## 2. 資訊收集 ### 電話 — 使用者電話號碼,例如:0912345678 這種格式 - 電話 [number]: 使用者電話號碼,例如:0912345678 這種格式 ## 3. API 工具 1. update_user_tags — 使用者標籤管理工具 **功能:** - 新增標籤:將指定標籤加入使用者,自動去重 - 移除標籤:從使用者移除指定標籤,不存在則忽略 **注意:** user_id 由系統自動注入,無需提供。 ## 4. 回覆規則 - 取得客戶姓名電話
Q可以幫我查詢姓名電話嗎?A請提供您的電話號碼,例如:0912345678。原因- 答案中偵測到台灣手機號碼格式 —— 為避免 PII 外洩自動過濾
-
-
品質檢查未通過 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 對話流程:姓名電話 2821
姓名電話 ## 1. 觸發條件 - 詢問顧客的姓名電話並儲存欄位 ## 2. 資訊收集 ### 電話 — 使用者電話號碼,例如:0912345678 這種格式 - 電話 [number]: 使用者電話號碼,例如:0912345678 這種格式 ## 3. API 工具 1. update_user_tags — 使用者標籤管理工具 **功能:** - 新增標籤:將指定標籤加入使用者,自動去重 - 移除標籤:從使用者移除指定標籤,不存在則忽略 **注意:** user_id 由系統自動注入,無需提供。 ## 4. 回覆規則 - 取得客戶姓名電話
Q我想提供我的電話號碼可以嗎?A你可以告訴我你的電話號碼,例如:0912345678。原因- 答案中偵測到台灣手機號碼格式 —— 為避免 PII 外洩自動過濾
-
-
已寫入 EvalSuite 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 對話流程:姓名電話 2821
姓名電話 ## 1. 觸發條件 - 詢問顧客的姓名電話並儲存欄位 ## 2. 資訊收集 ### 電話 — 使用者電話號碼,例如:0912345678 這種格式 - 電話 [number]: 使用者電話號碼,例如:0912345678 這種格式 ## 3. API 工具 1. update_user_tags — 使用者標籤管理工具 **功能:** - 新增標籤:將指定標籤加入使用者,自動去重 - 移除標籤:從使用者移除指定標籤,不存在則忽略 **注意:** user_id 由系統自動注入,無需提供。 ## 4. 回覆規則 - 取得客戶姓名電話
Q我需要提供電話號碼嗎?A系統會自動注入user_id,無需手動提供。 -
-
其他 直接問答來源素材(點擊查看完整內容)
-
• 知識:誰跟彭于晏很像 know_153557
Q: 誰跟彭于晏很像 A: Eddie 尤其是姓林的
QEddie 的姓是什麼?AEddie 的姓是林。原因- duplicate (scenario, question)
-
-
已寫入 EvalSuite 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 知識:誰跟彭于晏很像 know_153557
Q: 誰跟彭于晏很像 A: Eddie 尤其是姓林的
QEddie 是不是姓林的?A是的,Eddie 尤其是姓林的。 -