產出 #672
env=production · 維肯 AI 小助手 (3d62a53d-1bee-4f40-aef2-3c9894afe9f1) · eval_kind=mixed_qa
已完成
10 / 10
10
1 / 5
$0.0133
↑102144 / ↓3758
MISSED
4 個 scenario 未被任何 case 涵蓋:
817, 816, 650, 649。可以重新派發、增加 N 來補。
SUITE
✅ 已寫入 EvalSuite auto-3d62a53d-r1-054000470。
案例明細(20 筆 — 含已寫入、被拒、retry 軌跡)
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:商品瀏覽次數是什麼? know_72575
Q: 商品瀏覽次數是什麼? A: total_item_view,代表商品頁被瀏覽的次數。
Q商品瀏覽次數的英文名稱是什麼?A商品瀏覽次數的英文名稱是 total_item_view,代表商品頁被瀏覽的次數。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified) Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q請問統一搜尋能生成多少個向量查詢?A統一搜尋能生成三個多樣化的向量查詢。原因- chat-realism: internal_role_title (提到的'統一搜尋'暗示了內部角色或系統,顯示出不自然的客戶提問方式。)
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified) Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q請問統一搜尋能生成幾個向量查詢?A統一搜尋能生成三個多樣化的向量查詢。原因- chat-realism: internal_role_title (提到的'統一搜尋'暗示了內部角色或系統,顯示出不自然的客戶提問方式。)
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 工具:統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) 20
統一搜尋:multi-lane BM25+Vector RRF 融合(支援 5 種 source_type) (search_unified) Hybrid search (BM25 + vector) with multi-lane RRF fusion across ALL source types (knowledge, product, link, doc_knowledge, doc_product, vision). MUST generate 3 diverse vector queries AND per-locale BM25 keywords.
Q請問統一搜尋能生成幾個多樣化的向量查詢?A統一搜尋能生成三個多樣化的向量查詢。原因- chat-realism: vague_meta (The question is vague and asks about company-wide capabilities rather than a specific product or service.)
-
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 對話流程:訂單查詢 651
訂單查詢 ## 1. 觸發條件 - When user has questions about specific order details, shipping status, or purchase history (only after user provides required personal info). 訂單查詢的 Agent 情景 ## 3. API 工具 1. shopline_search_orders — 根據聊天記錄搜尋相關訂單資訊 ## 4. 回覆規則 - Provide clear and concise answers based on order search results from tool messages - If multiple relevant orders found, combine them logically - If no relevant order found, acknowledge and offer to check with customer service
Q如何查詢我的訂單狀態?A請提供您的訂單資訊,我可以幫您查詢訂單狀態。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:廣告轉換數是什麼? know_72584
Q: 廣告轉換數是什麼? A: conversion,代表廣告帶來的轉換事件數。
Q廣告轉換數是什麼意思?A廣告轉換數即是 conversion,代表廣告帶來的轉換事件數。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 知識:上週官網流量是多少? know_72569
Q: 上週官網流量是多少? A: total_users:使用者數。
Q請問上週官網流量是以使用者數來計算的嗎?A上週官網流量是以使用者數來計算的。原因- chat-realism: vague_meta (這個問題涉及公司整體的流量計算方式,屬於模糊的元問題,不符合真實客戶的提問風格。)
-
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 知識:上週官網流量是多少? know_72569
Q: 上週官網流量是多少? A: total_users:使用者數。
Q請問上週官網的流量是怎麼計算的?A上週官網的流量是以使用者數來計算的。原因- chat-realism: vague_meta (The question is vague and asks about company-wide metrics rather than a specific product or service.)
-
-
其他 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 知識:上週官網流量是多少? know_72569
Q: 上週官網流量是多少? A: total_users:使用者數。
Q請問上週官網的流量是怎麼計算的?A上週官網的流量是以使用者數來計算的。原因- duplicate (scenario, question)
-
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:廣告點擊數是什麼? know_72583
Q: 廣告點擊數是什麼? A: clicks,代表使用者點擊廣告的次數。
Q廣告點擊數是什麼?A廣告點擊數代表使用者點擊廣告的次數。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:平均客單價怎麼算? know_72573
Q: 平均客單價怎麼算? A: avg_purchase_revenue = 收益 / 購買次數,代表平均每筆訂單的金額。
Q平均客單價怎麼算?A平均客單價是收益除以購買次數,代表平均每筆訂單的金額。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 知識:廣告曝光數是什麼? know_72582
Q: 廣告曝光數是什麼? A: impressions,代表廣告被看到的次數。
Q請問廣告曝光數的英文名稱是什麼?A廣告曝光數的英文是 impressions,代表廣告被看到的次數。原因- chat-realism: vague_meta (The question is vague and seems to inquire about a general term rather than a specific product or service.)
-
-
已寫入 EvalSuite 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 知識:廣告曝光數是什麼? know_72582
Q: 廣告曝光數是什麼? A: impressions,代表廣告被看到的次數。
Q請問廣告曝光數的英文是什麼?A廣告曝光數的英文是 impressions,代表廣告被看到的次數。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:商品加入購物車次數是什麼? know_72576
Q: 商品加入購物車次數是什麼? A: total_add_to_cart,代表使用者將商品加入購物車的次數。
Q商品加入購物車次數是什麼?Atotal_add_to_cart,代表使用者將商品加入購物車的次數。 -
-
語氣不像真人 chat(被 Stage E 拒絕) 直接問答來源素材(點擊查看完整內容)
-
• 知識:官網流量是什麼? know_72568
Q: 官網流量是什麼? A: 官網流量對應欄位為 total_users,代表特定期間內造訪網站的使用者總數。
Q官網流量對應的欄位是什麼?A官網流量對應欄位為 total_users,代表特定期間內造訪網站的使用者總數。原因- chat-realism: internal_role_title (The question references '官網流量對應的欄位', which suggests an internal company context that a typical customer wouldn't ment...)
-
-
其他 直接問答 第 2 次嘗試來源素材(點擊查看完整內容)
-
• 知識:官網流量是什麼? know_72568
Q: 官網流量是什麼? A: 官網流量對應欄位為 total_users,代表特定期間內造訪網站的使用者總數。
Q官網流量對應的欄位是什麼?A官網流量對應欄位為 total_users,代表特定期間內造訪網站的使用者總數。原因- duplicate (scenario, question)
-
-
其他 直接問答 第 3 次嘗試來源素材(點擊查看完整內容)
-
• 知識:官網流量是什麼? know_72568
Q: 官網流量是什麼? A: 官網流量對應欄位為 total_users,代表特定期間內造訪網站的使用者總數。
Q官網流量對應的欄位是什麼?A官網流量對應欄位為 total_users,代表特定期間內造訪網站的使用者總數。原因- duplicate (scenario, question)
-
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:上週官網訂單金額是多少? know_72571
Q: 上週官網訂單金額是多少? A: total_revenue:訂單金額。
Q上週官網的訂單金額是多少?A上週官網的訂單金額是 total_revenue。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:商品購買次數是什麼? know_72577
Q: 商品購買次數是什麼? A: total_item_purchase,代表商品被成功購買的次數。
Q商品購買次數是什麼啊A商品購買次數代表商品被成功購買的次數。 -
-
已寫入 EvalSuite 直接問答來源素材(點擊查看完整內容)
-
• 知識:短網址轉換數是什麼? know_72581
Q: 短網址轉換數是什麼? A: conversions,代表短網址帶來的轉換事件總數。
Q短網址轉換數是什麼?A短網址轉換數是指短網址帶來的轉換事件總數。 -