產出 #545
env=production · 小雲 (77f06b65-108b-4e1c-b995-5c6da80ea6e7) · eval_kind=scenario_funnel
已完成
10 / 10
10
2 / 3
$0.0240
↑168693 / ↓4218
MISSED
1 個 scenario 未被任何 case 涵蓋:
2620。可以重新派發、增加 N 來補。
SUITE
✅ 已寫入 EvalSuite auto-77f06b65-r1-054000106。
案例明細(24 筆 — 含已寫入、被拒、retry 軌跡)
-
Judge LLM 拒絕 early_returnQ最近天氣怎麼樣?A您好,我是客服 AI,很高興為您服務原因
- The question is not answerable as there are no sources provided.
- The answer does not address the question about the weather.
- Judge LLM 認為答案與資料來源有事實出入
- Judge LLM 信心度只有 0%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
Judge LLM 拒絕 early_return 第 2 次嘗試Q最近天氣怎麼樣?A您好,我是客服 AI,很高興為您服務。原因
- The question is not answerable as there are no sources provided.
- The answer does not address the question about the weather.
- Judge LLM 認為答案與資料來源有事實出入
- Judge LLM 信心度只有 0%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
Judge LLM 拒絕 early_return 第 3 次嘗試Q你最近好嗎?A您好,我是客服 AI,很高興為您服務。原因
- The question is not answerable as there are no sources provided.
- Judge LLM 認為答案與資料來源有事實出入
- Judge LLM 信心度只有 0%(門檻 60%)—— 對「答案是否正確」的判斷不夠確定
-
已寫入 EvalSuite scenario_focused來源素材(點擊查看完整內容)
-
• 對話流程:新增情境 2622
新增情境 ## 1. 觸發條件 - 當客人提到訂餐廳 ## 3. API 工具 1. update_user_tags — 使用者標籤管理工具 **功能:** - 新增標籤:將指定標籤加入使用者,自動去重 - 移除標籤:從使用者移除指定標籤,不存在則忽略 **注意:** user_id 由系統自動注入,無需提供。 ## 4. 回覆規則 - 請稍候,你是一個餐廳寶
Q我想新增一個標籤來紀錄我常去的餐廳,有什麼方法?A請稍候,我可以幫你新增標籤來紀錄你的餐廳,讓我來處理這件事情。 -