test (bulk R1)

12 個案例 · 3 個產出 · 2 次執行 · 最後執行 大約1小時 前 · drift ✓ 大約1小時 前

⋯ more
LLM 累計成本(Eris-tracked,含 generations + runs)
$0.0231 170,040 tokens · 106 calls
Generations $0.0231 106 calls
Runs (Judge) $0.0000 0 judgements
RUNNING
2 個 evaluation 進行中:
01

案例 (12)

項目 II.

情境調用與完成

scenario_funnel 10 cases
  • 請問你們的知識查詢是怎麼運作的?
    📦 #380
    auto-db283a46-r1-053959587-f475846d
    標準答案

    我們的知識與產品查詢系統在用戶提出問題時會同時處理知識庫查詢與產品資訊查詢,使用並發搜尋提供完整資訊。不會主動推薦產品,只會根據用戶的提問提供相關的知識內容。

    核心必答 · n=3
    • 我們的知識與產品查詢系統會同時處理知識庫查詢與產品資訊查詢
    • 使用並發搜尋提供完整資訊
    • 不會主動推薦產品
    補充說明 · n=1
    • 只會根據用戶的提問提供相關的知識內容
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 我想了解你們的髮片資訊,有哪些選擇?
    📦 #380
    auto-db283a46-r1-053959587-326516fe
    標準答案

    我們提供各種髮片資訊,如微增髮片、醫療假髮等。請告訴我你想查詢的特定類型或需求。

    核心必答 · n=2
    • 我們提供各種髮片資訊
    • 如微增髮片、醫療假髮等
    補充說明 · n=1
    • 請告訴我你想查詢的特定類型或需求
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 這個搜尋功能怎麼用啊
    📦 #380
    auto-db283a46-r1-053959587-eeef8081
    標準答案

    這是進階統一搜尋的 API 工具,可以支援跨知識庫和產品的查詢,提供完整資訊。如果你有具體的問題或想查詢的產品,請告訴我。

    核心必答 · n=3
    • 這是進階統一搜尋的 API 工具
    • 可以支援跨知識庫和產品的查詢
    • 提供完整資訊
    補充說明 · n=1
    • 如果你有具體的問題或想查詢的產品,請告訴我
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 你們能不能推薦一些產品?
    📦 #380
    auto-db283a46-r1-053959587-eb26e101
    標準答案

    對於資訊類問題,我們僅回答知識內容,不會主動推薦產品。如果你有特定的產品需求,請告訴我,我可以提供相關的資訊/

    核心必答 · n=1
    • 我們僅回答知識內容,不會主動推薦產品
    補充說明 · n=1
    • 如果你有特定的產品需求,請告訴我,我可以提供相關的資訊
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 我想知道你們的產品資訊是怎麼查詢的?
    📦 #380
    auto-db283a46-r1-053959587-278289a2
    標準答案

    對於資訊類問題,系統僅回答知識內容,不會主動推薦產品。

    核心必答 · n=1
    • 系統僅回答知識內容
    重要限制 · n=1
    • 不會主動推薦產品
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 請問有關科技假髮的使用壽命大約是多久?
    📦 #380
    auto-db283a46-r1-053959587-afbd9b8d
    標準答案

    科技假髮的使用壽命取決於使用情況和維護,通常建議定期檢查與保養以延長使用壽命。

    核心必答 · n=2
    • 科技假髮的使用壽命取決於使用情況和維護
    • 通常建議定期檢查與保養以延長使用壽命
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 你們的系統會主動推薦產品嗎
    📦 #380
    auto-db283a46-r1-053959587-4ea63d03
    標準答案

    對於資訊類問題,系統僅回答知識內容,不會主動推薦產品。

    核心必答 · n=1
    • 系統僅回答知識內容
    重要限制 · n=1
    • 不會主動推薦產品
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 請問可以查詢一下進階統一搜尋的功能嗎?
    📦 #380
    auto-db283a46-r1-053959587-d44673ef
    標準答案

    進階統一搜尋是一個支援跨知識庫和產品的查詢 API 工具,能夠提供完整資訊並進行自適應的三通道重排序。

    核心必答 · n=2
    • 進階統一搜尋是一個支援跨知識庫和產品的查詢 API 工具
    • 能夠提供完整資訊並進行自適應的三通道重排序
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 進階統一搜尋是什麼?
    📦 #380
    auto-db283a46-r1-053959587-e8f49dd8
    標準答案

    進階統一搜尋是一個 API 工具,支援跨知識庫和產品的查詢,可以提供完整的資訊。

    核心必答 · n=3
    • 進階統一搜尋是一個 API 工具
    • 支援跨知識庫和產品的查詢
    • 可以提供完整的資訊
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
  • 為什麼你們不能主動推薦產品呢?
    📦 #380
    auto-db283a46-r1-053959587-9a96f01b
    標準答案

    對於資訊類問題,我們的系統僅回答知識內容,不會主動推薦產品。這樣做是為了確保提供給客戶的資訊更為精確與客觀。

    核心必答 · n=2
    • 我們的系統僅回答知識內容
    • 不會主動推薦產品
    重要限制 · n=1
    • 這樣做是為了確保提供給客戶的資訊更為精確與客觀
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
項目 III.

對話素養(混合問答)

mixed_qa 2 cases
  • 可以直接轉接真人客服嗎
    📦 #381
    auto-db283a46-r1-053959587-6425db2d
    標準答案

    轉接真人客服

    核心必答 · n=1
    • 轉接真人客服
    預期觸發情境
    轉接真人客服
    編輯
  • 查詢主題需要幾個字啊?
    📦 #381
    auto-db283a46-r1-053959587-085567ae
    標準答案

    主要問題或主題需為 3-20 字的短語。

    核心必答 · n=1
    • 主要問題或主題需為 3-20 字的短語
    預期觸發情境
    知識與產品查詢
    預期呼叫工具
    search_unified
    編輯
02

最近執行