Test Bot - Neptune (bulk R1)

4 個案例 · 3 個產出 · 2 次執行 · 最後執行 大約1小時 前

⋯ more
LLM 累計成本(Eris-tracked,含 generations + runs)
$0.0039 25,229 tokens · 20 calls
Generations $0.0039 20 calls
Runs (Judge) $0.0000 0 judgements
RUNNING
2 個 evaluation 進行中:
01

案例 (4)

項目 II.

情境調用與完成

scenario_funnel 2 cases
  • 可以查之前的對話嗎
    📦 #383
    auto-test_onl-r1-053959596-7cdc0611
    標準答案

    可以查詢最近 7 輪之前的對話記錄,也可以選擇摘要或全內容。

    核心必答 · n=2
    • 可以查詢最近 7 輪之前的對話記錄
    • 可以選擇摘要或全內容
    預期觸發情境
    early_return
    預期呼叫工具
    get_history
    編輯
  • 請問當問題超出你們的能力範圍時,可以轉接給人類客服代理嗎?
    📦 #383
    auto-test_onl-r1-053959596-8917aead
    標準答案

    當問題超出我們的能力範圍時,可以轉接給人類客服代理。

    核心必答 · n=1
    • 可以轉接給人類客服代理
    預期觸發情境
    early_return
    預期呼叫工具
    transfer_to_human_agent
    編輯
項目 III.

對話素養(混合問答)

mixed_qa 2 cases
  • 請問使用 get_history 時,要帶入什麼參數才能取得完整內容?
    📦 #384
    auto-test_onl-r1-053959596-681b694d
    標準答案

    使用 get_history 時,必須帶入 trace 或 end_trace 參數才能返回完整內容。

    核心必答 · n=1
    • 使用 get_history 時,必須帶入 trace 或 end_trace 參數才能返回完整內容
    預期觸發情境
    early_return
    預期呼叫工具
    get_history
    編輯
  • 問題超出 AI 能力了,怎麼轉接給人啊?
    📦 #384
    auto-test_onl-r1-053959596-e2d4fe46
    標準答案

    可以直接請求轉接給人類客服代理,或者如果 AI 無法回答問題多次,也會自動轉接。

    核心必答 · n=2
    • 可以直接請求轉接給人類客服代理
    • 如果 AI 無法回答問題多次,也會自動轉接
    預期觸發情境
    early_return
    預期呼叫工具
    transfer_to_human_agent
    編輯
02

最近執行