Test Bot - Neptune (bulk R1)

4 個案例 · 3 個產出 · 2 次執行 · 最後執行 大約1小時 前

⋯ more
LLM 累計成本(Eris-tracked,含 generations + runs)
$0.0038 25,432 tokens · 20 calls
Generations $0.0038 20 calls
Runs (Judge) $0.0000 0 judgements
RUNNING
2 個 evaluation 進行中:
01

案例 (4)

項目 II.

情境調用與完成

scenario_funnel 2 cases
  • 為什麼我不能轉接到人類客服?
    📦 #386
    auto-test_onl-r1-053959604-43f2980b
    標準答案

    當你表現出強烈的負面情緒時,我可以幫你轉接到人類客服。

    核心必答 · n=1
    • 可以幫你轉接到人類客服
    預期觸發情境
    early_return
    預期呼叫工具
    transfer_to_human_agent
    編輯
  • 請問可以檢索最近 7 輪之前的對話嗎?
    📦 #386
    auto-test_onl-r1-053959604-54cb3f04
    標準答案

    可以的,使用 get_history 工具可檢索最近 7 輪之前的對話。沒有參數時,它將提供簡要摘要;若需要完整內容可以設定 trace 和 end_trace 參數。

    核心必答 · n=3
    • 使用 get_history 工具可檢索最近 7 輪之前的對話
    • 沒有參數時,它將提供簡要摘要
    • 若需要完整內容可以設定 trace 和 end_trace 參數
    預期觸發情境
    early_return
    預期呼叫工具
    get_history
    編輯
項目 III.

對話素養(混合問答)

mixed_qa 2 cases
  • 請問可以檢索最近 7 輪之前的對話嗎?
    📦 #387
    auto-test_onl-r1-053959604-8ec6b4ea
    標準答案

    可以的,透過 get_history 功能可以檢索最近 7 輪之前的對話,沒有參數的情況下將顯示精簡摘要;如果使用 trace 和 end_trace,可以查看完整內容。

    核心必答 · n=3
    • 透過 get_history 功能可以檢索最近 7 輪之前的對話
    • 沒有參數的情況下將顯示精簡摘要
    • 使用 trace 和 end_trace 可以查看完整內容
    預期觸發情境
    early_return
    預期呼叫工具
    get_history
    編輯
  • 負面情緒的時候要怎麼處理?
    📦 #387
    auto-test_onl-r1-053959604-7ec82911
    標準答案

    當用戶表現出強烈的負面情緒時,應轉接給人類客服代理。

    核心必答 · n=1
    • 當用戶表現出強烈的負面情緒時,應轉接給人類客服代理
    預期觸發情境
    early_return
    預期呼叫工具
    transfer_to_human_agent
    編輯
02

最近執行