執行 #280

test (bulk R1) → production-canary (canary)

↓ EXPORT · HTML下載頁面
狀態
執行中
案例
0
開始時間
16 May 12:55
耗時
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • db283a46-6601-4402-8dfb-ff7e06d43a1b 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:714273fb AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
0 / 0
錯誤
0
失敗維度
0
首字延遲 p95
Bot 成本(Neptune)
Bot Tokens(Neptune)
Judge 成本(Eris)
Judge Tokens(Eris)
項目 II.

情境調用與完成

scenario_funnel 10 cases
  • 案例 F475846D

    請問你們的知識查詢是怎麼運作的?

    pending

    等候 orchestrator 處理此案例…

  • 案例 326516FE

    我想了解你們的髮片資訊,有哪些選擇?

    pending

    等候 orchestrator 處理此案例…

  • 案例 EEEF8081

    這個搜尋功能怎麼用啊

    pending

    等候 orchestrator 處理此案例…

  • 案例 EB26E101

    你們能不能推薦一些產品?

    pending

    等候 orchestrator 處理此案例…

  • 案例 278289A2

    我想知道你們的產品資訊是怎麼查詢的?

    pending

    等候 orchestrator 處理此案例…

  • 案例 AFBD9B8D

    請問有關科技假髮的使用壽命大約是多久?

    pending

    等候 orchestrator 處理此案例…

  • 案例 4EA63D03

    你們的系統會主動推薦產品嗎

    pending

    等候 orchestrator 處理此案例…

  • 案例 D44673EF

    請問可以查詢一下進階統一搜尋的功能嗎?

    pending

    等候 orchestrator 處理此案例…

  • 案例 E8F49DD8

    進階統一搜尋是什麼?

    pending

    等候 orchestrator 處理此案例…

  • 案例 9A96F01B

    為什麼你們不能主動推薦產品呢?

    pending

    等候 orchestrator 處理此案例…

項目 III.

對話素養(混合問答)

mixed_qa 2 cases
  • 案例 6425DB2D

    可以直接轉接真人客服嗎

    pending

    等候 orchestrator 處理此案例…

  • 案例 085567AE

    查詢主題需要幾個字啊?

    pending

    等候 orchestrator 處理此案例…