執行 #234

Test Bot - Neptune (bulk R1) → production-canary (canary)

狀態
已完成
案例
4
開始時間
16 May 12:32
耗時
754.0s
economic efficiency
cost per correct
$0.0016
pass rate
25.0%
1 / 4
judge cost
$0.0016
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • test_only_bot_4 0 筆 KB
    SystemPrompt: — KBContent: sha256:e3b0c442 Tools: sha256:387a5330 Scenarios: sha256:e3b0c442 AI: — (T=—, max=—)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
4 / 4
錯誤
0
失敗維度
0
首字延遲 p95
7619 ms
Bot 成本(Neptune)
Bot Tokens(Neptune)
Judge 成本(Eris)
$0.0016
Judge Tokens(Eris)
14,465

Bot 成本 / Tokens(左兩張)— production endpoint 不公開、都會回 0;要看真實 bot inference 成本請 點此打開其中一筆 Langfuse trace ↗。Judge 成本 / Tokens(右兩張)是 Eris 端真實數據,詳情可看評估報告的 Run Economics 章節。

項目 II.

情境調用與完成

scenario_funnel 2 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 0.0%
2 / 2 適用
用對工具 召回
tool_usage
0.0%
[0.0% – 0.0%] · n=2
F1 0.0% · 召回 0.0% · 精確 100.0%
2 / 2 適用
答得到位 平均
answer_quality
68.3%
[60.0% – 76.7%] · n=2
2 / 2 適用
  • 案例 7CDC0611

    可以查之前的對話嗎

    已完成
    第 1 次嘗試 · 已完成 10176ms

    載入詳情中…

  • 案例 8917AEAD

    請問當問題超出你們的能力範圍時,可以轉接給人類客服代理嗎?

    已完成
    第 1 次嘗試 · 已完成 26198ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
2 / 2 適用
答得到位 平均
answer_quality
26.7%
[26.7% – 26.7%] · n=2
2 / 2 適用
  • 案例 681B694D

    請問使用 get_history 時,要帶入什麼參數才能取得完整內容?

    已完成
    第 1 次嘗試 · 已完成 24669ms

    載入詳情中…

  • 案例 E2D4FE46

    問題超出 AI 能力了,怎麼轉接給人啊?

    已完成
    第 1 次嘗試 · 已完成 16044ms

    載入詳情中…