執行 #279

test (bulk R1) → production-baseline

↓ EXPORT · HTML下載頁面
狀態
執行中
案例
7
開始時間
16 May 12:55
耗時
¶ Economics · Bot-side N=5 attempts

Cost & Tokens

$0.0139
Total Bot Cost · USD
28.7%
Prompt Cache Hit
cost per case
$0.0028
cost per 1k tokens
$0.0019
input tokens
7,140
output tokens
338
cached tokens — prompt-cache hit
2,048
Total Tokens
7,478
economic efficiency
cost per correct
$0.0023
pass rate
25.0%
1 / 4
judge cost
$0.0023
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • db283a46-6601-4402-8dfb-ff7e06d43a1b 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:714273fb AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
5 / 7
錯誤
0
失敗維度
1
首字延遲 p95
4699 ms
Bot 成本(Neptune)
$0.0139
Bot Tokens(Neptune)
7,478
Judge 成本(Eris)
$0.0023
Judge Tokens(Eris)
19,870
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=4
F1 100.0% · 召回 100.0% · 精確 100.0%
6 / 6 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=4
F1 100.0% · 召回 100.0% · 精確 100.0%
6 / 6 適用
答得到位 平均
answer_quality
33.3%
[26.7% – 40.0%] · n=3
6 / 6 適用
  • 案例 F475846D

    請問你們的知識查詢是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 9770ms

    載入詳情中…

  • 案例 326516FE

    我想了解你們的髮片資訊,有哪些選擇?

    已完成
    第 1 次嘗試 · 已完成 9131ms

    載入詳情中…

  • 案例 EEEF8081

    這個搜尋功能怎麼用啊

    pending

    等候 orchestrator 處理此案例…

  • 案例 EB26E101

    你們能不能推薦一些產品?

    已完成
    第 1 次嘗試 · 已完成 9244ms

    載入詳情中…

  • 案例 278289A2

    我想知道你們的產品資訊是怎麼查詢的?

    已完成
    第 1 次嘗試 · 已完成 12153ms

    載入詳情中…

  • 案例 AFBD9B8D

    請問有關科技假髮的使用壽命大約是多久?

    執行中
    第 1 次嘗試 · 執行中

    載入詳情中…

  • 案例 4EA63D03

    你們的系統會主動推薦產品嗎

    執行中
    第 1 次嘗試 · 執行中

    載入詳情中…

  • 案例 D44673EF

    請問可以查詢一下進階統一搜尋的功能嗎?

    pending

    等候 orchestrator 處理此案例…

  • 案例 E8F49DD8

    進階統一搜尋是什麼?

    pending

    等候 orchestrator 處理此案例…

  • 案例 9A96F01B

    為什麼你們不能主動推薦產品呢?

    pending

    等候 orchestrator 處理此案例…

項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
100.0%
1 / 1 適用
答得到位 平均
answer_quality
100.0%
1 / 1 適用
  • 案例 6425DB2D

    可以直接轉接真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 8734ms

    載入詳情中…

  • 案例 085567AE

    查詢主題需要幾個字啊?

    pending

    等候 orchestrator 處理此案例…