執行 #158

Judy TEST (bulk R1) → production-canary (canary)

狀態
已完成
案例
12
開始時間
16 May 11:55
耗時
560.7s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0379
Total Bot Cost · USD
37.0%
Prompt Cache Hit
cost per case
$0.0032
cost per 1k tokens
$0.0017
input tokens
22,132
output tokens
741
cached tokens — prompt-cache hit
8,192
Total Tokens
22,873
economic efficiency
cost per correct
$0.0023
pass rate
25.0%
3 / 12
judge cost
$0.0068
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 5d3cebb7-60a0-4893-bb9d-4179f47ab950 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:9646f795 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
0
首字延遲 p95
11377 ms
Bot 成本(Neptune)
$0.0379
Bot Tokens(Neptune)
22,873
Judge 成本(Eris)
$0.0068
Judge Tokens(Eris)
56,630
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
40.7%
[25.0% – 57.3%] · n=10
10 / 10 適用
  • 案例 FA84EB52

    有關你們產品的查詢怎麼進行?

    已完成
    第 1 次嘗試 · 已完成 20439ms

    載入詳情中…

  • 案例 ADCF751D

    有什麼產品適合用於髮片的護理?

    已完成
    第 1 次嘗試 · 已完成 31856ms

    載入詳情中…

  • 案例 2CC14FF4

    你們的產品查詢需要我提供什麼嗎

    已完成
    第 1 次嘗試 · 已完成 27156ms

    載入詳情中…

  • 案例 232C9263

    你們有沒有適合油性頭皮的洗髮精可以推薦的?

    已完成
    第 1 次嘗試 · 已完成 23034ms

    載入詳情中…

  • 案例 0D4EEE20

    能不能推薦幾款髮片?

    已完成
    第 1 次嘗試 · 已完成 13014ms

    載入詳情中…

  • 案例 67B029F0

    請問要如何選擇適合的假髮呢?

    已完成
    第 1 次嘗試 · 已完成 15004ms

    載入詳情中…

  • 案例 0FC8E6E8

    為什麼我在你們網站上找不到你們的服務資訊?

    已完成
    第 1 次嘗試 · 已完成 26697ms

    載入詳情中…

  • 案例 D270C725

    有什麼產品可以查詢的嗎

    已完成
    第 1 次嘗試 · 已完成 24050ms

    載入詳情中…

  • 案例 325D50EE

    進階統一搜尋是什麼?

    已完成
    第 1 次嘗試 · 已完成 15853ms

    載入詳情中…

  • 案例 0468ED98

    我最近想了解一下你們的髮片,可以推薦幾款嗎?

    已完成
    第 1 次嘗試 · 已完成 13461ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
2 / 2 適用
答得到位 平均
answer_quality
33.3%
[26.7% – 40.0%] · n=2
2 / 2 適用
  • 案例 C5EF70D8

    查詢的問題要怎麼寫才可以?

    已完成
    第 1 次嘗試 · 已完成 14505ms

    載入詳情中…

  • 案例 E5FF689C

    請問要怎麼轉接真人客服呢?

    已完成
    第 1 次嘗試 · 已完成 15634ms

    載入詳情中…