執行 #180

Michelle (bulk R1) → production-canary (canary)

狀態
已完成
案例
13
開始時間
16 May 12:05
耗時
413.1s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.0661
Total Bot Cost · USD
51.5%
Prompt Cache Hit
cost per case
$0.0051
cost per 1k tokens
$0.0013
input tokens
48,967
output tokens
748
cached tokens — prompt-cache hit
25,216
Total Tokens
49,715
economic efficiency
cost per correct
$0.0017
pass rate
46.2%
6 / 13
judge cost
$0.0101
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 54b04e36-8ec3-44b5-b640-4f5943a2aa20 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:cde10f6e AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
1
首字延遲 p95
4967 ms
Bot 成本(Neptune)
$0.0661
Bot Tokens(Neptune)
49,715
Judge 成本(Eris)
$0.0101
Judge Tokens(Eris)
82,151
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
58.0%
[43.3% – 72.3%] · n=10
10 / 10 適用
  • 案例 F900088F

    現在有什麼活動可以參加嗎?

    已完成
    第 1 次嘗試 · 已完成 19374ms

    載入詳情中…

  • 案例 3C2B16B5

    請問貴公司的官方網站是什麼?

    已完成
    第 1 次嘗試 · 已完成 22425ms

    載入詳情中…

  • 案例 FF66BCF4

    你們的退換貨政策是什麼?

    已完成
    第 1 次嘗試 · 已完成 27715ms

    載入詳情中…

  • 案例 8FFF168F

    有關活動的資訊是什麼?

    已完成
    第 1 次嘗試 · 已完成 33614ms

    載入詳情中…

  • 案例 A144BE2F

    現在有什麼活動或優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 21677ms

    載入詳情中…

  • 案例 DA588CF3

    你們的產品可以清洗嗎?

    已完成
    第 1 次嘗試 · 已完成 21479ms

    載入詳情中…

  • 案例 F2AAEE24

    你們有什麼優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 33458ms

    載入詳情中…

  • 案例 44C18D70

    請問有關隱私政策的內容是什麼呢?

    已完成
    第 1 次嘗試 · 已完成 25274ms

    載入詳情中…

  • 案例 5470EF59

    能不能問一下知識查詢怎麼用?

    已完成
    第 1 次嘗試 · 已完成 24504ms

    載入詳情中…

  • 案例 C7418AFA

    你們的官網在哪裡?

    已完成
    第 1 次嘗試 · 已完成 24562ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
100.0%
3 / 3 適用
答得到位 平均
answer_quality
54.4%
[33.3% – 90.0%] · n=3
3 / 3 適用
  • 案例 A900D818

    轉接真人客服要怎麼回覆?

    已完成
    第 1 次嘗試 · 已完成 32193ms

    載入詳情中…

  • 案例 661B7D36

    當 AI 處理不了問題時,可以轉接給人嗎?

    已完成
    第 1 次嘗試 · 已完成 22029ms

    載入詳情中…

  • 案例 91DE4A8C

    使用 get_history 的時候不帶參數會怎樣?

    已完成
    第 1 次嘗試 · 已完成 36909ms

    載入詳情中…