執行 #156

Jimmy (bulk R1) → production-canary (canary)

狀態
已完成
案例
13
開始時間
16 May 11:55
耗時
817.2s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.1121
Total Bot Cost · USD
52.0%
Prompt Cache Hit
cost per case
$0.0086
cost per 1k tokens
$0.0014
input tokens
75,366
output tokens
2,516
cached tokens — prompt-cache hit
39,168
Total Tokens
77,882
economic efficiency
cost per correct
pass rate
0.0%
0 / 13
judge cost
$0.0127
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 6ca3e6c0-e2b3-424b-9366-442c447e1a02 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:6f02286c AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
0
首字延遲 p95
13311 ms
Bot 成本(Neptune)
$0.1121
Bot Tokens(Neptune)
77,882
Judge 成本(Eris)
$0.0127
Judge Tokens(Eris)
91,849
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
28.7%
[19.3% – 37.3%] · n=10
10 / 10 適用
  • 案例 A666B99E

    現在有什麼活動或優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 37510ms

    載入詳情中…

  • 案例 5B2C0E0B

    為什麼登錄時有錯誤?

    已完成
    第 1 次嘗試 · 已完成 33037ms

    載入詳情中…

  • 案例 4EC5456C

    請問如何查詢你們的產品資訊呢?

    已完成
    第 1 次嘗試 · 已完成 33442ms

    載入詳情中…

  • 案例 B923608E

    你們的粉絲團有什麼資訊?

    已完成
    第 1 次嘗試 · 已完成 23345ms

    載入詳情中…

  • 案例 F44D3B26

    請問貴公司的粉絲團和社群媒體有哪些呢?

    已完成
    第 1 次嘗試 · 已完成 42886ms

    載入詳情中…

  • 案例 9BD29BFE

    髮片多少錢?

    已完成
    第 1 次嘗試 · 已完成 22410ms

    載入詳情中…

  • 案例 579B88A4

    你們的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 42443ms

    載入詳情中…

  • 案例 63DE7773

    可以告訴我怎麼使用你們的產品嗎?

    已完成
    第 1 次嘗試 · 已完成 36620ms

    載入詳情中…

  • 案例 C534FBEF

    這個髮片怎麼使用啊

    已完成
    第 1 次嘗試 · 已完成 32755ms

    載入詳情中…

  • 案例 B848FFBC

    請問毛髮的清洗方式有什麼注意事項?

    已完成
    第 1 次嘗試 · 已完成 33084ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
3 / 3 適用
答得到位 平均
answer_quality
43.3%
[43.3% – 43.3%] · n=3
3 / 3 適用
  • 案例 1B275056

    解決方案失敗可以轉接真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 10943ms

    載入詳情中…

  • 案例 4805FB74

    負面情緒可以轉接客服嗎

    已完成
    第 1 次嘗試 · 已完成 25002ms

    載入詳情中…

  • 案例 91F0810F

    短於 10 個字的查詢可以做什麼?

    已完成
    第 1 次嘗試 · 已完成 54351ms

    載入詳情中…