執行 #108

CoolBe Agnet (bulk R1) → production-canary (canary)

狀態
已完成
案例
13
開始時間
16 May 11:29
耗時
757.8s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.0414
Total Bot Cost · USD
85.9%
Prompt Cache Hit
cost per case
$0.0032
cost per 1k tokens
$0.0008
input tokens
50,049
output tokens
726
cached tokens — prompt-cache hit
43,008
Total Tokens
50,775
economic efficiency
cost per correct
$0.0027
pass rate
30.8%
4 / 13
judge cost
$0.0108
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 5b083fe6-aba7-4395-803b-200f373ec6e0 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:0a375066 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
0
首字延遲 p95
12316 ms
Bot 成本(Neptune)
$0.0414
Bot Tokens(Neptune)
50,775
Judge 成本(Eris)
$0.0108
Judge Tokens(Eris)
84,384
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
51.3%
[41.0% – 61.7%] · n=10
10 / 10 適用
  • 案例 5497612E

    請問最近有什麼活動或優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 27721ms

    載入詳情中…

  • 案例 4CDD4D93

    你們的粉絲團和官方網站是什麼啊

    已完成
    第 1 次嘗試 · 已完成 30468ms

    載入詳情中…

  • 案例 57E1064A

    為什麼你們的查詢一定要有問號才行?

    已完成
    第 1 次嘗試 · 已完成 32103ms

    載入詳情中…

  • 案例 6B5A7BC5

    請問貴公司有沒有任何促銷活動?

    已完成
    第 1 次嘗試 · 已完成 23601ms

    載入詳情中…

  • 案例 324C3777

    這個髮片的價格是多少?

    已完成
    第 1 次嘗試 · 已完成 31464ms

    載入詳情中…

  • 案例 358C7861

    有關活動的優惠和報名細節是什麼?

    已完成
    第 1 次嘗試 · 已完成 33298ms

    載入詳情中…

  • 案例 45E22549

    請問如何查詢你們的產品資訊?

    已完成
    第 1 次嘗試 · 已完成 25837ms

    載入詳情中…

  • 案例 72C620A8

    請問最近有哪些活動可以參加?

    已完成
    第 1 次嘗試 · 已完成 22125ms

    載入詳情中…

  • 案例 83EC1EA4

    這個產品如何使用呢?

    已完成
    第 1 次嘗試 · 已完成 20346ms

    載入詳情中…

  • 案例 E613C74C

    你們現在有什麼優惠活動嗎?

    已完成
    第 1 次嘗試 · 已完成 13095ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
3 / 3 適用
答得到位 平均
answer_quality
67.8%
[40.0% – 83.3%] · n=3
3 / 3 適用
  • 案例 1B4E9473

    問題超出 AI 能力怎麼辦

    已完成
    第 1 次嘗試 · 已完成 23544ms

    載入詳情中…

  • 案例 9C4FADB6

    可以檢索最近 7 輪之前的對話嗎

    已完成
    第 1 次嘗試 · 已完成 19734ms

    載入詳情中…

  • 案例 9F1B36C4

    如果我問問題加問號,會有什麼效果呢?

    已完成
    第 1 次嘗試 · 已完成 31285ms

    載入詳情中…