執行 #116

FamiPets 小幫手 (bulk R1) → production-canary (canary)

狀態
已完成
案例
17
開始時間
16 May 11:35
耗時
350.9s
¶ Economics · Bot-side N=17 attempts

Cost & Tokens

$0.0551
Total Bot Cost · USD
81.0%
Prompt Cache Hit
cost per case
$0.0032
cost per 1k tokens
$0.0009
input tokens
60,488
output tokens
962
cached tokens — prompt-cache hit
49,024
Total Tokens
61,450
economic efficiency
cost per correct
$0.0022
pass rate
29.4%
5 / 17
judge cost
$0.0112
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • e76dff18-929a-4cbc-965f-855cd356c887 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:cb414772 Scenarios: sha256:2e639cb3 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
17 / 17
錯誤
0
失敗維度
0
首字延遲 p95
10989 ms
Bot 成本(Neptune)
$0.0551
Bot Tokens(Neptune)
61,450
Judge 成本(Eris)
$0.0112
Judge Tokens(Eris)
92,958
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
90.0%
[70.0% – 100.0%] · n=10
F1 76.7% · 召回 90.0% · 精確 70.0%
10 / 10 適用
用對工具 召回
tool_usage
50.0%
[20.0% – 80.0%] · n=10
F1 50.0% · 召回 50.0% · 精確 50.0%
10 / 10 適用
答得到位 平均
answer_quality
56.0%
[40.0% – 71.3%] · n=10
10 / 10 適用
  • 案例 83552199

    產品的使用方法是什麼?

    已完成
    第 1 次嘗試 · 已完成 55444ms

    載入詳情中…

  • 案例 E7A927A1

    退換貨的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 23096ms

    載入詳情中…

  • 案例 4DDC8F4A

    你們的粉絲團在哪裡啊

    已完成
    第 1 次嘗試 · 已完成 30058ms

    載入詳情中…

  • 案例 18AAEFE9

    訂單查詢需要提供什麼個人資訊?

    已完成
    第 1 次嘗試 · 已完成 14230ms

    載入詳情中…

  • 案例 0F494BB1

    我的訂單查詢有沒有相關的記錄?

    已完成
    第 1 次嘗試 · 已完成 16367ms

    載入詳情中…

  • 案例 35973684

    我可以查詢我的訂單詳情嗎?

    已完成
    第 1 次嘗試 · 已完成 24047ms

    載入詳情中…

  • 案例 FA199004

    我的訂單狀態怎麼查詢?

    已完成
    第 1 次嘗試 · 已完成 22403ms

    載入詳情中…

  • 案例 0BF33E93

    你們有什麼活動或優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 25753ms

    載入詳情中…

  • 案例 CB3EA383

    最近有什麼活動啊?

    已完成
    第 1 次嘗試 · 已完成 18630ms

    載入詳情中…

  • 案例 C4C9E1F7

    我的訂單在哪裡?

    已完成
    第 1 次嘗試 · 已完成 12571ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 7 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
33.3%
[0.0% – 100.0%] · n=3
7 / 7 適用
答得到位 平均
answer_quality
40.0%
[26.2% – 55.7%] · n=7
7 / 7 適用
  • 案例 83529487

    統一搜尋是什麼?

    已完成
    第 1 次嘗試 · 已完成 34798ms

    載入詳情中…

  • 案例 B2C71AD6

    可以查到我最近的訂單嗎

    已完成
    第 1 次嘗試 · 已完成 46407ms

    載入詳情中…

  • 案例 B2260A57

    可以用什麼格式查詢訂單?

    已完成
    第 1 次嘗試 · 已完成 29284ms

    載入詳情中…

  • 案例 A0340D63

    get_history 是怎麼使用的?

    已完成
    第 1 次嘗試 · 已完成 30056ms

    載入詳情中…

  • 案例 3E64339F

    問句需要什麼格式才會觸發搜尋?

    已完成
    第 1 次嘗試 · 已完成 25057ms

    載入詳情中…

  • 案例 D5964EA1

    轉接真人客服的條件是什麼?

    已完成
    第 1 次嘗試 · 已完成 23492ms

    載入詳情中…

  • 案例 7A6B1248

    可以轉接到真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 23321ms

    載入詳情中…