執行 #184

None (bulk R1) → production-canary (canary)

狀態
已完成
案例
14
開始時間
16 May 12:06
耗時
530.9s
¶ Economics · Bot-side N=14 attempts

Cost & Tokens

$0.0577
Total Bot Cost · USD
69.3%
Prompt Cache Hit
cost per case
$0.0041
cost per 1k tokens
$0.0011
input tokens
53,189
output tokens
823
cached tokens — prompt-cache hit
36,864
Total Tokens
54,012
economic efficiency
cost per correct
$0.0029
pass rate
28.6%
4 / 14
judge cost
$0.0116
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • cdc704cf-9afd-47ff-82ff-8ee55f813342 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:6272e118 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
14 / 14
錯誤
0
失敗維度
0
首字延遲 p95
4957 ms
Bot 成本(Neptune)
$0.0577
Bot Tokens(Neptune)
54,012
Judge 成本(Eris)
$0.0116
Judge Tokens(Eris)
90,092
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
54.0%
[40.0% – 69.0%] · n=10
10 / 10 適用
  • 案例 0B9BA572

    這個髮片的價格是多少?

    已完成
    第 1 次嘗試 · 已完成 9987ms

    載入詳情中…

  • 案例 1F0DF3FA

    怎麼使用髮片?

    已完成
    第 1 次嘗試 · 已完成 27837ms

    載入詳情中…

  • 案例 7A3D07EC

    查詢怎麼辦

    已完成
    第 1 次嘗試 · 已完成 20844ms

    載入詳情中…

  • 案例 838B8913

    你們的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 28448ms

    載入詳情中…

  • 案例 114634B5

    我想知道短於10個字的查詢會怎樣?

    已完成
    第 1 次嘗試 · 已完成 13287ms

    載入詳情中…

  • 案例 4D2DBA71

    請問貴公司的粉絲團在哪裡可以找到?

    已完成
    第 1 次嘗試 · 已完成 16238ms

    載入詳情中…

  • 案例 9A1F6AE4

    你們的粉絲團在哪裡?

    已完成
    第 1 次嘗試 · 已完成 23479ms

    載入詳情中…

  • 案例 81629EA7

    這個產品價格多少?

    已完成
    第 1 次嘗試 · 已完成 26432ms

    載入詳情中…

  • 案例 A28CA375

    請問你們的查詢有優先級嗎?

    已完成
    第 1 次嘗試 · 已完成 18674ms

    載入詳情中…

  • 案例 45784B41

    這款髮片的功能和價格是什麼呢?

    已完成
    第 1 次嘗試 · 已完成 16096ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 4 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
50.0%
[0.0% – 100.0%] · n=2
4 / 4 適用
答得到位 平均
answer_quality
38.3%
[30.0% – 46.7%] · n=4
4 / 4 適用
  • 案例 F5A66A79

    為什麼我不能轉接給人類客服代理?

    已完成
    第 1 次嘗試 · 已完成 18799ms

    載入詳情中…

  • 案例 CA084959

    轉接真人客服的條件有哪些?

    已完成
    第 1 次嘗試 · 已完成 22580ms

    載入詳情中…

  • 案例 5AC47B6C

    怎麼檢索之前的對話記錄?

    已完成
    第 1 次嘗試 · 已完成 28203ms

    載入詳情中…

  • 案例 252A592C

    這款髮片多少錢?

    已完成
    第 1 次嘗試 · 已完成 11505ms

    載入詳情中…