執行 #81

Bona's AI Agent (bulk R1) → production-baseline

狀態
已完成
案例
12
開始時間
16 May 11:19
耗時
431.9s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0373
Total Bot Cost · USD
83.7%
Prompt Cache Hit
cost per case
$0.0031
cost per 1k tokens
$0.0009
input tokens
43,133
output tokens
642
cached tokens — prompt-cache hit
36,096
Total Tokens
43,775
economic efficiency
cost per correct
$0.0015
pass rate
58.3%
7 / 12
judge cost
$0.0104
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 17aefeea-086d-45b6-842d-7e37a6107da9 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:64a3e246 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
1
首字延遲 p95
2750 ms
Bot 成本(Neptune)
$0.0373
Bot Tokens(Neptune)
43,775
Judge 成本(Eris)
$0.0104
Judge Tokens(Eris)
80,783
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
64.7%
[51.3% – 76.0%] · n=10
10 / 10 適用
  • 案例 7F2201D0

    我想請教一下,科技假髮的功能和特性是什麼?

    已完成
    第 1 次嘗試 · 已完成 10049ms

    載入詳情中…

  • 案例 369C6E56

    為什麼我只問十個字就不行?

    已完成
    第 1 次嘗試 · 已完成 9567ms

    載入詳情中…

  • 案例 AEDDB56C

    請問貴公司在社群媒體上有什麼官方帳號嗎?

    已完成
    第 1 次嘗試 · 已完成 11042ms

    載入詳情中…

  • 案例 3422A1FC

    你們的公司 FB 粉專是什麼?

    已完成
    第 1 次嘗試 · 已完成 7086ms

    載入詳情中…

  • 案例 12593029

    技術問題的話要怎麼查詢啊?

    已完成
    第 1 次嘗試 · 已完成 11435ms

    載入詳情中…

  • 案例 D6DB8AD6

    有關你們的服務時間是什麼?

    已完成
    第 1 次嘗試 · 已完成 12782ms

    載入詳情中…

  • 案例 E1F74F2C

    有關活動的查詢怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 7504ms

    載入詳情中…

  • 案例 77CFCB89

    請問使用髮片需要多久洗一次呢?

    已完成
    第 1 次嘗試 · 已完成 7806ms

    載入詳情中…

  • 案例 FD6B6443

    產品怎麼使用啊?

    已完成
    第 1 次嘗試 · 已完成 8920ms

    載入詳情中…

  • 案例 AFBBF23B

    有什麼產品推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 10188ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
2 / 2 適用
答得到位 平均
answer_quality
63.3%
[26.7% – 100.0%] · n=2
2 / 2 適用
  • 案例 9864BDAD

    如果AI無法回答我的問題,能轉接真人客服嗎?

    已完成
    第 1 次嘗試 · 已完成 8126ms

    載入詳情中…

  • 案例 FF369C8E

    最近有什麼優惠活動嗎?

    已完成
    第 1 次嘗試 · 已完成 7055ms

    載入詳情中…