執行 #169

MAACAAC (bulk R1) → production-baseline

狀態
已完成
案例
14
開始時間
16 May 12:03
耗時
170.8s
¶ Economics · Bot-side N=14 attempts

Cost & Tokens

$0.2266
Total Bot Cost · USD
15.2%
Prompt Cache Hit
cost per case
$0.0162
cost per 1k tokens
$0.0019
input tokens
116,206
output tokens
2,586
cached tokens — prompt-cache hit
17,664
Total Tokens
118,792
economic efficiency
cost per correct
$0.0031
pass rate
28.6%
4 / 14
judge cost
$0.0124
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 357793c2-dd49-4a10-ade8-e5de5dc76416 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:4353070d AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
14 / 14
錯誤
0
失敗維度
0
首字延遲 p95
2807 ms
Bot 成本(Neptune)
$0.2266
Bot Tokens(Neptune)
118,792
Judge 成本(Eris)
$0.0124
Judge Tokens(Eris)
94,038
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
61.0%
[49.3% – 71.0%] · n=10
10 / 10 適用
  • 案例 3B6F8B31

    這款產品要怎麼使用呢?

    已完成
    第 1 次嘗試 · 已完成 13743ms

    載入詳情中…

  • 案例 5851E23F

    請問如果我有一些問題想要了解,能不能馬上詢問貴公司相關的產品呢?

    已完成
    第 1 次嘗試 · 已完成 15162ms

    載入詳情中…

  • 案例 79C35DA4

    你們的粉絲團在哪裡?

    已完成
    第 1 次嘗試 · 已完成 12429ms

    載入詳情中…

  • 案例 B104D6FA

    你們的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 12804ms

    載入詳情中…

  • 案例 1801930F

    為什麼我在使用你們的服務時會出現錯誤?

    已完成
    第 1 次嘗試 · 已完成 18296ms

    載入詳情中…

  • 案例 953463F6

    請問這款髮片的使用方式是什麼?我想了解如何使用和安裝。

    已完成
    第 1 次嘗試 · 已完成 10867ms

    載入詳情中…

  • 案例 E7C9927D

    你們有官方網站嗎

    已完成
    第 1 次嘗試 · 已完成 11891ms

    載入詳情中…

  • 案例 27DEBAE8

    登入的時候出現錯誤怎麼辦

    已完成
    第 1 次嘗試 · 已完成 11409ms

    載入詳情中…

  • 案例 61D8E9B7

    無法登入怎麼辦

    已完成
    第 1 次嘗試 · 已完成 14581ms

    載入詳情中…

  • 案例 8386DBD7

    知識與產品查詢要怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 21991ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 4 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
4 / 4 適用
答得到位 平均
answer_quality
42.5%
[10.0% – 79.2%] · n=4
4 / 4 適用
  • 案例 735DFE32

    我想轉接真人客服,怎麼辦

    已完成
    第 1 次嘗試 · 已完成 6834ms

    載入詳情中…

  • 案例 26EA5086

    負面情緒的時候會轉接人類客服嗎

    已完成
    第 1 次嘗試 · 已完成 14115ms

    載入詳情中…

  • 案例 0CA89BD9

    這個工具可以幹嘛?

    已完成
    第 1 次嘗試 · 已完成 15650ms

    載入詳情中…

  • 案例 FE495441

    這款髮片怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 12435ms

    載入詳情中…