執行 #405

果果子 (bulk R1) → production-baseline

狀態
已完成
案例
13
開始時間
16 May 13:51
耗時
162.0s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.0424
Total Bot Cost · USD
86.4%
Prompt Cache Hit
cost per case
$0.0033
cost per 1k tokens
$0.0008
input tokens
52,174
output tokens
710
cached tokens — prompt-cache hit
45,056
Total Tokens
52,884
economic efficiency
cost per correct
$0.0022
pass rate
38.5%
5 / 13
judge cost
$0.0109
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 1e01828a-3d85-452a-9982-0b56030aa9d6 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:c0930fe1 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
1
首字延遲 p95
2245 ms
Bot 成本(Neptune)
$0.0424
Bot Tokens(Neptune)
52,884
Judge 成本(Eris)
$0.0109
Judge Tokens(Eris)
84,722
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
60.0%
[46.0% – 73.3%] · n=10
10 / 10 適用
  • 案例 0DE466BD

    促銷活動有什麼優惠嗎?

    已完成
    第 1 次嘗試 · 已完成 9168ms

    載入詳情中…

  • 案例 50DF3A76

    請問如果遇到登入問題要怎麼處理?

    已完成
    第 1 次嘗試 · 已完成 9423ms

    載入詳情中…

  • 案例 39116291

    請問現在有什麼活動或優惠可以參加嗎?

    已完成
    第 1 次嘗試 · 已完成 8653ms

    載入詳情中…

  • 案例 61194D03

    你們的服務時間是什麼時候?

    已完成
    第 1 次嘗試 · 已完成 9808ms

    載入詳情中…

  • 案例 F30BB314

    為什麼你們的產品查詢都要用問句啊?

    已完成
    第 1 次嘗試 · 已完成 14087ms

    載入詳情中…

  • 案例 5B74CC6A

    我登入的時候總是出錯,這是怎麼回事?

    已完成
    第 1 次嘗試 · 已完成 11192ms

    載入詳情中…

  • 案例 89D87790

    有沒有產品查詢的功能啊?

    已完成
    第 1 次嘗試 · 已完成 9252ms

    載入詳情中…

  • 案例 EFC5A1FA

    為什麼你們的查詢要用問號啊?

    已完成
    第 1 次嘗試 · 已完成 10293ms

    載入詳情中…

  • 案例 6D2D7143

    查詢優惠活動有什麼?

    已完成
    第 1 次嘗試 · 已完成 7554ms

    載入詳情中…

  • 案例 12DB9D32

    有沒有你們的粉絲團或官網?

    已完成
    第 1 次嘗試 · 已完成 10657ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
3 / 3 適用
答得到位 平均
answer_quality
56.7%
[33.3% – 90.0%] · n=3
3 / 3 適用
  • 案例 93CC015B

    可以轉接到真人客服嗎

    已完成
    第 1 次嘗試 · 已完成 8391ms

    載入詳情中…

  • 案例 44036E1F

    使用 get_history 不帶參數會怎樣?

    已完成
    第 1 次嘗試 · 已完成 9786ms

    載入詳情中…

  • 案例 EEA0070A

    你們的粉絲團在哪裡?

    已完成
    第 1 次嘗試 · 已完成 12444ms

    載入詳情中…