執行 #185

OC PM AI (bulk R1) → production-baseline

狀態
已完成
案例
15
開始時間
16 May 12:07
耗時
456.2s
¶ Economics · Bot-side N=15 attempts

Cost & Tokens

$0.0748
Total Bot Cost · USD
49.8%
Prompt Cache Hit
cost per case
$0.0050
cost per 1k tokens
$0.0014
input tokens
54,236
output tokens
858
cached tokens — prompt-cache hit
27,008
Total Tokens
55,094
economic efficiency
cost per correct
$0.0024
pass rate
33.3%
5 / 15
judge cost
$0.0122
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • cd94f23c-e87b-46ae-8ce7-3db277948cbe 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:246c1d63 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
15 / 15
錯誤
0
失敗維度
1
首字延遲 p95
3737 ms
Bot 成本(Neptune)
$0.0748
Bot Tokens(Neptune)
55,094
Judge 成本(Eris)
$0.0122
Judge Tokens(Eris)
94,400
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
41.3%
[27.0% – 55.0%] · n=10
10 / 10 適用
  • 案例 C7D18D77

    退換貨的規定是什麼?

    已完成
    第 1 次嘗試 · 已完成 14179ms

    載入詳情中…

  • 案例 9BEA357B

    你們的服務時間是幾點到幾點?

    已完成
    第 1 次嘗試 · 已完成 9357ms

    載入詳情中…

  • 案例 24B9CEFF

    這個產品的維護要怎麼做?

    已完成
    第 1 次嘗試 · 已完成 9253ms

    載入詳情中…

  • 案例 76CA6D18

    請問貴公司的服務時間是多久呢?

    已完成
    第 1 次嘗試 · 已完成 13515ms

    載入詳情中…

  • 案例 70A592C6

    為什麼我問的問題不會馬上得到回答?

    已完成
    第 1 次嘗試 · 已完成 10988ms

    載入詳情中…

  • 案例 EFCF4555

    你們的官網跟粉絲團在哪裡?

    已完成
    第 1 次嘗試 · 已完成 22919ms

    載入詳情中…

  • 案例 838E273D

    那個產品怎麼用?

    已完成
    第 1 次嘗試 · 已完成 15993ms

    載入詳情中…

  • 案例 FA6C2F11

    有關最近的優惠活動嗎?

    已完成
    第 1 次嘗試 · 已完成 9807ms

    載入詳情中…

  • 案例 F865BDAD

    有沒有關於如何使用這款髮片的建議?

    已完成
    第 1 次嘗試 · 已完成 15983ms

    載入詳情中…

  • 案例 823BA23A

    這款假髮怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 10305ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 5 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
5 / 5 適用
答得到位 平均
answer_quality
66.0%
[48.0% – 84.0%] · n=5
5 / 5 適用
  • 案例 71A4ED58

    這個 get_history 是什麼功能?

    已完成
    第 1 次嘗試 · 已完成 10464ms

    載入詳情中…

  • 案例 6FDAAA62

    這個髮片多少錢?

    已完成
    第 1 次嘗試 · 已完成 8924ms

    載入詳情中…

  • 案例 691F7730

    請問統一搜尋是什麼技術呢?

    已完成
    第 1 次嘗試 · 已完成 7840ms

    載入詳情中…

  • 案例 D1DFF318

    要轉接真人客服要怎麼說?

    已完成
    第 1 次嘗試 · 已完成 9255ms

    載入詳情中…

  • 案例 032C8B5A

    如果 AI 無法解決我的問題,可以轉接給人類客服嗎

    已完成
    第 1 次嘗試 · 已完成 4821ms

    載入詳情中…