執行 #193

Omnichat (bulk R1) → production-baseline

狀態
已完成
案例
25
開始時間
16 May 12:11
耗時
338.9s
¶ Economics · Bot-side N=25 attempts

Cost & Tokens

$0.2986
Total Bot Cost · USD
30.8%
Prompt Cache Hit
cost per case
$0.0119
cost per 1k tokens
$0.0018
input tokens
162,472
output tokens
6,093
cached tokens — prompt-cache hit
50,048
Total Tokens
168,565
economic efficiency
cost per correct
$0.0010
pass rate
60.0%
15 / 25
judge cost
$0.0156
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 2e249b62-3e0c-4c33-b09d-e539d7d77baa 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:5918734d AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
25 / 25
錯誤
0
失敗維度
0
首字延遲 p95
3077 ms
Bot 成本(Neptune)
$0.2986
Bot Tokens(Neptune)
168,565
Judge 成本(Eris)
$0.0156
Judge Tokens(Eris)
122,606
項目 I.

知識庫精準度

kb_accuracy 8 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
25.0%
[0.0% – 50.0%] · n=8
F1 8.3% · 精確 5.0%
8 / 8 適用
不亂編造 平均
faithfulness
50.0%
[0.0% – 100.0%] · n=2
8 / 8 適用
答得到位 平均
answer_quality
82.5%
[65.4% – 96.7%] · n=8
8 / 8 適用
  • 案例 6D872812

    為什麼Benefit的服務可以直接預約?

    已完成
    第 1 次嘗試 · 已完成 23667ms

    載入詳情中…

  • 案例 C079A8F5

    Omnichat的WhatsApp自動化服務是24/7的嗎?

    已完成
    第 1 次嘗試 · 已完成 19286ms

    載入詳情中…

  • 案例 B26868D4

    OPTICAL 88的客戶為什麼喜歡WhatsApp?

    已完成
    第 1 次嘗試 · 已完成 18460ms

    載入詳情中…

  • 案例 DDE9185D

    Omnichat的忠誠點系統可以提升顧客忠誠度嗎?

    已完成
    第 1 次嘗試 · 已完成 34049ms

    載入詳情中…

  • 案例 348275CF

    Omnichat 支援哪些平台的整合?

    已完成
    第 1 次嘗試 · 已完成 19320ms

    載入詳情中…

  • 案例 9739B19E

    Benefit Cosmetics的Brow & Lip Wax服務現在可以線上預約嗎?

    已完成
    第 1 次嘗試 · 已完成 45939ms

    載入詳情中…

  • 案例 9A2A6E45

    請問 Omnichat 支援哪些應用程式和網站?

    已完成
    第 1 次嘗試 · 已完成 20782ms

    載入詳情中…

  • 案例 4FB2EACE

    這個網絡研討會的講者有哪些人?

    已完成
    第 1 次嘗試 · 已完成 21456ms

    載入詳情中…

項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
60.0%
[30.0% – 90.0%] · n=10
F1 66.7% · 召回 65.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
43.0%
[26.3% – 60.0%] · n=10
10 / 10 適用
  • 案例 7BD65D19

    你們有什麼蔬果的保存方法?

    已完成
    第 1 次嘗試 · 已完成 14759ms

    載入詳情中…

  • 案例 BB5E2374

    我想了解髮片的安裝方式,如何進行?

    已完成
    第 1 次嘗試 · 已完成 35385ms

    載入詳情中…

  • 案例 2FBF759F

    有適合的髮片推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 18254ms

    載入詳情中…

  • 案例 7B1D6006

    你們有適合的假髮嗎?

    已完成
    第 1 次嘗試 · 已完成 11425ms

    載入詳情中…

  • 案例 20703596

    可以查詢一下最新的產品資訊嗎?

    已完成
    第 1 次嘗試 · 已完成 31212ms

    載入詳情中…

  • 案例 E4ADEB9B

    請問怎麼查詢你們的產品和相關知識?

    已完成
    第 1 次嘗試 · 已完成 25604ms

    載入詳情中…

  • 案例 AB375DF6

    有什麼適合的產品推薦嗎?

    已完成
    第 1 次嘗試 · 已完成 16188ms

    載入詳情中…

  • 案例 3539554D

    你們的產品資訊查詢是怎麼運作的?

    已完成
    第 1 次嘗試 · 已完成 22742ms

    載入詳情中…

  • 案例 1B6045E4

    你們有什麼適合的產品嗎?

    已完成
    第 1 次嘗試 · 已完成 11893ms

    載入詳情中…

  • 案例 99AAA191

    你們的搜尋功能可以查詢什麼資訊?

    已完成
    第 1 次嘗試 · 已完成 27079ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 7 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
50.0%
[14.3% – 85.7%] · n=7
F1 18.4% · 精確 11.4%
7 / 7 適用
不亂編造 平均
faithfulness
7 / 7 適用
答得到位 平均
answer_quality
88.1%
[76.7% – 96.2%] · n=7
7 / 7 適用
  • 案例 E582FF20

    Omnichat 支持什麼樣的操作系統?

    已完成
    第 1 次嘗試 · 已完成 17895ms

    載入詳情中…

  • 案例 26C1DB6A

    請問顧客可以在哪裡預約專屬服務?

    已完成
    第 1 次嘗試 · 已完成 21003ms

    載入詳情中…

  • 案例 24B86FF0

    Omnichat 的自動化對話商務整合可在 Instagram 上使用嗎?

    已完成
    第 1 次嘗試 · 已完成 23661ms

    載入詳情中…

  • 案例 DCCA53C7

    Omnichat的Social CDP可以幫我統一客戶資料嗎?

    已完成
    第 1 次嘗試 · 已完成 27270ms

    載入詳情中…

  • 案例 784F2F91

    請問你們的客服平台可以整合哪些社交媒體呢?

    已完成
    第 1 次嘗試 · 已完成 18200ms

    載入詳情中…

  • 案例 2A9A5629

    我聽說可以用 WhatsApp 自動化來吸引和留住客戶,這個到底怎麼做?

    已完成
    第 1 次嘗試 · 已完成 37589ms

    載入詳情中…

  • 案例 CDFF97F2

    請問Omnichat支持哪些平台進行客戶服務呢?例如WhatsApp、Facebook Messenger等嗎?

    已完成
    第 1 次嘗試 · 已完成 20755ms

    載入詳情中…