執行 #40

AI 智能客服名稱 (bulk R1) → production-canary (canary)

狀態
已完成
案例
12
開始時間
16 May 11:03
耗時
249.4s
¶ Economics · Bot-side N=12 attempts

Cost & Tokens

$0.0435
Total Bot Cost · USD
79.0%
Prompt Cache Hit
cost per case
$0.0036
cost per 1k tokens
$0.0009
input tokens
46,025
output tokens
744
cached tokens — prompt-cache hit
36,352
Total Tokens
46,769
economic efficiency
cost per correct
$0.0034
pass rate
25.0%
3 / 12
judge cost
$0.0103
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 7d958b77-d09f-4eda-8d69-1739e08a2c3e 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:5108e2c7 AI: gpt-4.1-2025-04-14 (T=0.0, max=32768)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
12 / 12
錯誤
0
失敗維度
0
首字延遲 p95
5564 ms
Bot 成本(Neptune)
$0.0435
Bot Tokens(Neptune)
46,769
Judge 成本(Eris)
$0.0103
Judge Tokens(Eris)
81,049
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
40.7%
[29.0% – 52.3%] · n=10
10 / 10 適用
  • 案例 79701641

    你們的社群媒體有哪些?

    已完成
    第 1 次嘗試 · 已完成 27095ms

    載入詳情中…

  • 案例 E6215B56

    查詢的字數要短於多少才會優先處理?

    已完成
    第 1 次嘗試 · 已完成 26417ms

    載入詳情中…

  • 案例 F059415A

    請問有關最近的活動或優惠的資訊嗎?

    已完成
    第 1 次嘗試 · 已完成 26210ms

    載入詳情中…

  • 案例 9F424630

    你們的服務時間是什麼?

    已完成
    第 1 次嘗試 · 已完成 14928ms

    載入詳情中…

  • 案例 B40615EB

    這個產品多少錢?

    已完成
    第 1 次嘗試 · 已完成 22223ms

    載入詳情中…

  • 案例 E13D00DC

    價格是多少?

    已完成
    第 1 次嘗試 · 已完成 15972ms

    載入詳情中…

  • 案例 D3E448E1

    這個查詢為什麼要有問號或「嗎」呢?

    已完成
    第 1 次嘗試 · 已完成 15020ms

    載入詳情中…

  • 案例 D197E4BB

    有沒有可以推薦的科技假髮呢?

    已完成
    第 1 次嘗試 · 已完成 23162ms

    載入詳情中…

  • 案例 71416673

    這個產品怎麼使用,能幫我說明一下嗎?

    已完成
    第 1 次嘗試 · 已完成 34852ms

    載入詳情中…

  • 案例 2301F7C5

    可以告訴我這個髮片怎麼使用嗎?

    已完成
    第 1 次嘗試 · 已完成 27155ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 2 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
2 / 2 適用
答得到位 平均
answer_quality
80.0%
[76.7% – 83.3%] · n=2
2 / 2 適用
  • 案例 634784C5

    什麼情況可以轉接真人客服?

    已完成
    第 1 次嘗試 · 已完成 29131ms

    載入詳情中…

  • 案例 DADA11EB

    退換貨的流程怎麼樣啊

    已完成
    第 1 次嘗試 · 已完成 24446ms

    載入詳情中…