執行 #127

HCG和成 (bulk R1) → production-baseline

狀態
已完成
案例
13
開始時間
16 May 11:41
耗時
479.1s
¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.1595
Total Bot Cost · USD
6.0%
Prompt Cache Hit
cost per case
$0.0123
cost per 1k tokens
$0.0022
input tokens
67,882
output tokens
3,732
cached tokens — prompt-cache hit
4,096
Total Tokens
71,614
economic efficiency
cost per correct
$0.0016
pass rate
46.2%
6 / 13
judge cost
$0.0096
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • 9fd2a0a3-9421-4a48-b2cc-177fbbaa2627 0 筆 KB
    SystemPrompt: sha256:e4a7be06 KBContent: sha256:e3b0c442 Tools: sha256:e3b0c442 Scenarios: sha256:5444c0e9 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
13 / 13
錯誤
0
失敗維度
0
首字延遲 p95
2350 ms
Bot 成本(Neptune)
$0.1595
Bot Tokens(Neptune)
71,614
Judge 成本(Eris)
$0.0096
Judge Tokens(Eris)
75,345
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
57.3%
[44.7% – 68.7%] · n=10
10 / 10 適用
  • 案例 F760DD61

    查詢產品資料的時候怎麼做

    已完成
    第 1 次嘗試 · 已完成 27077ms

    載入詳情中…

  • 案例 C2B8196A

    為什麼你們的知識與產品查詢那麼複雜?

    已完成
    第 1 次嘗試 · 已完成 50091ms

    載入詳情中…

  • 案例 EB2D19A2

    請問有關產品的型號和規格要怎麼查詢?

    已完成
    第 1 次嘗試 · 已完成 47559ms

    載入詳情中…

  • 案例 E220476E

    有沒有推薦的馬桶啊?

    已完成
    第 1 次嘗試 · 已完成 24411ms

    載入詳情中…

  • 案例 3FCE162E

    進階統一搜尋工具是用來做什麼的?

    已完成
    第 1 次嘗試 · 已完成 37424ms

    載入詳情中…

  • 案例 D122936F

    我想要推薦一些適合小浴室的馬桶,請問有什麼選擇?

    已完成
    第 1 次嘗試 · 已完成 25324ms

    載入詳情中…

  • 案例 889117C7

    你們的產品查詢可以幫我什麼嗎

    已完成
    第 1 次嘗試 · 已完成 13951ms

    載入詳情中…

  • 案例 E34FE338

    我想知道馬桶的型號和規格有哪些?

    已完成
    第 1 次嘗試 · 已完成 25919ms

    載入詳情中…

  • 案例 3984DFCE

    我想了解有關衛浴產品的型號跟規格,能不能給我一些相關的資訊?

    已完成
    第 1 次嘗試 · 已完成 17911ms

    載入詳情中…

  • 案例 DC7212D7

    我想詢問產品的資料,比如尺寸和功能差異有哪些?

    已完成
    第 1 次嘗試 · 已完成 21243ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 3 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
100.0%
F1 66.7% · 精確 50.0%
1 / 3 適用
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
3 / 3 適用
答得到位 平均
answer_quality
57.8%
[36.7% – 76.7%] · n=3
3 / 3 適用
  • 案例 5CC2CFCF

    我想轉接真人客服,可以嗎

    已完成
    第 1 次嘗試 · 已完成 6586ms

    載入詳情中…

  • 案例 2BF9C206

    HCG客服能即時回覆問題嗎

    已完成
    第 1 次嘗試 · 已完成 37557ms

    載入詳情中…

  • 案例 CD20D759

    你們的產品都是怎樣的?

    已完成
    第 1 次嘗試 · 已完成 18761ms

    載入詳情中…