執行 #66

Alife 智能社群經理 (bulk R1) → production-canary (canary)

狀態
已完成
案例
15
開始時間
16 May 11:13
耗時
213.0s
¶ Economics · Bot-side N=15 attempts

Cost & Tokens

$0.0525
Total Bot Cost · USD
80.9%
Prompt Cache Hit
cost per case
$0.0035
cost per 1k tokens
$0.0009
input tokens
57,755
output tokens
887
cached tokens — prompt-cache hit
46,720
Total Tokens
58,642
economic efficiency
cost per correct
$0.0030
pass rate
26.7%
4 / 15
judge cost
$0.0119
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • b37aafaf-ea4b-420c-805c-16e4814e29bb 0 筆 KB
    SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:08af379f AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
15 / 15
錯誤
0
失敗維度
0
首字延遲 p95
7495 ms
Bot 成本(Neptune)
$0.0525
Bot Tokens(Neptune)
58,642
Judge 成本(Eris)
$0.0119
Judge Tokens(Eris)
93,729
項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
用對工具 召回
tool_usage
100.0%
[100.0% – 100.0%] · n=10
F1 100.0% · 召回 100.0% · 精確 100.0%
10 / 10 適用
答得到位 平均
answer_quality
53.3%
[41.7% – 65.3%] · n=10
10 / 10 適用
  • 案例 C1001DE6

    你們的粉絲團和官網是什麼呢?

    已完成
    第 1 次嘗試 · 已完成 21612ms

    載入詳情中…

  • 案例 58FE42A2

    你們的粉絲專頁在哪裡?

    已完成
    第 1 次嘗試 · 已完成 19960ms

    載入詳情中…

  • 案例 EA6A49D2

    請問你們的產品怎麼使用?

    已完成
    第 1 次嘗試 · 已完成 28482ms

    載入詳情中…

  • 案例 B55BA60D

    怎麼使用這款髮片?

    已完成
    第 1 次嘗試 · 已完成 25714ms

    載入詳情中…

  • 案例 BAFE2C58

    為什麼我看到的問句都會觸發知識與產品查詢啊?

    已完成
    第 1 次嘗試 · 已完成 24485ms

    載入詳情中…

  • 案例 D9483A6E

    有什麼優惠活動啊?

    已完成
    第 1 次嘗試 · 已完成 24445ms

    載入詳情中…

  • 案例 E04034FA

    有什麼活動嗎

    已完成
    第 1 次嘗試 · 已完成 19443ms

    載入詳情中…

  • 案例 4210C5A7

    有什麼知識查詢的方式?

    已完成
    第 1 次嘗試 · 已完成 18552ms

    載入詳情中…

  • 案例 23A7D5C2

    有關你們的產品可以幫我查詢一下嗎?

    已完成
    第 1 次嘗試 · 已完成 17220ms

    載入詳情中…

  • 案例 7F4ACE23

    有沒有現在的活動可以參加或報名的資訊?

    已完成
    第 1 次嘗試 · 已完成 19641ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 5 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
不亂編造 平均
faithfulness
0.0%
[0.0% – 0.0%] · n=2
5 / 5 適用
答得到位 平均
answer_quality
36.7%
[26.7% – 51.3%] · n=5
5 / 5 適用
  • 案例 66B0AACE

    什麼情況下可以轉接人類客服?

    已完成
    第 1 次嘗試 · 已完成 22915ms

    載入詳情中…

  • 案例 60E291D9

    想轉接真人客服要怎麼做?

    已完成
    第 1 次嘗試 · 已完成 21768ms

    載入詳情中…

  • 案例 F229AAEE

    統一搜尋怎麼會需要每個地區的關鍵字?

    已完成
    第 1 次嘗試 · 已完成 17471ms

    載入詳情中…

  • 案例 AFFE485C

    可以查詢最近七輪之前的對話嗎

    已完成
    第 1 次嘗試 · 已完成 19897ms

    載入詳情中…

  • 案例 768C551F

    你們的官方網站是什麼?

    已完成
    第 1 次嘗試 · 已完成 16992ms

    載入詳情中…