執行 #107

CoolBe Agnet (bulk R1) → production-baseline

↓ EXPORT · HTML下載頁面 II. EVAL REPORT兩項目評估報告

狀態: 已完成
案例: 13
開始時間: 16 May 11:29
耗時: 642.4s

¶ Economics · Bot-side N=13 attempts

Cost & Tokens

$0.0373

Total Bot Cost · USD

91.3%

Prompt Cache Hit

cost per case: $0.0029
cost per 1k tokens: $0.0007
input tokens: 50,046
output tokens: 719
cached tokens — prompt-cache hit: 45,696
Total Tokens: 50,765

economic efficiency

cost per correct: $0.0018
pass rate: 46.2%; 6 / 13
judge cost: $0.0109

設定快照（reproducibility） 1 個 bot 已捕捉 · Judge：gpt-4o-mini

Bot 設定快照

5b083fe6-aba7-4395-803b-200f373ec6e0 0 筆 KB

SystemPrompt: sha256:a147cf42 KBContent: sha256:e3b0c442 Tools: sha256:13e5aa51 Scenarios: sha256:0a375066 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1

已完成

13 / 13

錯誤

失敗維度

首字延遲 p95

3256 ms

Bot 成本（Neptune）

$0.0373

Bot Tokens（Neptune）

50,765

Judge 成本（Eris）

$0.0109

Judge Tokens（Eris）

84,393

維度總表

各維度品質分 · 覆蓋率

走對流程召回

scenario

100.0%

[100.0% – 100.0%] · n=10

F1 100.0% · 召回 100.0% · 精確 100.0%

10 / 10 適用

用對工具召回

tool_usage

100.0%

[100.0% – 100.0%] · n=10

F1 100.0% · 召回 100.0% · 精確 100.0%

10 / 10 適用

答得到位平均

answer_quality

56.3%

[42.7% – 71.7%] · n=10

10 / 10 適用

案例 5497612E

請問最近有什麼活動或優惠嗎？

已完成

第 1 次嘗試 · 已完成 15080ms

載入詳情中…
案例 4CDD4D93

你們的粉絲團和官方網站是什麼啊

已完成

第 1 次嘗試 · 已完成 9797ms

載入詳情中…
案例 57E1064A

為什麼你們的查詢一定要有問號才行？

已完成

第 1 次嘗試 · 已完成 11185ms

載入詳情中…
案例 6B5A7BC5

請問貴公司有沒有任何促銷活動？

已完成

第 1 次嘗試 · 已完成 9548ms

載入詳情中…
案例 324C3777

這個髮片的價格是多少?

已完成

第 1 次嘗試 · 已完成 11242ms

載入詳情中…
案例 358C7861

有關活動的優惠和報名細節是什麼?

已完成

第 1 次嘗試 · 已完成 14555ms

載入詳情中…
案例 45E22549

請問如何查詢你們的產品資訊？

已完成

第 1 次嘗試 · 已完成 15479ms

載入詳情中…
案例 72C620A8

請問最近有哪些活動可以參加？

已完成

第 1 次嘗試 · 已完成 16610ms

載入詳情中…
案例 83EC1EA4

這個產品如何使用呢？

已完成

第 1 次嘗試 · 已完成 10906ms

載入詳情中…
案例 E613C74C

你們現在有什麼優惠活動嗎？

已完成

第 1 次嘗試 · 已完成 13095ms

載入詳情中…

維度總表

各維度品質分 · 覆蓋率

找對資料召回

retrieval

—

不亂編造平均

faithfulness

0.0%

3 / 3 適用

答得到位平均

answer_quality

67.8%

[40.0% – 83.3%] · n=3

3 / 3 適用

案例 1B4E9473

問題超出 AI 能力怎麼辦

已完成

第 1 次嘗試 · 已完成 11558ms

載入詳情中…
案例 9C4FADB6

可以檢索最近 7 輪之前的對話嗎

已完成

第 1 次嘗試 · 已完成 11241ms

載入詳情中…
案例 9F1B36C4

如果我問問題加問號，會有什麼效果呢？

已完成

第 1 次嘗試 · 已完成 13167ms

載入詳情中…

執行 #107

Cost & Tokens

Bot 設定快照

Judge 設定快照

情境調用與完成

維度總表

請問最近有什麼活動或優惠嗎？

你們的粉絲團和官方網站是什麼啊

為什麼你們的查詢一定要有問號才行？

請問貴公司有沒有任何促銷活動？

這個髮片的價格是多少?

有關活動的優惠和報名細節是什麼?

請問如何查詢你們的產品資訊？

請問最近有哪些活動可以參加？

這個產品如何使用呢？

你們現在有什麼優惠活動嗎？

對話素養（混合問答）

維度總表

問題超出 AI 能力怎麼辦

可以檢索最近 7 輪之前的對話嗎

如果我問問題加問號，會有什麼效果呢？