執行 #279
test (bulk R1) → production-baseline
- 狀態
- 執行中
- 案例
- 7
- 開始時間
- 16 May 12:55
- 耗時
- —
Cost & Tokens
$0.0139
Total Bot Cost · USD
28.7%
Prompt Cache Hit
- cost per case
- $0.0028
- cost per 1k tokens
- $0.0019
- input tokens
- 7,140
- output tokens
- 338
- cached tokens — prompt-cache hit
- 2,048
- Total Tokens
- 7,478
- cost per correct
- $0.0023
- pass rate
- 25.0%
- 1 / 4
- judge cost
- $0.0023
設定快照(reproducibility)
Bot 設定快照
-
db283a46-6601-4402-8dfb-ff7e06d43a1b
Judge 設定快照
model: gpt-4o-mini
T=0.0
max=4096
prompt: v1
5 / 7
0
1
4699 ms
$0.0139
7,478
$0.0023
19,870
情境調用與完成
情境調用與完成
維度總表
走對流程
召回
scenario
100.0%
[100.0% – 100.0%] · n=4
F1 100.0% · 召回 100.0% · 精確 100.0%
6 / 6 適用
用對工具
召回
tool_usage
100.0%
[100.0% – 100.0%] · n=4
F1 100.0% · 召回 100.0% · 精確 100.0%
6 / 6 適用
答得到位
平均
answer_quality
33.3%
[26.7% – 40.0%] · n=3
6 / 6 適用
-
案例 F475846D
請問你們的知識查詢是怎麼運作的?
第 1 次嘗試 · 已完成 9770ms載入詳情中…
-
案例 326516FE
我想了解你們的髮片資訊,有哪些選擇?
第 1 次嘗試 · 已完成 9131ms載入詳情中…
-
案例 EEEF8081
這個搜尋功能怎麼用啊
等候 orchestrator 處理此案例…
-
案例 EB26E101
你們能不能推薦一些產品?
第 1 次嘗試 · 已完成 9244ms載入詳情中…
-
案例 278289A2
我想知道你們的產品資訊是怎麼查詢的?
第 1 次嘗試 · 已完成 12153ms載入詳情中…
-
案例 AFBD9B8D
請問有關科技假髮的使用壽命大約是多久?
第 1 次嘗試 · 執行中載入詳情中…
-
案例 4EA63D03
你們的系統會主動推薦產品嗎
第 1 次嘗試 · 執行中載入詳情中…
-
案例 D44673EF
請問可以查詢一下進階統一搜尋的功能嗎?
等候 orchestrator 處理此案例…
-
案例 E8F49DD8
進階統一搜尋是什麼?
等候 orchestrator 處理此案例…
-
案例 9A96F01B
為什麼你們不能主動推薦產品呢?
等候 orchestrator 處理此案例…
對話素養(混合問答)
對話素養(混合問答)
維度總表
找對資料
召回
retrieval
—
—
不亂編造
平均
faithfulness
100.0%
1 / 1 適用
答得到位
平均
answer_quality
100.0%
1 / 1 適用
-
案例 6425DB2D
可以直接轉接真人客服嗎
第 1 次嘗試 · 已完成 8734ms載入詳情中…
-
案例 085567AE
查詢主題需要幾個字啊?
等候 orchestrator 處理此案例…