執行 #276
test (bulk R1) → production-canary (canary)
- 狀態
- 執行中
- 案例
- 12
- 開始時間
- 16 May 12:53
- 耗時
- —
Cost & Tokens
$0.0391
Total Bot Cost · USD
58.6%
Prompt Cache Hit
- cost per case
- $0.0039
- cost per 1k tokens
- $0.0012
- input tokens
- 31,011
- output tokens
- 545
- cached tokens — prompt-cache hit
- 18,176
- Total Tokens
- 31,556
- cost per correct
- $0.0013
- pass rate
- 55.6%
- 5 / 9
- judge cost
- $0.0064
設定快照(reproducibility)
Bot 設定快照
-
a5f97610-8ed5-4683-8c6f-3e405fb7e1d1
Judge 設定快照
model: gpt-4o-mini
T=0.0
max=4096
prompt: v1
10 / 12
0
0
7047 ms
$0.0391
31,556
$0.0064
50,195
情境調用與完成
情境調用與完成
維度總表
走對流程
召回
scenario
100.0%
[100.0% – 100.0%] · n=4
F1 91.7% · 召回 100.0% · 精確 87.5%
6 / 6 適用
用對工具
召回
tool_usage
75.0%
[25.0% – 100.0%] · n=4
F1 75.0% · 召回 75.0% · 精確 75.0%
6 / 6 適用
答得到位
平均
answer_quality
80.0%
[66.7% – 90.0%] · n=4
6 / 6 適用
-
案例 D40EA816
我想查詢一下我的訂單狀況,請問有什麼資料需要提供嗎?
等候 orchestrator 處理此案例…
-
案例 D64922BA
請問貴公司的服務時間是什麼時候?
等候 orchestrator 處理此案例…
-
案例 67FA9953
如果查不到我的訂單,該怎麼辦?
第 1 次嘗試 · 已完成 11686ms載入詳情中…
-
案例 E1EFFFAD
你們的假髮多少錢?
第 1 次嘗試 · 已完成 19610ms載入詳情中…
-
案例 C50B66BD
通用查詢是什麼意思?
第 1 次嘗試 · 已完成 21667ms載入詳情中…
-
案例 70ECE901
髮片怎麼用?
第 1 次嘗試 · 已完成 24946ms載入詳情中…
-
案例 CFDE3052
這些服務的營業時間是怎麼樣的呀?
第 1 次嘗試 · 執行中載入詳情中…
-
案例 77C7CAAA
我的訂單狀態怎麼樣?
第 1 次嘗試 · 執行中載入詳情中…
-
案例 3E7E01F8
我的訂單查詢有回覆嗎?
等候 orchestrator 處理此案例…
-
案例 2A1A9CF9
訂單狀態查詢
等候 orchestrator 處理此案例…
對話素養(混合問答)
對話素養(混合問答)
維度總表
找對資料
召回
retrieval
—
—
不亂編造
平均
faithfulness
50.0%
[0.0% – 100.0%] · n=2
6 / 6 適用
答得到位
平均
answer_quality
60.0%
[45.3% – 75.3%] · n=5
6 / 6 適用
-
案例 B4A62CA3
請問我可以用什麼信息搜尋訂單詳情?
第 1 次嘗試 · 已完成 22316ms載入詳情中…
-
案例 835DCA87
那個髮片怎麼使用?
第 1 次嘗試 · 已完成 15625ms載入詳情中…
-
案例 6B96F427
可以查之前的對話嗎
第 1 次嘗試 · 已完成 22538ms載入詳情中…
-
案例 EA5B492D
訂單查詢用什麼工具?
第 1 次嘗試 · 已完成 22516ms載入詳情中…
-
案例 48B59A13
如果AI回答不了,可以轉接到真人客服嗎
第 1 次嘗試 · 已完成 24796ms載入詳情中…
-
案例 A649CC78
轉接真人客服的時候需要確認什麼情況?
第 1 次嘗試 · 已完成 15896ms載入詳情中…