執行 #245
WEEX Agent (bulk R1) → production-baseline
- 狀態
- 已完成
- 案例
- 15
- 開始時間
- 16 May 12:37
- 耗時
- 683.5s
Cost & Tokens
$0.1441
Total Bot Cost · USD
63.3%
Prompt Cache Hit
- cost per case
- $0.0096
- cost per 1k tokens
- $0.0013
- input tokens
- 110,331
- output tokens
- 3,539
- cached tokens — prompt-cache hit
- 69,888
- Total Tokens
- 113,870
- cost per correct
- $0.0023
- pass rate
- 40.0%
- 6 / 15
- judge cost
- $0.0141
設定快照(reproducibility)
Bot 設定快照
-
64c058af-16c4-4296-8860-2998d12edcfc
Judge 設定快照
model: gpt-4o-mini
T=0.0
max=4096
prompt: v1
15 / 15
0
3
2096 ms
$0.1441
113,870
$0.0141
101,260
知識庫精準度
知識庫精準度
維度總表
找對資料
召回
retrieval
100.0%
[100.0% – 100.0%] · n=4
F1 33.3% · 相關率 40.0% · 精確 20.0%
4 / 4 適用
不亂編造
平均
faithfulness
100.0%
[100.0% – 100.0%] · n=4
4 / 4 適用
答得到位
平均
answer_quality
75.8%
[58.3% – 93.3%] · n=4
4 / 4 適用
-
案例 ECCCF883
怎麼申請成為 P2P 商戶?
第 1 次嘗試 · 已完成 16761ms載入詳情中…
-
案例 77CB5C8C
WEEX支持用OTC或Express Buy存款嗎?
第 1 次嘗試 · 已完成 15868ms載入詳情中…
-
案例 0073F8E7
OTC銷售的最低訂單金額是多少?
第 1 次嘗試 · 已完成 12488ms載入詳情中…
-
案例 E2966C5F
使用 quick buy 時,怎麼選擇支付方式?
第 1 次嘗試 · 已完成 16947ms載入詳情中…
情境調用與完成
情境調用與完成
維度總表
走對流程
召回
scenario
20.0%
[0.0% – 50.0%] · n=10
F1 13.3% · 召回 20.0% · 精確 10.0%
10 / 10 適用
用對工具
召回
tool_usage
0.0%
[0.0% – 0.0%] · n=10
F1 26.7% · 召回 20.0% · 精確 50.0%
10 / 10 適用
答得到位
平均
answer_quality
45.7%
[28.0% – 64.7%] · n=10
10 / 10 適用
-
案例 D7D7FF07
我剛剛想問提領的問題,但是找不到相關資料,怎麼辦?
第 1 次嘗試 · 已完成 25858ms載入詳情中…
-
案例 9F50BE4F
有沒有適合的產品啊
第 1 次嘗試 · 已完成 18160ms載入詳情中…
-
案例 54EBC8B2
我需要推薦一款髮片,有什麼比較好的吗
第 1 次嘗試 · 已完成 5220ms載入詳情中…
-
案例 3984E2A0
查詢提款問題需要什麼參數?
第 1 次嘗試 · 已完成 12346ms載入詳情中…
-
案例 7D58EC29
訂單查詢的時候,找到了多個訂單怎麼辦?
第 1 次嘗試 · 已完成 13438ms載入詳情中…
-
案例 55B506B0
我想查詢我的訂單狀態,但找不到相關訂單,該怎麼辦?
第 1 次嘗試 · 已完成 13291ms載入詳情中…
-
案例 E0D5883E
我的訂單查詢怎麼做啊
第 1 次嘗試 · 已完成 16708ms載入詳情中…
-
案例 FC0FD499
提款未到的常見原因是什麼?
第 1 次嘗試 · 已完成 20625ms載入詳情中…
-
案例 C235F8FD
存款未到的原因是什麼?
第 1 次嘗試 · 已完成 24292ms載入詳情中…
-
案例 05CCD29A
請問我想要一款適合夏天使用的髮片,可以推薦嗎?
第 1 次嘗試 · 已完成 15677ms載入詳情中…
對話素養(混合問答)
對話素養(混合問答)
維度總表
找對資料
召回
retrieval
—
—
不亂編造
平均
faithfulness
—
1 / 1 適用
答得到位
平均
answer_quality
93.3%
1 / 1 適用
-
案例 3949A0FA
如果AI無法回答我的問題,可以轉接給人嗎?
第 1 次嘗試 · 已完成 8579ms載入詳情中…