執行 #78

BenQ _ Test (bulk R1) → production-canary (canary)

狀態
已完成
案例
30
開始時間
16 May 11:18
耗時
626.1s
¶ Economics · Bot-side N=30 attempts

Cost & Tokens

$0.2211
Total Bot Cost · USD
77.0%
Prompt Cache Hit
cost per case
$0.0074
cost per 1k tokens
$0.0011
input tokens
196,570
output tokens
6,892
cached tokens — prompt-cache hit
151,424
Total Tokens
203,462
economic efficiency
cost per correct
$0.0012
pass rate
86.7%
26 / 30
judge cost
$0.0324
設定快照(reproducibility) 1 個 bot 已捕捉 · Judge:gpt-4o-mini

Bot 設定快照

  • e67d13e3-e0fe-4b36-942c-ad3ef6ebfa2e 163 筆 KB
    SystemPrompt: sha256:b57994de KBContent: sha256:8ca2f24d Tools: sha256:41ec4bc3 Scenarios: sha256:e831fce5 AI: gpt-4.1-2025-04-14 (T=0.0, max=2048)

Judge 設定快照

model: gpt-4o-mini T=0.0 max=4096 prompt: v1
已完成
30 / 30
錯誤
0
失敗維度
1
首字延遲 p95
12934 ms
Bot 成本(Neptune)
$0.2211
Bot Tokens(Neptune)
203,462
Judge 成本(Eris)
$0.0324
Judge Tokens(Eris)
241,893
項目 I.

知識庫精準度

kb_accuracy 10 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
70.0%
[40.0% – 100.0%] · n=10
F1 26.7% · 相關率 42.0% · 精確 16.7%
10 / 10 適用
不亂編造 平均
faithfulness
100.0%
[100.0% – 100.0%] · n=10
10 / 10 適用
答得到位 平均
answer_quality
94.0%
[91.0% – 96.7%] · n=10
10 / 10 適用
  • 案例 1AD455DD

    螢幕增高架適合哪種使用者?

    已完成
    第 1 次嘗試 · 已完成 36676ms

    載入詳情中…

  • 案例 437E46B3

    請問 BenQ Ergo Arm BSH02 的顏色是什麼?

    已完成
    第 1 次嘗試 · 已完成 28063ms

    載入詳情中…

  • 案例 D4D82AFB

    這款支援的螢幕俯仰角度是?

    已完成
    第 1 次嘗試 · 已完成 25153ms

    載入詳情中…

  • 案例 6F34B9A8

    這款 Ergo Arm 的重量範圍是?

    已完成
    第 1 次嘗試 · 已完成 31942ms

    載入詳情中…

  • 案例 3BD003CD

    關節式螢幕支架是怎樣調整的?

    已完成
    第 1 次嘗試 · 已完成 33080ms

    載入詳情中…

  • 案例 718A8B74

    怎麼確認顯示器有沒有 VESA 安裝孔?

    已完成
    第 1 次嘗試 · 已完成 40006ms

    載入詳情中…

  • 案例 F4787AA3

    請問調整螢幕的高度和角度有什麼好處?

    已完成
    第 1 次嘗試 · 已完成 31991ms

    載入詳情中…

  • 案例 9F584662

    支架安裝需要桌面多厚?

    已完成
    第 1 次嘗試 · 已完成 29743ms

    載入詳情中…

  • 案例 5B9D123D

    請問使用 BenQ 顯示器支架時,Apple 螢幕需要確認什麼選項?

    已完成
    第 1 次嘗試 · 已完成 43503ms

    載入詳情中…

  • 案例 C238A42F

    穿孔式安裝需要桌面上有多大的孔?

    已完成
    第 1 次嘗試 · 已完成 26575ms

    載入詳情中…

項目 II.

情境調用與完成

scenario_funnel 10 cases

維度總表

各維度品質分 · 覆蓋率
走對流程 召回
scenario
70.0%
[40.0% – 100.0%] · n=10
F1 66.7% · 召回 70.0% · 精確 65.0%
10 / 10 適用
用對工具 召回
tool_usage
25.0%
[0.0% – 75.0%] · n=4
F1 25.0% · 召回 25.0% · 精確 25.0%
4 / 10 適用
答得到位 平均
answer_quality
73.0%
[56.0% – 88.7%] · n=10
10 / 10 適用
  • 案例 50F781F6

    請問我在安裝螢幕支架時,如果手感過硬或過輕應該怎麼調整扭力呢?

    已完成
    第 1 次嘗試 · 已完成 27322ms

    載入詳情中…

  • 案例 09771D19

    Asus PA32UCDMR-K 的官方網站連結是什麼?

    已完成
    第 1 次嘗試 · 已完成 44291ms

    載入詳情中…

  • 案例 4423154F

    我可以查詢我的訂單嗎?

    已完成
    第 1 次嘗試 · 已完成 25632ms

    載入詳情中…

  • 案例 9D9E5B3A

    為什麼調整螢幕時,向上輕鬆要怎麼調整?

    已完成
    第 1 次嘗試 · 已完成 32896ms

    載入詳情中…

  • 案例 05D6F839

    我想查詢 BenQ BSH01 的特點有哪些?

    已完成
    第 1 次嘗試 · 已完成 45395ms

    載入詳情中…

  • 案例 1449868C

    請問如何查詢平台的規則呢?

    已完成
    第 1 次嘗試 · 已完成 54349ms

    載入詳情中…

  • 案例 E5D33E2C

    我想查詢 monitor arm,適合什麼顯示器?

    已完成
    第 1 次嘗試 · 已完成 50605ms

    載入詳情中…

  • 案例 682E0233

    我的螢幕型號是 MA270U,這個型號能與 BSH01 支架搭配使用嗎?

    已完成
    第 1 次嘗試 · 已完成 23407ms

    載入詳情中…

  • 案例 19CD0D5E

    我在用支架的時候,手感有點過重,這樣要怎麼調整扭力?

    已完成
    第 1 次嘗試 · 已完成 27712ms

    載入詳情中…

  • 案例 E4AAA2C3

    VESA Quick Release 是什麼啊?

    已完成
    第 1 次嘗試 · 已完成 24505ms

    載入詳情中…

項目 III.

對話素養(混合問答)

mixed_qa 10 cases

維度總表

各維度品質分 · 覆蓋率
找對資料 召回
retrieval
66.7%
[33.3% – 100.0%] · n=9
F1 24.1% · 相關率 31.2% · 精確 25.9%
9 / 10 適用 · 1 提示
不亂編造 平均
faithfulness
100.0%
[100.0% – 100.0%] · n=8
10 / 10 適用
答得到位 平均
answer_quality
97.0%
[94.0% – 99.7%] · n=10
10 / 10 適用
  • 案例 0B5C81C3

    Ergotron NX 支架保固幾年?

    已完成
    第 1 次嘗試 · 已完成 36568ms

    載入詳情中…

  • 案例 58395029

    BenQ Ergo Arm BSH02 支援什麼 VESA 規格?

    已完成
    第 1 次嘗試 · 已完成 50480ms

    載入詳情中…

  • 案例 0EB66385

    如果有保固問題該怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 25523ms

    載入詳情中…

  • 案例 31AE8FD1

    BenQ BDH01 是雙臂支架嗎?

    已完成
    第 1 次嘗試 · 已完成 18508ms

    載入詳情中…

  • 案例 BB9EAD28

    加固片可以提高哪些型號的支架穩定性?

    已完成
    第 1 次嘗試 · 已完成 45543ms

    載入詳情中…

  • 案例 FB237F89

    螢幕支架可以減少眼睛疲勞嗎?

    已完成
    第 1 次嘗試 · 已完成 47873ms

    載入詳情中…

  • 案例 DE8022DA

    請問什麼是機械彈簧結構?

    已完成
    第 1 次嘗試 · 已完成 44219ms

    載入詳情中…

  • 案例 8C4FB321

    調整螢幕俯仰角度時,向上過於輕鬆怎麼辦?

    已完成
    第 1 次嘗試 · 已完成 18358ms

    載入詳情中…

  • 案例 0AABBF1C

    如果桌面有超過 2.5cm 的斜面,該怎麼安裝支架?

    已完成
    第 1 次嘗試 · 已完成 32316ms

    載入詳情中…

  • 案例 A396AA84

    BenQ BDH01 的材質是什麼?

    已完成
    第 1 次嘗試 · 已完成 35245ms

    載入詳情中…