測試型

production env · 1 suites · 2 次完成 run

Subject № 83d6a51a-8194-407f-94b2-85326f27a0b7 PRODUCTION
評測狀態 · 正常維護

Eval suites 維護中,全部 in sync

4 scenarios · 0 KB items 1 suite
PARTIAL COVERAGE · 1 KIND(S) MISSING

16 cases · 測試型 (bulk R1)

kb_accuracy 0
scenario_funnel 10
mixed_qa 6
uncategorized 0
01

生命徵象

[KIND × DIMENSION] vital signs — this bot's per-dim clearance vs. its baseline
知識庫精準度 [—]
檢索
忠實度
回答品質
情境調用與完成 [FAIL]
情境 90.0% 90.0% ≥85.0% [±5pp] +5.0 ✓
工具使用 40.0% 40.0% <70.0% [floor] -30.0 ✗
回答品質 53.0% 55.3% <70.0% [floor] -14.7 ✗
對話素養(混合問答) [FAIL]
檢索
忠實度 0.0% 0.0% <70.0% [floor] -70.0 ✗
回答品質 58.9% 57.2% <70.0% [floor] -12.8 ✗
02

測試套件