Omnichat 測試 (bulk R1) — 設定每個 metric 的通過/失敗下限。空白 = 無門檻。
每個 metric 一個數字。上版閘門透過 EvalMetric::DIRECTIONS 查方向,並用 ≥ (越大越好) 或 ≤ (越小越好) 比對。
EvalMetric::DIRECTIONS
≥
≤