在 久保雅司 (bulk R1) 新增案例

一個 EvalCase = 一個 chat_history 情境 + expectations。Orchestrator 會跑全部 5 個 metric runner。

選定 bot 後,這個 case 會出現在 ReleaseGate matrix 對應 bot 的列。

對話歷程

最後一回合必須為 role=user——Neptune 才會有訊息可回應。

預期值

每個區塊對應 5 個 metric runner 之一。留空則該 runner 跳過此案例。

取消