一個 EvalCase = 一個 chat_history 情境 + expectations。Orchestrator 會跑全部 5 個 metric runner。
選定 bot 後,這個 case 會出現在 ReleaseGate matrix 對應 bot 的列。
最後一回合必須為 role=user——Neptune 才會有訊息可回應。
每個區塊對應 5 個 metric runner 之一。留空則該 runner 跳過此案例。