Anthony's testing (bulk R1)
11 個案例 · 3 個產出 · 2 次執行 · 最後執行 5分鐘 前 · drift ✓ 8分鐘 前
⋯ more
LLM 累計成本(Eris-tracked,含 generations + runs)
$0.0209
151,815 tokens · 94 calls
Generations
$0.0209
94 calls
Runs (Judge)
$0.0000
0 judgements
自動產出案例(多 bot)
送出後將為勾選的每個 bot 派發 2 個 generation(項目一 + 項目二),cases 寫入此套件「Anthony's testing (bulk R1)」
派發評測
選擇 NeptuneTarget、立即派發此套件「Anthony's testing (bulk R1)」對該 target 的評測
01
案例 (11)
情境調用與完成
情境調用與完成
02
最近執行
-
執行 #70production-canary 待執行答得到位—待派發
-
執行 #69production-baseline 待執行答得到位—待派發