BALROG

★ 2 updated 10mo ago ⑂ fork

Benchmarking Agentic LLM and VLM Reasoning On Games

No plain-English explanation yet — one is being written right now. Check back in a minute.