lm-evaluation-harness

Python ★ 105 updated 3y ago ⑂ fork

A framework for few-shot evaluation of autoregressive language models.

No plain-English explanation yet — one is being written right now. Check back in a minute.