PawBench

Python ★ 65 updated 3d ago

A benchmark for evaluating LLM × harness performance.

No plain-English explanation yet — one is being written right now. Check back in a minute.