mle-bench-shinka-agent

Python ★ 1 updated 7mo ago ⑂ fork

MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering

No plain-English explanation yet — one is being written right now. Check back in a minute.