trlx

Python ★ 6 updated 2y ago ⑂ fork

A repo for distributed training of language models with Reinforcement Learning via Human Feedback (RLHF)

No plain-English explanation yet — one is being written right now. Check back in a minute.