safe-rlhf

Python ★ 4 updated 6mo ago ⑂ fork

Safe-RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

No plain-English explanation yet — one is being written right now. Check back in a minute.