Reward Over-Optimization

Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization

Reinforcement learning from human feedback (RLHF) is an effective method for aligning large language models (LLMs) with human values. …

Juntao Dai, Taiye Chen, Yaodong Yang, Qian Zheng, Gang Pan