What Makes a Reward Model a Good Teacher? An Optimization Perspective

Noam Razin, Zixuan Wang, Hubert Strauss, Stanley Wei, Jason D. Lee, Sanjeev Arora

March 2025

PDF Code Poster

Type

Conference paper

Publication

Advances in Neural Information Processing Systems (NeurIPS), 2025

Language Models Reward Models Reinforcement Learning Reinforcement Learning from Human Feedback Policy Gradient Alignment