Why is Your Language Model a Poor Implicit Reward Model?

Noam Razin, Yong Lin, Jiarui Yao, Sanjeev Arora

July 2025

PDF Code Poster

Type

Preprint

Publication

arXiv:2507.07981, 2025

Reward Models Language Models Reinforcement Learning from Human Feedback Out-of-Distribution Generalization