Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting

Howard Chen, Noam Razin, Karthik Narasimhan, Danqi Chen

October 2025

PDF Code

Type

Preprint

Publication

arXiv:2510.18874, 2025

Language Models Catastrophic Forgetting Supervised Finetuning Reinforcement Learning