在LLM的post-training阶段,强化学习(RL)已经成为标配,RL除了可以对齐人类偏好,还能进一步强化模型的推理能力。在多模态大模型领域,近期也出来比较多的工作引入RL去正确增强视觉上的推理,比如R1-V用RL于counting任务、VLM-RL用RL于目标检测任务、GRIT在推理过程中输出坐标信息,强化推理过程和视觉信息想交互能力。本文对近期比较关键的一些工作进行整理。

详情见我的飞书文档: 【持续更新中】Reinforcement Learning with Vision Language Models