SG_Improve_VLP

一、Introduction

1.1 该论文试图解决什么问题？

目前最好的视觉语言模型也很难捕获场景的结果信息，比如目标的属性、关系、行为状态等。因为对比学习更多的是关注图像中的存在的目标类别（很多工作提到该问题），忽略其他方面，比如关系、属性。本文提出SGVL，用一个小的SG数据集去finetune视觉语言模型，依次提升视觉语言模型的场景理解（关系、属性等）能力。

一、Introduction#

1.1 该论文试图解决什么问题？#

一、Introduction

1.1 该论文试图解决什么问题？