一、Introduction

1.1 该论文试图解决什么问题?

目前最好的视觉语言模型也很难捕获场景的结果信息,比如目标的属性、关系、行为状态等。因为对比学习更多的是关注图像中的存在的目标类别(很多工作提到该问题),忽略其他方面,比如关系、属性。本文提出SGVL,用一个小的SG数据集去finetune视觉语言模型,依次提升视觉语言模型的场景理解(关系、属性等)能力。