BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

目前已经存在的VLP（Vision-Language Pre-training）模型仅仅在理解类任务（understanding-based tasks）或者生成类任务（generation-based tasks）其中一方面表现优秀。本文主要解决问题有二。

提出MED（ultimodal mixture of Encoder-Decoder）架构: 可以有效的多任务预训练和迁移学习。通过三个视觉-语言目标函数实现：imagetext contrastive learning, image-text matching, and imageconditioned language modeling.
提出CapFilt（Captioning and Filtering）方法: 从有噪声的数据训练。captioner模块：输入网络爬取的图片，输出合成的文本描述（caption 任务）， filter模块：从合成的图像文本对中删除质量差的数据（noisy captions）.

BLIP网络结构

note: 颜色相同的模块共享参数

主要分为三个模块

Image-Text Contrastive Loss (ITC) 作用：视觉特征空间与文本特征空间对齐（CLIP思想）实现方式：同一个batch中配对的图像和文本是正样本，不配置的图像和文本是负样本（自已构建正负样本对）。计算cos距离后正样本打高分，负样本打低分。
Image-Text Matching Loss (ITM) 作用：捕获更细粒度的图像文本对齐特征实现方式：网络最后接一个全连接层做一个二分类任务。note：与ITC不同
Language Modeling Loss (LM) 作用：给定图片生成描述实现方式：交叉熵

CapFilt示意图

先用网络爬取的数据和人类标注的数据集预训练模型。然后各自(指参数不共享)的finetune captioner模块和filter模块。

finetune使用的是coco数据集

合成的caption生成有两个方式，两个方式比较 caption生成方式比较

  a. Beam: 生成的过程中每次选择概率最大的词
  b. Nucleus: 搞一个集合，集合中的词概率加起来大于一个阈值（本论文取0.9），然后从集合随机的选取词

改实验表明：对于合成的caption，多样性是关键