IMAGEBIND: One Embedding Space To Bind Them All

一、Introduction 1.1 该论文试图解决什么问题? 该论文主要解决的多模态对齐的问题,该论文将图片(视频)、文本、音频、深度图、热力图(thermal)、IMU六种模态的特征对齐在一个空间。 所以IMAGEBIND可以做跨模态召回(cross-modal retrieval)、简单相加融合模态信息(composing modalities with arithmetic)、跨模态检测和生成(cross-modal detection and generation)等任务。另外IMAGEBIND的few-shot能力也不错 补充说明 目前主流的方法还是将图片和文本(或者声音)对齐,比如CLIP(Audio-CLIP)。但是没有像IMAGEBIND方法这样讲6种模态的特征对齐,本质原因是没有6种模态对齐的训练数据(指一条样本对包含的6种模态数据完成对应)。但是每一种模态和图片成对的数量是够的,就是(图片-文本)、(图片-音频)、(图片-深度图)、(图片-热力图)、(图片-IMU)这种成对的数据是够的。IMAGEBIND就是把所有模态的数据都和图片这个模态的数据进行对齐。那么比如(文本-音频)、(文本-深度图)等跨模态的数据就也对齐的。这种在数学上叫做传递性,因为所有模态的相似度量是用的cosine距离,这个度量方式就是可传递的,所以IMAGEBIND能把这么多模态对齐是显然的。 emergent zero-shot:由于IMAGEBIND是将其他模态和图片模态配对然后训练,其它的模态对是没有进行训练的,比如(文本-音频)、(文本-深度图)。所以(文本-音频)的召回或者分类能力,IMAGEBIND叫做涌现的zero-shot能力。 至于网络结构损失函数等,并没有新的东西。甚至图像-文本的模态对齐就是用的CLIP(文中用的OPEN-CLIP),直接frozen掉没有训练 Method ImageBind的网络结构没有什么新的架构,无非就是不同规模的VIT结构。损失与CLIP的对比损失不同,用的是InfoNCE loss。公式如下: 其中$q_i$, $k_i$分别表示图片、其它模态数据经过encoder后的embedding。$\tau$表示温度,用于控制softmax后的平滑程度。 Experiments ImageBind的应用 跨模态召回 embeding相加就等价于语义的相加 声音生产图片 ImageBind使用的数据样例 都是自然与图片配对的数据 ImageBind使用的评测数据集 可以看到都是分类、召回类的任务 Emergent zero-shot分类能力 音频的分类任务重ImageBind与AudioCLIP对比,但是AudioCLIP是直接在(text, audio)成对的数据上训练的,且AudioCLIP用到了AS类别信息,所以ImageBind提到AudioCLIP的指标不能算zero-shot,所以AudioCLIP的指标对ImageBind的高一点 文本召回视频 A: Audio, V:Video。 可以看到用音频和图片的联合embedding取得了最好的效果。 Few-shot能力 使用不同规模的Image Encoder 关于温度(损失函数中用于控制平衡的参数,见损失公式)$\tau$的影响

六月 26, 2023 · 1 分钟 · pan

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Title: BLIP: 引导语言-图像预训练,用于统一的视觉-语言理解和生成 作者: Junnan Li Dongxu Li Caiming Xiong Steven Hoi;Salesforce Research 发表日期:2022.2 github: https://github.com/salesforce/BLIP 该论文试图解决什么问题? 目前已经存在的VLP(Vision-Language Pre-training)模型仅仅在理解类任务(understanding-based tasks)或者生成类任务(generation-based tasks)其中一方面表现优秀。 本文主要解决问题有二。 提出BLIP,一个新的可以灵活迁移到理解类任务和生成类任务的VLP架构。 (CapFilt): 网络爬取的数据有噪声,该方法可以提升数据的质量。 Key Contributions 提出MED(ultimodal mixture of Encoder-Decoder)架构: 可以有效的多任务预训练和迁移学习。 通过三个视觉-语言目标函数实现:imagetext contrastive learning, image-text matching, and imageconditioned language modeling. 提出CapFilt(Captioning and Filtering)方法: 从有噪声的数据训练。captioner模块:输入网络爬取的图片,输出合成的文本描述(caption 任务), filter模块:从合成的图像文本对中删除质量差的数据(noisy captions). Method 模型结构 note: 颜色相同的模块共享参数 主要分为三个模块 Unimodal encoder: 单模态的encoder, 包括图像encoder, 文本encoder Image-grounded text encoder: 通过cross-attention进入视觉信息 Image-grounded text decoder: 用于生成任务 预训练目标函数 Image-Text Contrastive Loss (ITC) 作用:视觉特征空间与文本特征空间对齐(CLIP思想) 实现方式:同一个batch中配对的图像和文本是正样本,不配置的图像和文本是负样本(自已构建正负样本对)。计算cos距离后正样本打高分,负样本打低分。 Image-Text Matching Loss (ITM) 作用:捕获更细粒度的图像文本对齐特征 实现方式:网络最后接一个全连接层做一个二分类任务。note:与ITC不同 Language Modeling Loss (LM) 作用:给定图片生成描述 实现方式:交叉熵 CapFilt 先用网络爬取的数据和人类标注的数据集预训练模型。然后各自(指参数不共享)的finetune captioner模块和filter模块。...

五月 22, 2023 · 1 分钟 · Pan

BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Title: BLIP-2: 用冻结的图像编码模型和大语言模型引导文本-图像预训练 作者: Junnan Li Dongxu Li Silvio Savarese Steven Hoi;Salesforce Research 发表日期:2023.5 github: https://github.com/salesforce/LAVIS/tree/main/projects/blip2 该论文试图解决什么问题? 由于端到端的训练, 预训练视觉-语言模型代价变的非常高昂。这篇论文提出了BLIP-2, 一个通用的、有效的预训练策略: 其从现成的冻结的视觉模型和冻结的大语言模型,引导视觉-语言(vision-language)模型的预训练。该方法解决的跨模态对齐(视觉模型和LLM)问题。 应用:Instructed Zero-shot Image-to-Text Generation 先展示一下BLIP2的强大能力,这是BLIP2最亮眼的地方。 信息检索能力,利用LLM强大的知识库 事实推理能力 开放生成能力 Method 整体架构 两阶段策略,预训练一个轻量级Q-Former模块去连接两种模态的gap。 第一阶段:从一个frozen image encoder中引导vision-language表示学习(representation learning)。 第二阶段:从一个frozen LLM中引导vision-to-language的生成学习(generative learning) 第一个阶段:图片-文本表示学习(vision-language representation learning) note: Q-Former的输出维度Z(32*768)远远小于VIT-L/14(257*1024)的维度 注意三个目标self-attention mask的不同 Q-Former作用:从图片中提取与文本最相关的特征 第二个阶段:图片到文本生成学习(vision-to-language generative pre-training) Q-Former后接入一个全连接层,用于使用LLM的输入。LLM model分为两类,一个像OPT只有Decoder模块,一个像FlanT5既有Encoder又有Decoder模块。 Experiments 在各个视觉-语言任务上的zero-shot能力 zero-shot VQA 参考文献 BLIP2:下一代多模态模型的雏形 多模态学习持续梳理

五月 15, 2023 · 1 分钟 · Pan