PINK: UNVEILING THE POWER OF REFERENTIAL COMPREHENSION FOR MULTI-MODAL LLMS

Title: PINK: UNVEILING THE POWER OF REFERENTIAL COMPREHENSION FOR MULTI-MODAL LLMS 作者: Shiyu Xuan 发表日期: 2023-10-01 一、Introduction 背景知识 Referring:识别图片中具体的目标类别(包括给定point、bounding box、mask等) Grounding:给定文本描述,输出bounding box 简单来讲,Referring是给定坐标,输出文本(类别或者描述);Grounding是给定文本,输出坐标 1.1 该论文试图解决什么问题? 大部分的MLLM缺乏指代能力(Referential Comprehension (RC)),这篇提出一个新方法增强MLLM的RC能力。这篇文章中RC即包括Referring能力也包括Grounding能力 1.2 Key Contributions 提出pink增加MLLM的RC能力 用设计的各种RC任务,以一个低成本的方式构建质量微调数据集。为了进一步提升模型RC能力,提出自一致提升方法(self-consistent bootstrapping )扩展一个数据集的dense object annotations到高质量的referring-expression-bounding-box pair。 端到端训练框架,两个模态从指令微调中都收益(视觉、LLM加入了可学习参数,Adapter) SOTA(在某些方面比Kosmos-2还强) 介绍中的要点 传统VQA和RC的区别 传统的VQA是image-level的, RC VQA是更细粒度的 Method 整体架构 右边的self-consistent bootstrapping包括两步(1)grounding caption: 给定框生成caption,(2)visual grounding: 给定caption预测框 左边的模型结构包括visual encoder,projection layer,decoder-only LLM。 Training Pipeline:(1)第一阶段:只训练projection layer;(2)第二阶段:冻结e visual encoder和LLM。 训练新添加的Adapters参数(viusal encoder和LLM都会新加一些参数)和projection layer 指令微调数据集构建 设计的RC task包括如下(前3个是已经存在工作的方法,后面的是作者后设计的) visual relation reasoning visual spatial reasoning PointQA Visual Relation Reasoning Coarse Visual Spatial Reasoning:define four coarse spatial positions as top-left, top-right, bottom-left, and bottom-right....

十一月 12, 2023 · 1 分钟 · pan

MMICL

Title: 作者: 发表日期: 一、Introduction 1.1 该论文试图解决什么问题? LLM可以通过in-context learning利用背景信息和任务信息,然而,VLM还很难理解多张图片的多模prompt。之前的很多工作只能处理单张图片,尽管已经存在可以处理多张图片的多模模型,但是其预训练数据的prompt不够老练(sophisticated)。本文提出MMICL, 从模型设计和数据两个方面去解决这个问题(训练的数据和真实应用场景的数据存在gap)。 这个gap表现为: 图片和文本交错的多模上下文 图片的文本指代 多模数据存在空间、逻辑、时间关系 当前VLM存在的现状 Hard to Understand Complex Prompt With Multiple Images and Text 难以理解包含多张图片且图片与文本相互交错的复杂问题。虽然Flamingo可以处理多张图片,但是其预训练数据的prompt不过老练(sophisticated) Hard to Understand Text-to-Image Reference 很难理解问题问的哪张图片 Hard to Understand the Relationships between Multiple Images 之前用的训练数据是从网上爬取的,虽然来自同一个页面,但是图片间的联系可能是比较弱的。图片之间缺乏联系(interconnected)阻碍VLM理解多张图片之间的复杂关系(空间、时间、逻辑关系),其进一步限制了模型的推理能力和few-shot能力 1.2 Key Contributions 提出方法MMICL, 可以有效的处理多模输入(包括多张图片的关系和文本到图片的指代) 提出新的上下文方案(an extra image declaration section and image proxy tokens)增强VLM的上写文学习能力 构建MIC(Multi-modal In-Context)数据集 此外,MMICL可以缓解语言的偏见(language bias),广泛语境下language bias会导致幻觉问题 Method Experiments

十月 15, 2023 · 1 分钟 · pan

Flamingo

Title: Flamingo: a Visual Language Model for Few-Shot Learning 作者: Jean-Baptiste Alayrac, Jeff Donahue 发表日期: 2022.11 一、Introduction 1.1 该论文试图解决什么问题? 多模领域的few-shot问题 1.2 Key Contributions 提出Flamingo模型,通过几个示例就可执行各种多模任务。由于架构的创新,Flamingo可以处理随意的图片(可以多张图片)和文本 通过few-shot学习,定量评估Flamingo是如何迁移到其他各种任务的 通过few-shot学习,Flamingo在16任务中的6个任务(6个人任务是finetune过的)取到SOTA。Flamingo可以在其他数据集上通过fine-tune取到SOTA。 Method Flamingo架构总览如下图 从图中可以看到Flamingo架构有两个关键点组件,Perceiver Resampler和Gated XATTN-DENSE Perceiver Resampler: 任意数量的图片或者视频经过视觉模型编码后,再通过Pereiver Resampler输出固定数量的visual tokens。注:该模块决定了Flamingo可以处理多张图片的能力(即具有few-shot的能力) Gated XATTN-DENSE: 主要是指cross attention的基础加入门机制(tanh(a), a初始化为0),可以提升性能和训练的稳定性 Visual processing and the Perceiver Resampler Perceiver Resampler示意图如下,学习DETR的query机制,有几个query,输出就是几个visual token(论文中为5) Conditioning frozen language models on visual representations 在Transformer中的cross attention的基础加入门机制 Multi-visual input support: per-image/video attention masking 网络上爬取的文档是图片和文本交错的信息。该模块是用来控制当前文本token可以注意到的图片(离当前文本token最近的上一个图片) Training on a mixture of vision and language datasets Flamingo训练采用了三个数据集:...

九月 24, 2023 · 1 分钟 · pan

MME

Title: MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models 作者: Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin1Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Rongrong Ji; Tencent Youtu Lab , Xiamen University 发表日期: 2023.7 项目主页:MME Note: 项目主页加入了新的多模模型,得分已经远远超过论文的那个几个模型 一、Introduction 缩写 LLM: Large Language Model MLLM: Multimodal Large Language Model LLM 三个代表性的能力: In-Context Learning(ICL), instruction following, Chain-of-Thought (CoT) 1.1 该论文试图解决什么问题? 多模模型缺乏一个全面的评估benchmark,该论文首次提出多模大模型的评估benchmark MME。在14个子任务上度量多模大模型的感知和认知能力。...

九月 8, 2023 · 1 分钟 · pan

PE Net

Title: Prototype-based Embedding Network for Scene Graph Generation 作者: Chaofan Zheng, Xinyu Lyu, Lianli Gao†, Bo Dai, Jingkuan Son 发表日期: 2023.3 一、Introduction 1.1 该论文试图解决什么问题? 许多subject-object对之间视觉外观存在多样性,导致类内方差大(intra-class variation)比如(“man-eating-pizza, giraffe-eating-leaf”);类间相似(inter-class similarity)比如(“man-holding-plate, man-eating-pizza”)。导致当前的SGG方法无法捕获关系的compact and distinctive representations,无法学习到一个完美的决策边界(perfect decision boundaries)用于关系预测。 该文提出PE-Net(Prototype-based Embedding Network)网络,该网络用原型对齐的紧凑的有区分的表示(prototype-aligned compact and distinctive representations)来对实体和关系建模。最后关系的预测在常规的embedding空间进行。PE-Net还包含两个模块,作用如下: Prototype-guided Learning (PL, 原型引导的学习): 帮助有效的学习谓词匹配 Prototype Regularization (PR):缓解由语义重叠(semantic overlap)带来的二义性谓词匹配问题 解决思路 类内(intra-class): 紧凑性(compactness) 类间(inter-class): 区别性(distinctiveness) 关于prototype的理解:比如人eating,狗eating,马eating,对于具体的实例来讲,是不一样的,但是对于eating这个含义是一样,这个共性的含义就叫prototype 1.2 Key Contributions 提出一个简单且有效的方法PE-Net,其生成compact and distinctive的实体|关系表征,然后建立实体对和关系的匹配用于关系识别。 引入Prototype-guided Learning (PL)帮助PE-Net有效的学习,设计Prototype Regularization (PR)去缓解由语义重叠造成的二义性匹配问题 在VG和Open Images上,显著提升关系识别能力,取得新的SOTA。 Method Experiments

八月 20, 2023 · 1 分钟 · pan