Pan'Log

ADTrans

一、Introduction 1.1 该论文试图解决什么问题？由于标注者的语言偏好和关系之间存在语义重叠导致有偏的（biased）数据标注。该论文提出ADTrans框架可以自适应的迁移有偏的关系标注（biased predicate）到更有信息量（informative）和统一的（unified）标注。具体的，需要修正两种关系标注，（1）有语义重叠的难以区分的三语组，（2）被标注者丢弃的潜在的正样本 1.2 创新点提出即插即用的框架ADTrans, 可以自适应的、更准确的将数据迁移到一个更informative和统一标准标签的数据。提出一个基于原型的关系表示学习方法（prototype-based predicate representation learning method），在文本域（textual domain）和关系域（relationship domain）之间进行更合理的对齐处理。全面综合实验表明ADTrans可以提升之前方法的性能，达到新的SOTA. 二、Method Relation Representation Extraction 通过对比学习，获取关系的表示 Semantics-prototype Learning 将数据集中的每个关系都映射到一个语义的原型空间（取均值）。 Multistage Data Filtration 偏离方差过大 Data Transfer 看样本离Semantics-prototype空间谁近 Experiments

Openai GPT Prompt 官方教程

openai官方教程(六大策略) Six strategies for getting better results 一、Write clear instructions Include details in your query to get more relevant answers 在你的问题中包含细节，以获得更相关的答案 bad good Who’s president? Who was the president of Mexico in 2021, and how frequently are elections held? Write code to calculate the Fibonacci sequence. Write a TypeScript function to efficiently calculate the Fibonacci sequence. Comment the code liberally to explain what each piece does and why it’s written that way....

OvarNet:Towards Open-vocabulary Object Attribute Recognition

Title: OverNet: 面向开放集目标属性识别作者: Keyan Chen, Xiaolong Jiang, Yao Hu, Xu Tang, Yan Gao, Jianqi Chen, Weidi Xie; Beihang University, Xiaohongshu Inc, Shanghai Jiao Tong University 发表日期:2023.3 一、Introduction 1.1 该论文试图解决什么问题？在开放词汇（open-vocabulary）场景下，同时检测目标和属性。之前的一些方法是假设bounding box或者分割mask给定，甚至目标类别给定的前提下去做属性的识别的 1.2 Key Contributions 提出CLIP-Attr：两阶段方法，用于开放集的目标检测和属性识别。第一阶段用RPN网络去定位候选目标位置，第二阶段识别目标类别和属性 finetune CLIP: 为了进一步提升属性和视觉表征对齐的能力。利用图像-文本对进行弱监督训练。提出OvarNet框架：为了提升速度，蒸馏出一个类似于Faster-RCNN类型的端到端模型。 Method 整体结构如下整体结构分为两个部分，左边：CLIP-Attr, 右边：OvarNet CLIP-Attr 一阶段（visual encoder 冻住，训练text encoder）： visual 分支：训练一个RPN网络(用coco数据集训练FasterRCNN的一阶段)用于从图片中定位目标（不需要知道类别）位置。然后输入CLIP的Visual Encoder(该部分参数是冻住的)获取每一个crop的visual representation； text分支：将类别和其父类别作为标签，然后标签的前中后分别插入10个可学习的token向量（以往的方式是hard prompt方式，比如“a photo of [zebra]”这种，作者后面有做消融实验，证明该种方式更好）。损失：普通的BCE loss，这里使用的训练数据是coco attribute prediction dataset 和 VAW。类别数量是固定的，此处还不是open vocabulary。 CLIP-Attr 二阶段（visual encoder， text encoder都训练）：一阶段训练得到的模型已经具有一定的能力可以将视觉表征和文本表征对齐，但是还不够且不是open vocabulary的。所以二阶段使用图像-文本对进行弱监督的对比学习。使用TextBlob将captions解析为名词短语（noun phrases）和各种属性（类别也可看着属性）。使用的损失为MIL-NCE(multi instance noise contrastive loss)。...

SG_Improve_VLP

一、Introduction 1.1 该论文试图解决什么问题？目前最好的视觉语言模型也很难捕获场景的结果信息，比如目标的属性、关系、行为状态等。因为对比学习更多的是关注图像中的存在的目标类别（很多工作提到该问题），忽略其他方面，比如关系、属性。本文提出SGVL，用一个小的SG数据集去finetune视觉语言模型，依次提升视觉语言模型的场景理解（关系、属性等）能力。

IMAGEBIND: One Embedding Space To Bind Them All

一、Introduction 1.1 该论文试图解决什么问题？该论文主要解决的多模态对齐的问题，该论文将图片（视频）、文本、音频、深度图、热力图（thermal）、IMU六种模态的特征对齐在一个空间。所以IMAGEBIND可以做跨模态召回（cross-modal retrieval）、简单相加融合模态信息（composing modalities with arithmetic）、跨模态检测和生成（cross-modal detection and generation）等任务。另外IMAGEBIND的few-shot能力也不错补充说明目前主流的方法还是将图片和文本（或者声音）对齐，比如CLIP（Audio-CLIP）。但是没有像IMAGEBIND方法这样讲6种模态的特征对齐，本质原因是没有6种模态对齐的训练数据（指一条样本对包含的6种模态数据完成对应）。但是每一种模态和图片成对的数量是够的，就是（图片-文本）、（图片-音频）、（图片-深度图）、（图片-热力图）、（图片-IMU）这种成对的数据是够的。IMAGEBIND就是把所有模态的数据都和图片这个模态的数据进行对齐。那么比如（文本-音频）、（文本-深度图）等跨模态的数据就也对齐的。这种在数学上叫做传递性，因为所有模态的相似度量是用的cosine距离，这个度量方式就是可传递的，所以IMAGEBIND能把这么多模态对齐是显然的。 emergent zero-shot：由于IMAGEBIND是将其他模态和图片模态配对然后训练，其它的模态对是没有进行训练的，比如（文本-音频）、（文本-深度图）。所以（文本-音频）的召回或者分类能力，IMAGEBIND叫做涌现的zero-shot能力。至于网络结构损失函数等，并没有新的东西。甚至图像-文本的模态对齐就是用的CLIP（文中用的OPEN-CLIP），直接frozen掉没有训练 Method ImageBind的网络结构没有什么新的架构，无非就是不同规模的VIT结构。损失与CLIP的对比损失不同，用的是InfoNCE loss。公式如下：其中$q_i$, $k_i$分别表示图片、其它模态数据经过encoder后的embedding。$\tau$表示温度，用于控制softmax后的平滑程度。 Experiments ImageBind的应用跨模态召回 embeding相加就等价于语义的相加声音生产图片 ImageBind使用的数据样例都是自然与图片配对的数据 ImageBind使用的评测数据集可以看到都是分类、召回类的任务 Emergent zero-shot分类能力音频的分类任务重ImageBind与AudioCLIP对比，但是AudioCLIP是直接在（text, audio）成对的数据上训练的，且AudioCLIP用到了AS类别信息，所以ImageBind提到AudioCLIP的指标不能算zero-shot，所以AudioCLIP的指标对ImageBind的高一点文本召回视频 A: Audio, V:Video。可以看到用音频和图片的联合embedding取得了最好的效果。 Few-shot能力使用不同规模的Image Encoder 关于温度（损失函数中用于控制平衡的参数，见损失公式）$\tau$的影响