PE Net

Title: Prototype-based Embedding Network for Scene Graph Generation 作者: Chaofan Zheng, Xinyu Lyu, Lianli Gao†, Bo Dai, Jingkuan Son 发表日期: 2023.3 一、Introduction 1.1 该论文试图解决什么问题? 许多subject-object对之间视觉外观存在多样性,导致类内方差大(intra-class variation)比如(“man-eating-pizza, giraffe-eating-leaf”);类间相似(inter-class similarity)比如(“man-holding-plate, man-eating-pizza”)。导致当前的SGG方法无法捕获关系的compact and distinctive representations,无法学习到一个完美的决策边界(perfect decision boundaries)用于关系预测。 该文提出PE-Net(Prototype-based Embedding Network)网络,该网络用原型对齐的紧凑的有区分的表示(prototype-aligned compact and distinctive representations)来对实体和关系建模。最后关系的预测在常规的embedding空间进行。PE-Net还包含两个模块,作用如下: Prototype-guided Learning (PL, 原型引导的学习): 帮助有效的学习谓词匹配 Prototype Regularization (PR):缓解由语义重叠(semantic overlap)带来的二义性谓词匹配问题 解决思路 类内(intra-class): 紧凑性(compactness) 类间(inter-class): 区别性(distinctiveness) 关于prototype的理解:比如人eating,狗eating,马eating,对于具体的实例来讲,是不一样的,但是对于eating这个含义是一样,这个共性的含义就叫prototype 1.2 Key Contributions 提出一个简单且有效的方法PE-Net,其生成compact and distinctive的实体|关系表征,然后建立实体对和关系的匹配用于关系识别。 引入Prototype-guided Learning (PL)帮助PE-Net有效的学习,设计Prototype Regularization (PR)去缓解由语义重叠造成的二义性匹配问题 在VG和Open Images上,显著提升关系识别能力,取得新的SOTA。 Method Experiments

八月 20, 2023 · 1 分钟 · pan

ADTrans

一、Introduction 1.1 该论文试图解决什么问题? 由于标注者的语言偏好和关系之间存在语义重叠导致有偏的(biased)数据标注。该论文提出ADTrans框架可以自适应的迁移有偏的关系标注(biased predicate)到更有信息量(informative)和统一的(unified)标注。 具体的,需要修正两种关系标注,(1)有语义重叠的难以区分的三语组,(2)被标注者丢弃的潜在的正样本 1.2 创新点 提出即插即用的框架ADTrans, 可以自适应的、更准确的将数据迁移到一个更informative和统一标准标签的数据。 提出一个基于原型的关系表示学习方法(prototype-based predicate representation learning method),在文本域(textual domain)和关系域(relationship domain)之间进行更合理的对齐处理。 全面综合实验表明ADTrans可以提升之前方法的性能,达到新的SOTA. 二、Method Relation Representation Extraction 通过对比学习,获取关系的表示 Semantics-prototype Learning 将数据集中的每个关系都映射到一个语义的原型空间(取均值)。 Multistage Data Filtration 偏离方差过大 Data Transfer 看样本离Semantics-prototype空间谁近 Experiments

八月 13, 2023 · 1 分钟 · pan

Openai GPT Prompt 官方教程

openai官方教程(六大策略) Six strategies for getting better results 一、Write clear instructions Include details in your query to get more relevant answers 在你的问题中包含细节,以获得更相关的答案 bad good Who’s president? Who was the president of Mexico in 2021, and how frequently are elections held? Write code to calculate the Fibonacci sequence. Write a TypeScript function to efficiently calculate the Fibonacci sequence. Comment the code liberally to explain what each piece does and why it’s written that way....

七月 31, 2023 · 14 分钟 · pan

OvarNet:Towards Open-vocabulary Object Attribute Recognition

Title: OverNet: 面向开放集目标属性识别 作者: Keyan Chen, Xiaolong Jiang, Yao Hu, Xu Tang, Yan Gao, Jianqi Chen, Weidi Xie; Beihang University, Xiaohongshu Inc, Shanghai Jiao Tong University 发表日期:2023.3 一、Introduction 1.1 该论文试图解决什么问题? 在开放词汇(open-vocabulary)场景下,同时检测目标和属性。 之前的一些方法是假设bounding box或者分割mask给定,甚至目标类别给定的前提下去做属性的识别的 1.2 Key Contributions 提出CLIP-Attr: 两阶段方法,用于开放集的目标检测和属性识别。第一阶段用RPN网络去定位候选目标位置,第二阶段识别目标类别和属性 finetune CLIP: 为了进一步提升属性和视觉表征对齐的能力。利用图像-文本对进行弱监督训练。 提出OvarNet框架:为了提升速度,蒸馏出一个类似于Faster-RCNN类型的端到端模型。 Method 整体结构如下 整体结构分为两个部分,左边:CLIP-Attr, 右边:OvarNet CLIP-Attr 一阶段(visual encoder 冻住, 训练text encoder): visual 分支:训练一个RPN网络(用coco数据集训练FasterRCNN的一阶段)用于从图片中定位目标(不需要知道类别)位置。然后输入CLIP的Visual Encoder(该部分参数是冻住的)获取每一个crop的visual representation; text分支:将类别和其父类别作为标签,然后标签的前中后分别插入10个可学习的token向量(以往的方式是hard prompt方式,比如“a photo of [zebra]”这种,作者后面有做消融实验,证明该种方式更好)。 损失:普通的BCE loss, 这里使用的训练数据是coco attribute prediction dataset 和 VAW。类别数量是固定的,此处还不是open vocabulary。 CLIP-Attr 二阶段(visual encoder, text encoder都训练): 一阶段训练得到的模型已经具有一定的能力可以将视觉表征和文本表征对齐,但是还不够且不是open vocabulary的。所以二阶段使用图像-文本对进行弱监督的对比学习。使用TextBlob将captions解析为名词短语(noun phrases)和各种属性(类别也可看着属性)。使用的损失为MIL-NCE(multi instance noise contrastive loss)。...

七月 10, 2023 · 1 分钟 · pan

SG_Improve_VLP

一、Introduction 1.1 该论文试图解决什么问题? 目前最好的视觉语言模型也很难捕获场景的结果信息,比如目标的属性、关系、行为状态等。因为对比学习更多的是关注图像中的存在的目标类别(很多工作提到该问题),忽略其他方面,比如关系、属性。本文提出SGVL,用一个小的SG数据集去finetune视觉语言模型,依次提升视觉语言模型的场景理解(关系、属性等)能力。

七月 3, 2023 · 1 分钟 · pan