ADTrans

一、Introduction 1.1 该论文试图解决什么问题? 由于标注者的语言偏好和关系之间存在语义重叠导致有偏的(biased)数据标注。该论文提出ADTrans框架可以自适应的迁移有偏的关系标注(biased predicate)到更有信息量(informative)和统一的(unified)标注。 具体的,需要修正两种关系标注,(1)有语义重叠的难以区分的三语组,(2)被标注者丢弃的潜在的正样本 1.2 创新点 提出即插即用的框架ADTrans, 可以自适应的、更准确的将数据迁移到一个更informative和统一标准标签的数据。 提出一个基于原型的关系表示学习方法(prototype-based predicate representation learning method),在文本域(textual domain)和关系域(relationship domain)之间进行更合理的对齐处理。 全面综合实验表明ADTrans可以提升之前方法的性能,达到新的SOTA. 二、Method Relation Representation Extraction 通过对比学习,获取关系的表示 Semantics-prototype Learning 将数据集中的每个关系都映射到一个语义的原型空间(取均值)。 Multistage Data Filtration 偏离方差过大 Data Transfer 看样本离Semantics-prototype空间谁近 Experiments

八月 13, 2023 · 1 分钟 · pan

HiLo: Exploiting High Low Frequency Relations for Unbiased Panoptic Scene Graph Generation

一、Introduction 任务定义 SGG: 给定一张图片,抽取三元组:主体(subjects)、客体(objects)、关系(relations)。其中主体、客体用bounding box框出来 PSG: SGG是用bounding box将主体、客体标出来,PSG用全景分割(panoptic segmentation)来替代bounding box 1.1 该论文试图解决什么问题? 以往的scene graph generation任中,关系存在长尾问题,本文提出HiLo架构可以有效解决该问题。 1.2 以往方法存在的问题 关系的类别有一个长尾效应问题,以往的方法更倾向于预测高频的关系(成为biasd methods) 主体-客体对的关系存在语义重叠(有多种语义关系),以往的方法倾向于只预测一种 二、Method 2.1 biased & unbiased method biased方法:指经过统计,有些关系出现的次数是远远高于其他关系的,那么模型在预测的时候会倾向于高频关系的预测,具有这种特性的方法称为biased method。 以下是biased method、unbiased method和本文的方法预测的差异 biased method: 预测的结果是向looking at、 beside这种常见的高频的关系 unbiased method: 预测的结果主要的是向chasing、playing这类低频的词 HiLo:既有低频的关系也有高频关系 2.2 overview 整体结构如下(还是比较复杂的) 先看中间的结构,该结构来自于mask2former,mask2former的思想又来自于maskfomer和DETR,所以想要清楚的了解该结构,需要把这3篇论文看一下。下面只是简述。 图(b)解释 该网络结构分为上下两个分支,其中上面(H-L)部分用于预测低频关系,下面(L-H)部分用预测高频关系。 Triplet Query: 源自DETR,相当于可学习的位置编码;固定数量(mask2former中取100);经过decoder后和Pixel Decoder得到的feature相乘,得到N个mask Task Heads: 这里需要产生3个类别(subject、object、related)的预测,网络结构:three linear classifiers ;2个mask(subject和object的mask)的预测, 网络结构:2个MLP后得到的embeding与feature相乘得到mask Masked relation attention: 该结果没有出现在图中,但是这个mask attention是mask2former相较于maskformer最大的创新点,核心思想就是在计算注意力事,每个object只和做注意力计算,而不是和全图做注意力 该处loss如下: $$L_{baseline}=\lambda_1 \cdot L_{so_{cls}}+ \lambda_2 \cdot L_{so_mask}+ \lambda_2 \cdot L_{re\_{cls}}$$...

六月 5, 2023 · 1 分钟 · pan