MME

Title: MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models 作者: Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin1Zhenyu Qiu, Wei Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Rongrong Ji; Tencent Youtu Lab , Xiamen University 发表日期: 2023.7 项目主页:MME Note: 项目主页加入了新的多模模型,得分已经远远超过论文的那个几个模型 一、Introduction 缩写 LLM: Large Language Model MLLM: Multimodal Large Language Model LLM 三个代表性的能力: In-Context Learning(ICL), instruction following, Chain-of-Thought (CoT) 1.1 该论文试图解决什么问题? 多模模型缺乏一个全面的评估benchmark,该论文首次提出多模大模型的评估benchmark MME。在14个子任务上度量多模大模型的感知和认知能力。...

九月 8, 2023 · 1 分钟 · pan

Efficient Training

对于模型的训练,训练的速度和显存的占用是必须要考虑的两个因素,特别是现在模型越来越大。1.4B的模型,在32GB的GPU上训练就会OOM。更别提现在动不动就几百B甚至上千B的模型。所以分析那些因素对模型的训练速度和显存的占用是十分必要的。 显存占用分析(训练阶段) 在训练阶段,显存被如下组件占用 model weights optimizer states gradients forward activations saved for gradient computation temporary buffers functionality-specific memory 在ZeRO中model weights、optimizer states、gradients被称为模型状态(model states), 剩下的被称为剩余状态(residual states) 具体的计算如下(参数量假设为1) model weights 4 bytes : fp32 training 6 bytes : mixed precision training(即需要保存一个float32参数,又需要保存一个float16参数) Optimizer States 8 bytes:对于大模型优化器一般为AdamW(包含一阶梯度和二阶梯度,所以对于一个参数,优化器占用8个比特) 2 bytes:8-bit AdamW optimizer 4 bytes:SGD with momentum Gradients 4 bytes: fp32 or mixed precision training (注:对于混合精度训练,一个参数的梯度,ZeRO论文任务是2 bytes(float16), Hugging face中认为梯度一般是4 bytes(float32)。)。所以这里不太确定,获取两种计算方式都是正确的(由框架实现决定) 所以,如果使用混合精度训练,一个参数,需要消耗18个bytes(6+8+4)(ZeRO认为16个bytes) 减少显存使用和提升训练速度的tricks Method Speed Memory 备注 Gradient accumulation No Yes Gradient checkpointing No Yes Mixed precision training Yes (No) 不太严谨 Batch size Yes Yes Optimizer choice Yes Yes DataLoader Yes No DeepSpeed Zero No Yes 必要的解释...

八月 28, 2023 · 1 分钟 · pan

PE Net

Title: Prototype-based Embedding Network for Scene Graph Generation 作者: Chaofan Zheng, Xinyu Lyu, Lianli Gao†, Bo Dai, Jingkuan Son 发表日期: 2023.3 一、Introduction 1.1 该论文试图解决什么问题? 许多subject-object对之间视觉外观存在多样性,导致类内方差大(intra-class variation)比如(“man-eating-pizza, giraffe-eating-leaf”);类间相似(inter-class similarity)比如(“man-holding-plate, man-eating-pizza”)。导致当前的SGG方法无法捕获关系的compact and distinctive representations,无法学习到一个完美的决策边界(perfect decision boundaries)用于关系预测。 该文提出PE-Net(Prototype-based Embedding Network)网络,该网络用原型对齐的紧凑的有区分的表示(prototype-aligned compact and distinctive representations)来对实体和关系建模。最后关系的预测在常规的embedding空间进行。PE-Net还包含两个模块,作用如下: Prototype-guided Learning (PL, 原型引导的学习): 帮助有效的学习谓词匹配 Prototype Regularization (PR):缓解由语义重叠(semantic overlap)带来的二义性谓词匹配问题 解决思路 类内(intra-class): 紧凑性(compactness) 类间(inter-class): 区别性(distinctiveness) 关于prototype的理解:比如人eating,狗eating,马eating,对于具体的实例来讲,是不一样的,但是对于eating这个含义是一样,这个共性的含义就叫prototype 1.2 Key Contributions 提出一个简单且有效的方法PE-Net,其生成compact and distinctive的实体|关系表征,然后建立实体对和关系的匹配用于关系识别。 引入Prototype-guided Learning (PL)帮助PE-Net有效的学习,设计Prototype Regularization (PR)去缓解由语义重叠造成的二义性匹配问题 在VG和Open Images上,显著提升关系识别能力,取得新的SOTA。 Method Experiments

八月 20, 2023 · 1 分钟 · pan

ADTrans

一、Introduction 1.1 该论文试图解决什么问题? 由于标注者的语言偏好和关系之间存在语义重叠导致有偏的(biased)数据标注。该论文提出ADTrans框架可以自适应的迁移有偏的关系标注(biased predicate)到更有信息量(informative)和统一的(unified)标注。 具体的,需要修正两种关系标注,(1)有语义重叠的难以区分的三语组,(2)被标注者丢弃的潜在的正样本 1.2 创新点 提出即插即用的框架ADTrans, 可以自适应的、更准确的将数据迁移到一个更informative和统一标准标签的数据。 提出一个基于原型的关系表示学习方法(prototype-based predicate representation learning method),在文本域(textual domain)和关系域(relationship domain)之间进行更合理的对齐处理。 全面综合实验表明ADTrans可以提升之前方法的性能,达到新的SOTA. 二、Method Relation Representation Extraction 通过对比学习,获取关系的表示 Semantics-prototype Learning 将数据集中的每个关系都映射到一个语义的原型空间(取均值)。 Multistage Data Filtration 偏离方差过大 Data Transfer 看样本离Semantics-prototype空间谁近 Experiments

八月 13, 2023 · 1 分钟 · pan

Openai GPT Prompt 官方教程

openai官方教程(六大策略) Six strategies for getting better results 一、Write clear instructions Include details in your query to get more relevant answers 在你的问题中包含细节,以获得更相关的答案 bad good Who’s president? Who was the president of Mexico in 2021, and how frequently are elections held? Write code to calculate the Fibonacci sequence. Write a TypeScript function to efficiently calculate the Fibonacci sequence. Comment the code liberally to explain what each piece does and why it’s written that way....

七月 31, 2023 · 14 分钟 · pan