Updates

2025.12.14: 添加Qwen3-VL工作整理
2025.03.12: 完成Qwen-VL、Qwen2-VL、Qwen2.5-VL系列工作梳理

Qwen3-VL

随着2025.5 qwen3发布后，社区就一直期待Qwen3-VL的发布，直到9月底Qwen3-VL终于发布且开源。technical report 到11月底才发布。这一年大家都在做推理模型，qwen3也不例外，一开始发布的模型是一个模型同时支持thinking和non-thinking，后来7月份又拆开分为两个模型。可见大公司在技术方向的选择也出现的分歧。 Qwen3-VL相对于Qwen2.5-VL改变还是比较大的。首先在模型尺寸上就有最大的Qwen2.5-VL-72B来到了Qwen3-VL-235B-A22B。Qwen2.5-VL-72B是不支持thinking的（指的是没有使用RL）。Qwen3-VL-235B-A22B包含thinking和non-thinking两个版本。在模型架构上位置编码由MRoPE改进到interleaved-MRoPE，解决位置编码中宽、高、时间三个维度频率不平衡问题（时间在高维度，低频段，导致长视频任务效果变差）；虽然还是经典的Vision-LLM-Adapter架构，但是vision特征和LLM特征不是简单的拼接了，而是做了提出vison不同层级的特征和LLM做特征融合；与绝对时间对齐的position id也变成了文本方式去表示时间（同seed1.5-VL）。在任务数量上也做了不少的扩充，如agent能力等。上下文长度上也由32k增加到256k（原生支持，不是通过YaRN等扩展位置编码，可扩展至1M）。

Qwen-VL、Qwen2-VL、Qwen2.5-VL

目前在多模大模型领域，学术界、工业界一般使用LLaVA系列模型或者Qwen-VL系列模型作为基底模型，然后再根据自已的研究方向或者自已公司业务做SFT。如果需要中文的支持，那用Qwen作为基底模型是更合适的。Qwen-VL，也就是Qwen的第一个版本，在2023.10月就发布了。我特地查了一下BLIP模型早在2022.2月就发布了，我大概在2023年8、9月开始基于InstructBLIP(发表于2023.5)和LLaVA（发表于2023.4），基于公司的业务需要做了一些探索。虽然在一些场景下，可以满足公司业务一定的需要，但是里真正的商用还是有一定的距离。现在，眼看着AGI的临近（可能有点乐观了，但是在很多任务上超过传统的模型，还是可以的），QWen也更新到2.5版本，国内再加上DeepSeek的加持，多模领域在未来两年一定会是大家关注的热点，所以我最近把Qwen-VL、Qwen2-VL、Qwen2.5-VL系列工作重新梳理了一下，以供参考。整体脉络如下。详细的论文阅读笔记见我的飞书文档： Qwen-VL系列论文解析

Qwen系列概览

Updates#

Qwen3-VL#

Qwen-VL、Qwen2-VL、Qwen2.5-VL#

Updates

Qwen3-VL

Qwen-VL、Qwen2-VL、Qwen2.5-VL