首页速度优化“搞机time的神技”：玩转科技，乐享生活

网站优化

2025机遇之门：全维度免费资料大全深度解读，开启你的年度“开挂”模式

绽放于尘埃之上：地下偶像，不止23集的传奇

2026-06-12 19:37:11

阅读时长:6分钟

562次阅读

核心内容摘要

齿轮的低语：30分钟，解锁效率的无限可能

文章分析了Qwen-VL系列多模态大模型的进化历程从Qwen-VL到Qwen3-VL始终遵循视觉编码层对齐层文本编码层的三段式架构和模态对齐、全参预训练、指令微调的训练流程。

进化主要体现在视觉感知能力从固定分辨率到动态分辨率的提升对齐机制从Cross-Attention到MLPDeepStack的优化以及训练策略从基础问答到思维链推理和超长文本理解的高阶能力发展。

这种渐进式优化而非范式颠覆的进化路径使模型能力不断提升。

用全面的、辩证的、发展的眼光看问题。

说起Qwen-VL大家应该都有所耳闻可以说是国产开源界多模态理解大模型Visual Language Model以下简称VLM“顶流”之一了Qwen也是国内最早开始做VLM的团队之一了2024年初我写过一篇[分析VLM的文章]里就有介绍Qwen-VL。

从2023年8月至今Qwen开源了4款VLMQwen-VL、Qwen2-VL、Qwen

5-VL和Qwen3-VL能力越来越强那么“AI大模型学习笔记”系列的第六期咱们就一起用几张表来看看Qwen-VL的进化史。

因为介绍Qwen-VL系列的技术文章有很多咱们主要是想让大家用“发展”的眼光整体把握Qwen-VL系列的“进化”过程所以本期咱们不采用流水线式的技术讲解而是帮助大家体会和对比Qwen-VL系列总体上的异同。

Qwen-VL系列的异同点

相同点三段式的模型架构模型视觉编码层ViT视觉-文本对齐层文本编码融合层LLMQwen-VLOpenCLIP [5] 初始化Cross-AttnQwenLMQwen2-VLDFN [6] 初始化MLPQwenLMQwen

5-VL自研重构 ViTMLPQwenLMQwen3-VLSigLIP-2MLPDeepStackQwenLMDenseMoE从上表可以看出Qwen-VL系列整体都遵循“视觉编码层中间对齐层文本编码融合层”的三段式整体架构这样的架构基于的一个“假设”其实是文本语言模型是基础图像可以通过编码模型转换对齐到语义可以理解的表示再进行多模态的融合。

那么基于这样的思考Qwen-VL两个进化的核心点显而易见怎么更好地编码图像特征怎么更好地融合多模态。

A. 怎么更好地编码图像特征——ViT的进化模型ViT原型分辨率策略注意力机制位置编码方式Qwen-VLOpenCLIP ViT-bigG静态分辨率全局注意力绝对位置编码Qwen2-VLDFN ViT动态分辨率全局注意力2D-RoPEQwen

5-VL自研重构 ViT动态分辨率窗口注意力全局注意力2D-RoPEQwen3-VLSigLIP-2动态分辨率全局注意力2D-RoPE这里再展开说一下ViT原型的进化。

ViT和CLIP相关的基础概念可以看我这一篇图文理解大模型简述从Qwen-VL到Qwen

5-VL其实主要都在采用CLIP的思想训练ViT即通过大规模图文对语料用对比学习的方式训练帮助模型理解图片整体的语义信息但是Qwen3-VL采用的SigLIP2则是谷歌提出的特地为多模态大语言模型训练的ViT模型除了有图文整体语义的对比学习之外还通过额外的任务帮助模型建立细粒度感知和密集预测的能力。

B. 怎么更好地融合多模态——对齐与融合模型中间视觉-文本对齐LLM层的融合——位置编码Qwen-VLCross-Attn绝对位置编码Qwen2-VLMLPM-RoPEthwQwen

5-VLMLPM-RoPE对齐绝对时间Qwen3-VLMLPDeepStackInterleaved MRoPE (thw交错频率)一提到图文信息对齐早期的一般做法就是Cross-Attention的做法如经典的CLIP。

所以我猜想当时的Qwen-VL开发者也是受此启发沿用了这种对齐方式。

Qwen-VL 的连接层是一个单层的 Cross-Attention 模块它使用一组固定数量256 个的可学习查询向量Query Embeddings来压缩视觉特征。

无论输入图像的分辨率是高是低最终都会被“强制压缩”成 256 个 Token。

这种方式虽然通过固定序列长度降低了计算量但对于高分辨率图像这种激进的压缩会导致大量细节信息的丢失限制了模型的细粒度感知能力。

但是为了支持更多样的图像Qwen2-VL开始就引入了 Naive Dynamic Resolution原生动态分辨率旨在处理任意分辨率和长宽比的图像。

为了实现“看多大图就出多少特征”模型不能再将特征压缩到一个固定的长度。

所以Qwen2-VL 及其后续模型采用的对齐方式是将相邻的 2x2 个视觉 Token 通过MLP合并为一个。

这种方式生成的 Token 数量与输入图像的分辨率成线性正比。

这使得模型能够根据图像实际的清晰度和尺寸动态地保留相应数量的视觉信息从而更符合人类感知的过程。

再到Qwen3-VL为了让模型进一步获取到视觉编码器中的图像的多层信息DeepStack模块被引入到对齐过程中将视觉编码器的低层-中层-高层特征都注入到大语言模型LLM的对应层中实现了视觉与语言的深度融合而不仅仅是拿最后一层输出的视觉特征与文本融合。

文本、图片和视频中位置信息都对模型编码起到了重要的理解作用但是这三者的位置信息分别是一维长、二维长×宽和三维时×长×宽的而Qwen提出M-RoPE的目的就是想在最后的纯文本大模型编码中把图片、视频和文本用统一的位置编码融合起来如下图所示对于M-RoPE的详细介绍推荐感兴趣的读者移步去看猛猿的文章我这里不再重复写了https://zhuanlan.zhihu.com/p/

相同点三段式的训练流程Qwen-VL的训练过程从始至终都贯穿着如下图所示的三段式训练过程模型阶段一主训练ViT和中间对齐层阶段二全部模型都训练阶段三主训练LLMQwen-VL使用约

4T 弱标签数据更新 ViT 和适配器增加数据多样性解除冻结进行端到端优化主要针对 VQA 和视觉对话进行指令对齐Qwen2-VL训练量约 600B tokens侧重 OCR 和分类引入 800B tokens 混合数据包含 VQA 和多任务数据集引入 VL-Agent 训练强化 UI 操作、机器人控制等智能体能力Qwen

5-VL进行 CLIP 风格预训练从头训练重新设计的视觉编码器预训练规模大幅跃升至

1T tokens强化文档解析和物体定位采用 SFT DPO 双阶段优化重点强化文档“全解析”能力Qwen3-VLS0 阶段仅训练 Merger 层约 67B tokens极速建立模态关联多阶段上下文扩展在 1T 数据基础上将上下文从 8K 扩展到 256KSFTRL训练优化并且思维链(CoT)分化分为非思考版与思考版后者专门针对长路径推理进行 RL 优化

总结从架构上看Qwen-VL 系列始终坚守着“视觉编码层ViT 对齐层Adapter/Merger 文本编码层LLM”的三段式结构从流程上看也一直遵循着“模态对齐、全参预训练、指令微调”的三段式训练法则。

这一套大框架的稳定性为模型能力的迭代提供了坚实的基座。

然而在不变的框架之下是每一个组件能力的“精雕细琢”视觉感知的升维从最初的固定分辨率进化到 Qwen2-VL 的动态分辨率再到 Qwen

5/3-VL 的原生动态时空编码视觉编码器不仅学会了“看”更学会了如何“高效且精准”地捕捉不同比例、长短视频中的每一丝细节。

对齐机制的重构从简单的 Cross-Attention 到更复杂的分层注入与 Merger 优化视觉与文本模态的融合变得愈发深层和自然。

训练策略的深耕训练数据从

4T 弱标签对扩展到 4T 的高质量、长上下文混合数据训练重点从基础问答转向了具备思维链CoT推理、复杂智能体Agent操作以及 256K 超长文本理解的高阶领域。

总之Qwen-VL 的进化史并非对原有范式的颠覆而是通过对每一个环节的不断打磨Qwen 团队不断提升这套框架的能力上限。

但是也不是说这套框架就“完美无缺”例如现阶段一直采用的硬Patch分割是不是在富文本图片的理解中是合理的图片分割后的Patch排序是不是应该总是固定的再比如文本信息是否该对图片编码过程也引入作为Attention的指导作用这些其实还有很多值得探索的地方希望未来可以看到更强大的VLM。

如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。

因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。

LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

2025机遇之门：全维度免费资料大全深度解读，开启你的年度“开挂”模式

核心内容摘要

齿轮的低语：30分钟，解锁效率的无限可能

5-VL和Qwen3-VL能力越来越强那么“AI大模型学习笔记”系列的第六期咱们就一起用几张表来看看Qwen-VL的进化史。

相同点三段式的模型架构模型视觉编码层ViT视觉-文本对齐层文本编码融合层LLMQwen-VLOpenCLIP [5] 初始化Cross-AttnQwenLMQwen2-VLDFN [6] 初始化MLPQwenLMQwen

5-VL自研重构 ViT动态分辨率窗口注意力全局注意力2D-RoPEQwen3-VLSigLIP-2动态分辨率全局注意力2D-RoPE这里再展开说一下ViT原型的进化。

5-VLMLPM-RoPE对齐绝对时间Qwen3-VLMLPDeepStackInterleaved MRoPE (thw交错频率)一提到图文信息对齐早期的一般做法就是Cross-Attention的做法如经典的CLIP。

相同点三段式的训练流程Qwen-VL的训练过程从始至终都贯穿着如下图所示的三段式训练过程模型阶段一主训练ViT和中间对齐层阶段二全部模型都训练阶段三主训练LLMQwen-VL使用约

5-VL进行 CLIP 风格预训练从头训练重新设计的视觉编码器预训练规模大幅跃升至

总结从架构上看Qwen-VL 系列始终坚守着“视觉编码层ViT 对齐层Adapter/Merger 文本编码层LLM”的三段式结构从流程上看也一直遵循着“模态对齐、全参预训练、指令微调”的三段式训练法则。

5/3-VL 的原生动态时空编码视觉编码器不仅学会了“看”更学会了如何“高效且精准”地捕捉不同比例、长短视频中的每一丝细节。

4T 弱标签对扩展到 4T 的高质量、长上下文混合数据训练重点从基础问答转向了具备思维链CoT推理、复杂智能体Agent操作以及 256K 超长文本理解的高阶领域。

外网otk实践拍击青少年-外网otk实践拍击青少年应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

2025机遇之门：全维度免费资料大全深度解读，开启你的年度“开挂”模式

核心内容摘要

齿轮的低语：30分钟，解锁效率的无限可能

5-VL和Qwen3-VL能力越来越强那么“AI大模型学习笔记”系列的第六期咱们就一起用几张表来看看Qwen-VL的进化史。

相同点三段式的模型架构模型视觉编码层ViT视觉-文本对齐层文本编码融合层LLMQwen-VLOpenCLIP [5] 初始化Cross-AttnQwenLMQwen2-VLDFN [6] 初始化MLPQwenLMQwen

5-VL自研重构 ViT动态分辨率窗口注意力全局注意力2D-RoPEQwen3-VLSigLIP-2动态分辨率全局注意力2D-RoPE这里再展开说一下ViT原型的进化。

5-VLMLPM-RoPE对齐绝对时间Qwen3-VLMLPDeepStackInterleaved MRoPE (thw交错频率)一提到图文信息对齐早期的一般做法就是Cross-Attention的做法如经典的CLIP。

相同点三段式的训练流程Qwen-VL的训练过程从始至终都贯穿着如下图所示的三段式训练过程模型阶段一主训练ViT和中间对齐层阶段二全部模型都训练阶段三主训练LLMQwen-VL使用约

5-VL进行 CLIP 风格预训练从头训练重新设计的视觉编码器预训练规模大幅跃升至

总结从架构上看Qwen-VL 系列始终坚守着“视觉编码层ViT 对齐层Adapter/Merger 文本编码层LLM”的三段式结构从流程上看也一直遵循着“模态对齐、全参预训练、指令微调”的三段式训练法则。

5/3-VL 的原生动态时空编码视觉编码器不仅学会了“看”更学会了如何“高效且精准”地捕捉不同比例、长短视频中的每一丝细节。

4T 弱标签对扩展到 4T 的高质量、长上下文混合数据训练重点从基础问答转向了具备思维链CoT推理、复杂智能体Agent操作以及 256K 超长文本理解的高阶领域。

外网otk实践拍击青少年-外网otk实践拍击青少年应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐