核心内容摘要
91吃瓜:互联网的秘密花园,你我共享的精彩世界
25年10月DeepSeek-OCR发布用视觉大幅压缩文本“1张图片装10页书的信息DeepSeek-OCR用图片压缩文本一图胜千言被实现了”震惊了整个科技圈。
刚刚DeepSeek-OCR 2再升级保持了前代DeepSeek-OCR的高效图像压缩率和解码效率的同时它开始模仿人类视觉的因果流机制将图像理解从机械扫描转化为逻辑推理在文档解析领域实现了突破性的逻辑重构。
DeepSeek-OCR 2抛弃了传统视觉编码器机械僵硬的扫描方式通过引入具有因果推理能力的DeepEncoder V2让AI像人类一样基于语义逻辑而非几何坐标来阅读复杂文档。
像人类一样思考的视觉编码人类的视觉系统是一个精密且充满智慧的机制它绝非机械地按照从左到右、从上到下的顺序扫描世界。
当你注视一张复杂的报纸版面或者试图理解一份充满公式和表格的学术文档时你的目光是跳跃的是受大脑逻辑驱动的。
你的视线可能会追随一个跨栏的标题可能会在表格的行与列之间穿梭甚至会在理解了一个复杂的数学符号后回过头去寻找它的定义。
这种视觉流是因果驱动的每一次注视都依赖于前一次注视所获得的语义理解就像是在描绘一个螺旋每一步都构建在之前的路径之上。
传统的视觉语言模型VLMs却常常忽略了这一显而易见的人类认知特征。
它们倾向于将图像通过固定的光栅扫描顺序raster-scan order处理成一维的序列。
这种做法强行给二维的图像施加了某种并不存在的几何顺序往往切断了图像元素之间内在的语义联系。
这种机械的处理方式引入了不必要的归纳偏差导致模型在处理文档OCR光学字符识别这种对逻辑结构要求极高的任务时难以像人类一样精准地还原阅读顺序。
DeepSeek-OCR 2试图验证一种新的范式通过两个级联的一维因果推理结构是否能够有效地实现真正的二维图像理解。
DeepSeek-OCR 2引入了名为DeepEncoder V2的全新编码器架构。
这个架构的设计灵感直接源自人类的视觉认知机制。
它的核心思想在于“重排序”。
不同于传统模型被动地接受像素排列DeepEncoder V2能够根据图像的语义内容动态地对视觉信息进行重新排序。
在面对布局复杂、包含精密公式和表格的文档时这种因果感知的顺序处理显得尤为重要。
DeepEncoder V2在架构上做出了大胆的革新它替换了前代模型中使用的CLIP组件转而采用了一种轻量级的语言模型LLM架构来实现视觉的因果流。
为了实现并行处理并保持高效研究团队引入了可学习的查询向量Learnable Queries并将它们命名为因果流TokenCausal Flow Tokens。
这些Token被放置在视觉Token之后形成了一种独特的前缀结构。
通过定制化的注意力掩码Attention Mask视觉Token保持了类似ViTVision Transformer的双向注意力机制拥有全局的感受野能够看到整张图像。
因果流Token则采用因果注意力机制它们不仅能看到所有的视觉Token还能看到在它之前生成的因果流Token。
这种设计让每一个查询向量都能基于全局的视觉信息和已经梳理出的逻辑线索逐步构建出符合人类阅读习惯的序列。
这种设计非常巧妙地维持了因果Token与视觉Token在数量上的对应关系通常保持相等的基数并包含必要的填充和边界冗余。
这为模型提供了足够的容量来进行重新注视re-fixation就像人类在阅读难懂的段落时会反复确认一样。
在最终输出阶段只有这些经过重排序、蕴含了因果逻辑的因果流Token会被送入解码器。
这实际上构建了一个级联的因果视觉理解系统编码器负责梳理视觉逻辑解码器负责基于这些逻辑生成内容。
DeepSeek-OCR 2在保持了前代模型DeepSeek-OCR的高效图像压缩率和解码效率的同时实现了性能的显著提升。
它将送入LLM的视觉Token数量严格控制在256到1120之间。
这个下限对应于1024x1024分辨率图像的压缩处理而上限则与Gemini-3 Pro等顶尖模型的最大视觉Token预算相当。
这种精简高效的设计使得DeepSeek-OCR 2成为一个能够为LLM预训练生成高质量数据的实用引擎。
这项工作还提供了一个极具潜力的视角直接使用语言模型架构作为视觉语言模型的编码器。
这是一个通向统一全模态编码Unified Omni-modal Encoding的可行路径。
在这个框架下无论是图像、音频还是文本都可以通过配置特定模态的可学习查询向量来进行特征提取和Token压缩。
更重要的是这种架构可以无缝继承大语言模型社区在基础设施上的各种优化成果比如混合专家模型MoE架构和高效的注意力机制算法。
DeepSeek-OCR 2让机器在“像人一样阅读”的道路上迈出了坚实的一步。
视觉因果流的架构重构DeepSeek-OCR 2继承了其前身DeepSeek-OCR的整体骨架依然由编码器和解码器两部分组成。
编码器负责将图像离散化为视觉Token解码器则基于这些Token和文本提示生成输出。
真正的魔法发生在编码器内部。
DeepEncoder V2保留了前代所有的功能优势通过全新的架构设计引入了因果推理能力彻底改变了信息流动的逻辑。
在深入DeepEncoder V2之前我们需要理解为何传统的平铺式编码存在缺陷。
普通的编码器通过注意力机制提取图像特征每个Token都能关注到其他所有Token这模拟了人类的中央凹和周边视觉。
当这些二维的图像块被展平为一维序列时强制性的位置编码如RoPE会引入一种僵化的顺序偏差。
这种偏差与自然视觉阅读模式是背道而驰的尤其是光学文本、表格和非线性布局中的阅读模式。
为了纠正这一点DeepEncoder V2的第一步是视觉Tokenizer。
它沿用了DeepEncoder的经典组合一个80M参数的SAM-base模型配合两个卷积层。
这个组件虽然看起来简单却能通过窗口注意力机制以极小的参数量实现16倍的Token压缩将图像特征维度从1024降至896为后续的全局注意力模块节省了大量的计算成本和显存。
DeepEncoder V2真正的核心变革在于将原本的CLIP ViT模块替换为了一个LLM风格的架构。
这个新架构建立了一种双流注意力机制Dual-stream Attention Mechanism。
视觉Token继续使用双向注意力保留了CLIP那种全局建模的能力。
新引入的因果流查询Causal Flow Query则采用因果注意力。
这些可学习的查询向量被像后缀一样拼接在视觉Token之后。
这种设计让每一个查询向量都能看到所有的视觉Token以及在它之前的查询向量。
通过保持查询向量与视觉Token数量的一致这种设计在不改变Token总数的前提下强制模型学习视觉特征的语义顺序和提炼逻辑。
这个架构实际上建立了一个两阶段的级联因果推理过程第一阶段编码器通过可学习的查询向量在语义层面上对视觉Token进行重排序第二阶段LLM解码器对这个已经有序的序列进行自回归推理。
传统的编码器通过位置编码强加了僵硬的空间顺序DeepEncoder V2的因果排序查询则顺应了平滑的视觉语义并自然地与LLM单向注意力的模式对齐。
这种设计巧妙地弥合了二维空间结构与一维因果语言建模之间的鸿沟。
为了处理不同分辨率的输入DeepEncoder V2采用了一种多裁剪Multi-crop策略。
全局视图分辨率设定为1024x1024产生256个查询嵌入。
局部裁剪分辨率为768x768产生144个查询嵌入。
根据图像尺寸裁剪数量从0到6不等。
送入LLM的重排序视觉Token总数在256到1120之间波动。
这个1120的上限甚至低于DeepSeek-OCR的GUNDAM模式1156却能承载更丰富的信息展现了极高的效率。
DeepEncoder V2的注意力掩码Attention Mask设计是理解其工作原理的一把钥匙。
这个掩码由两个截然不同的区域拼接而成。
左侧区域对应原始的视觉Token应用双向注意力类似于ViT允许完全的Token间可见性确保视觉信息的完整性。
右侧区域对应因果流Token采用因果注意力下三角掩码类似于仅解码器的LLM每个Token只能关注之前的Token。
这两个部分在序列维度上拼接形成了一个混合的掩码矩阵。
这种设计确保了视觉信息是全向可达的而逻辑构建则是循序渐进的。
在解码器方面DeepSeek-OCR 2保持了克制没有进行大规模的架构升级而是沿用了DeepSeek-OCR的解码器一个拥有约30亿参数、激活参数约5亿的MoE混合专家结构。
将改进的重心完全放在编码器的逻辑重构上。
整个模型的前向传播过程可以被描述为输入图像经过视觉Tokenizer映射为视觉Token这些Token与可学习的因果查询嵌入拼接通过带有定制掩码的Transformer层处理最后提取出对应查询部分的输出送入语言解码器生成最终的文本。
实验设置方面DeepSeek-OCR 2使用了与前代相同的数据源包括OCR
1.
OCR
0和通用视觉数据其中OCR数据占据了训练混合数据的80%。
为了更公平的对比团队对数据采样策略进行了微调平衡了文本、公式和表格的比例并细化了布局检测的标签。
训练过程分为三个阶段首先是编码器预训练让视觉Tokenizer和LLM风格的编码器获得基本的特征提取和重排序能力其次是查询增强进一步强化编码器的重排序能力并提升视觉知识的压缩效率最后是解码器专业化冻结编码器参数只优化解码器从而在高吞吐量下实现数据的高效处理。
在编码器预训练阶段为了避免仅仅是一个简单的特征映射DeepEncoder V2使用了一个轻量级的解码器进行联合优化。
视觉Tokenizer初始化自DeepEncoder而LLM风格的编码器则初始化自Qwen2-
5B-base。
这种利用现成大语言模型权重进行初始化的策略被证明是加速收敛和提升性能的有效手段。
在查询增强阶段DeepEncoder V2与DeepSeek-3B-A500M模型集成通过冻结视觉Tokenizer并联合优化LLM编码器和解码器进一步提升了查询表示的质量。
重塑文档理解的边界DeepSeek-OCR 2在OmniDocBench v
5这一综合性文档阅读基准测试上进行了严格的评估。
这个基准包含了1355页文档涵盖了杂志、学术论文、研究报告等9大类横跨中英两种语言。
DeepSeek-OCR 2在视觉Token数量上限更低1120 vs 1156的情况下实现了
9
09%的整体性能相比DeepSeek-OCR基线提升了
73%。
阅读顺序编辑距离R-order Edit Distance这一指标从
085显著降低到了
057证明了DeepEncoder V2在基于图像信息有效选择和排列视觉Token方面的能力。
它不再是机械地扫描而是理解了内容的逻辑流。
在文档元素解析的细分对比中DeepSeek-OCR 2在整体编辑距离Overall Edit上达到了
100优于Gemini-3 Pro的
115且这是在两者视觉Token预算相似的情况下取得的。
这表明新模型在保持极高压缩率的同时实现了更优越的解析精度。
在实际生产环境中DeepSeek-OCR 2的表现同样出色。
由于生产环境缺乏真值Ground Truth重复率Repetition Rate成为了衡量质量的关键指标。
在处理在线用户上传的图像时重复率从
25%下降到了
17%在处理PDF预训练数据时重复率从
69%下降到了
88%。
这种重复率的降低直接反映了模型在理解复杂文档时减少了困惑其视觉理解能力更加流畅和自信。
当然DeepSeek-OCR 2并非完美无缺。
在针对9种文档类型的详细分析中研究人员发现它在报纸类文档上的表现仍有提升空间编辑距离超过了
13。
这主要归因于两个因素一是当前视觉Token的上限可能限制了对文本极度密集的报纸内容的识别这可以通过在未来增加局部裁剪的数量来解决二是报纸类训练数据的不足仅有25万个样本。
尽管如此在阅读顺序这一关键指标上DeepSeek-OCR 2在所有文档类型中都一致优于前代再次印证了视觉因果流设计的有效性。
DeepSeek-OCR 2的探索并未止步于此。
它提出的将2D理解分解为两个互补的正交一维因果推理子任务编码器进行阅读逻辑推理因果重排序解码器进行视觉任务推理可能代表了通过级联系统实现真正2D推理的突破口。
这种架构还为原生多模态Native Multimodality铺平了道路。
一个共享投影层、注意力机制和前馈网络的单一编码器完全可以通过模态特定的可学习查询向量来处理图像、语音和文本。
我们可以用同一套参数空间来压缩文本、提取语音特征和重组视觉内容唯一的区别仅在于查询向量权重的不同。
DeepSeek-OCR 2像是对未来多模态智能架构的一次极具前瞻性的预演。
参考资料https://github.com/deepseek-ai/DeepSeek-OCR-2https://huggingface.co/deepseek-ai/DeepSeek-OCR-2