核心内容摘要
魅影摇曳,暗夜星辰:宁荣荣黑色吊带抹胸连衣裙的华丽蜕变
前言这几日在研究 DeepSeek-OCR 2 的内容发布的论文也看完了正好写一写。
原文ppt我也上传资源并绑定到本文了。
研究背景与核心动机传统视觉语言模型VLMs处理视觉 tokens 时均采用 “左上到右下” 的刚性光栅扫描顺序与固定位置编码这与人类视觉系统的 “语义驱动灵活扫描模式” 存在本质矛盾 —— 人类会根据图像内在逻辑如螺旋结构的因果关联动态调整视觉焦点而非依赖空间坐标。
对于复杂布局的文档含公式、表格、非线性文本排列传统模型的刚性顺序会引入无关归纳偏置忽略语义关联。
因此研究团队提出DeepSeek-OCR 2核心目标是通过新型编码器设计实现更贴近人类视觉认知的 “视觉因果流”探索 “通过两级级联 1D 因果推理实现 2D 图像理解” 的新范式。
核心创新DeepEncoder V2 架构DeepEncoder V2 是 DeepSeek-OCR 2 的核心突破旨在解决传统编码器的刚性顺序问题其关键设计包含 4 大模块
视觉 TokenizerVision Tokenizer架构组成基于 80M 参数的 SAM-base 模型 2 个卷积层将最终卷积层输出维度从 DeepEncoder 的 1024 降至 896以适配后续流程。
核心作用通过窗口注意力实现 16 倍 Token 压缩在减少计算成本与激活内存的同时保持与 LLM 文本嵌入约 100M 参数相当的参数量级支持灵活替换为简单补丁嵌入。
语言模型作为视觉编码器LM as Vision Encoder架构革新替换 DeepEncoder 中的 CLIP ViT 模块采用 Qwen2-
5B500M 参数作为 LLM 风格编码器避免额外计算开销。
双流注意力机制视觉 Token采用双向注意力保留 CLIP 的全局建模能力因果流查询Causal Flow Queries采用因果注意力每个查询可关注所有视觉 Token 与之前的查询实现语义驱动的 Token 重排序关键设计因果查询与视觉 Token 数量相等仅将编码器输出的 “因果查询部分” 输入 LLM 解码器构建 “编码器重排序→解码器自回归推理” 的两级因果推理。
因果流查询Causal Flow Query数量计算基于图像分辨率公式为 162×16W×HW 为宽度H 为高度多裁剪策略全局视图1024×1024 分辨率固定 256 个查询嵌入queryglobal局部视图768×768 分辨率固定 144 个查询嵌入querylocal支持
次裁剪Token 范围最终输入 LLM 的 Token 数为 k×144256k 为局部裁剪次数范围
匹配 Gemini-3 Pro 的视觉 Token 上限且低于 DeepSeek-OCR 的 1156。
注意力掩码Attention Mask掩码结构由两部分拼接而成公式为左侧视觉 Token 区1m×m 矩阵支持双向注意力类似 ViT实现 Token 间全可见右侧因果查询区下三角矩阵LowerTri (n)支持因果注意力类似 LLM 解码器仅允许当前查询关注之前的查询。
整体模型架构与训练流程
整体架构DeepSeek-OCR 2 继承 DeepSeek-OCR 的 “编码器 - 解码器” 结构核心差异在编码器DeepEncoder V2解码器沿用 3B 参数的 MoE 结构约 500M 激活参数模型前向传播公式为符号定义I输入图像、E视觉 Tokenizer、Q0可学习因果查询、TLL 层带掩码注意力的 Transformer、πQ提取最后 n 个 Token 的投影算子、D语言解码器、O输出 logits。
训练流程三阶段训练阶段核心目标关键设置阶段 1DeepEncoder V2 预训练让视觉 Tokenizer 与 LLM 风格编码器掌握特征提取、Token 压缩与重排序能力采用语言建模目标next token prediction使用 768×768/1024×1024 双数据加载器AdamW 优化器学习率 1e-4→1e-6160 张 A100 GPU 训练 40k 迭代约 1 亿图文对阶段 2查询增强强化编码器的 Token 重排序能力提升视觉知识压缩效果冻结视觉 Tokenizer联合优化 LLM 编码器与解码器采用 4 阶段流水线并行160 张 GPU40GB / 卡全局 batch size 1280训练 15k 迭代学习率 5e-5→1e-6阶段 3LLM 持续训练加速训练让 LLM 更好理解重排序后的视觉 Token冻结 DeepEncoder V2 所有参数仅更新 LLM 参数学习率 1e-6→5e-8训练 20k 迭代
数据设置数据源与 DeepSeek-OCR 一致包含 OCR
1.
OCR
0占 80%及通用视觉数据数据优化1OCR
0 按 “文本公式表格 3:1:1” 平衡采样2合并语义相似的布局类别如 “图题” 与 “图标题” 统一。
实验结果与性能分析
基准测试OmniDocBench v
5OmniDocBench v
5 包含 1355 页文档9 大类中英双语是验证模型性能的核心基准DeepSeek-OCR 2 的关键结果如下1综合性能对比表 1指标DeepSeek-OCR基线DeepSeek-OCR 2提升幅度整体准确率Overall
8
36%
9
09%
73%文本编辑距离Text ED
0.
0
048-
025越低越好公式 CDMFormula CDM
8
14%
9
31%
17%表格 TEDsTable TEDs
8
25%
8
75%
5%阅读顺序 EDR-order ED
0.
0
057-
028越低越好最大视觉 Token 数V-token_max11561120更低更高效关键结论在视觉 Token 上限更低的情况下DeepSeek-OCR 2 全面超越基线尤其在公式识别与阅读顺序推理上提升显著验证了视觉因果流的有效性。
2文档元素编辑距离对比表 2模型V-token_max文本 ED公式 ED表格 ED阅读顺序 ED整体 EDGemini-3 Pro1120----
115DeepSeek-OCR
11560.
0730.
2360.
1230.
0
129DeepSeek-OCR
211200.
0480.
1980.
0960.
0
100关键结论在相同 Token 预算1120下DeepSeek-OCR 2 的整体 ED
100低于 Gemini-3 Pro
115且所有元素 ED 均优于基线证明其在 Token 压缩效率与性能间的平衡优势。
改进空间表 3DeepSeek-OCR 2 在 9 类文档中的表现存在差异主要改进点弱点报纸类文本 ED
139高于基线
131原因包括1视觉 Token 上限较低影响文本密集型报纸识别2训练数据不足仅 250k 报纸样本优势阅读顺序 ED 在所有文档类型中均优于基线进一步验证因果流编码器的有效性。
实际应用性能表 4针对在线 OCR 服务与 PDF 批量处理两大生产场景以 “重复率” 为核心指标模型在线用户日志图像重复率PDF 预训练数据重复率DeepSeek-OCR
25%
69%DeepSeek-OCR
2
17%↓
08%
88%↓
81%关键结论DeepSeek-OCR 2 的实际应用稳定性显著提升重复率降低证明其逻辑视觉理解能力的实用性。
讨论与未来方向
迈向真正的 2D 推理现有进展DeepSeek-OCR 2 提出 “编码器阅读逻辑推理 解码器视觉任务推理” 的两级 1D 因果推理范式为 2D 理解提供新思路未来方向需增加更长的因果流 Token支持视觉内容的多轮重检查与多跳重排序并扩展至通用视觉推理任务。
迈向原生多模态核心潜力DeepEncoder V2 的 LLM 风格架构可通过 “模态专属可学习查询”实现多模态统一编码文本压缩、语音特征提取、视觉重排序共享Wk、Wv投影、注意力机制与 FFN未来方向探索更多模态如语音、视频的集成推动原生多模态模型发展。
核心结论架构突破DeepEncoder V2 通过 “LLM 风格编码器 双流注意力 因果流查询”实现语义驱动的视觉 Token 重排序解决传统模型的刚性顺序问题性能与效率平衡DeepSeek-OCR 2 在保持高 Token 压缩率
与解码效率的同时在 OmniDocBench v
5 上实现
73% 的整体准确率提升实际应用重复率显著降低范式价值验证了 “通过两级 1D 因果推理实现 2D 理解” 的可行性为 VLMs 的编码器设计提供新方向且具备扩展至多模态的潜力。
附录代码与模型获取模型代码与权重已开源地址deepseek-ai/DeepSeek-OCR-2: Visual Causal Flow论文地址https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdfEND如果觉得这份基础知识点