核心内容摘要
91暗网
Datawhale干货作者孙记森Datawhale贡献者团队DeepSeek一直带有原创性总是会给大家一些新的启发和思路。
昨天DeepSeek发布了升级后的OCR2模型主要优化是加入模拟人类视觉的“因果推理”机制把之前的Clip 模型替换为了大模型架构。
两代OCRDeepSeek-OCR12025 年 10 月发布证明了视觉压缩是解决 LLM 长上下文低效问题的可行且高效路径。
实现了“一图胜万言”实验显示10 个文本 token 压缩成 1 个视觉 token 时OCR 精度仍能达到 97%。
DeepSeek-OCR22026 年 1 月 27 日发布证明了视觉语言模型可以通过“因果流”和动态语义阅读顺序实现人类级别的文档逻辑理解从而大幅超越传统固定栅格扫描的局限。
OCR2 彻底抛弃了 CLIP 等传统 ViT 骨干转用 Qwen2-
5B 作为视觉编码器DeepEncoder V2并引入 Visual Causal Flow 机制模型先全局理解图像布局再根据语义内容动态决定“先看哪块、再看哪块”类似人类阅读报纸时跳过广告、优先读标题、正文、表格的顺序而非从左上到右下死板扫描。
如图展示了 DeepSeek-OCR 2 的核心架构创新DeepEncoder使用CLIP ViT作为视觉编码器。
这是一个传统的“非因果Non-causal”架构视觉Token 之间通常是全向交互且处理顺序往往是固定的如从左到右、从上到下的光栅扫描顺序。
DeepEncoder V2将 CLIP 替换为LLM 风格的架构 Qwen2 500M。
这一部分被称为“LM as Vision Encoder”它引入了因果推理能力。
之前的视觉模型的查询Query普遍都是采用双向注意力即 Query A 可以看到 Query BQuery B 也可以看到 Query A。
这被称为Non-causal非因果。
DeepSeek-OCR 2虽然也用了 Query但将其强制改为Causal因果/单向注意力。
即 Query 2 只能看到 Query 1Query 3 只能看到 Query 1 和 2。
这样的目的是为了模拟人类阅读复杂文档的方式当我们阅读复杂的文档如报纸排版、表格或几何图形时视线移动是由语义驱动的而不是简单的坐标驱动。
也就是为了打破“位置决定顺序”的传统限制转而实现“语义决定顺序”。
我们看“哪里”取决于我们刚才看了“什么”。
所以通过因果注意力第N个 Query 只能看到前N−1 个 Query 的结果。
这迫使模型学会渐进式地整理信息Query 1 找到第一段话Query 2 基于 Query 1 的结果去找逻辑上的第二段话哪怕它在图像的左下角依此类推。
整个模型清晰地划分为三个串联的部分视觉分词器 - 左侧、DeepEncoder V2 (视觉编码器) - 中间、DeepSeek-MoE Decoder (解码器) - 右侧。
在编码器中通过 DeepEncoder V2将无序的 2D 图像特征转化为有序的、符合人类阅读逻辑的 1D 序列。
在解码器中解码器不再需要处理复杂的视觉位置关系只需根据已经排好序的语义信息通过语言模型生成文本。
DeepEncoder V2 注意力矩阵被拼接成了左右两部分分别对应不同的 Token 处理方式左侧/上半部分是视觉 Token所有的视觉 Token 之间可以互相“看见”。
也就是图像特征保留了传统的 ViT 风格具备全局感受野不会因为位置先后而丢失上下文信息。
同时右侧/下半部分的因果流查询强制模型必须按照生成的先后顺序来建立逻辑依赖。
实验结果也证明DeepSeek-OCR 2 在使用极少视觉 Token计算成本低的情况下依然取得了超越现有开源模型甚至商业闭源模型如 GPT-4o的SOTA性能。
DeepSeek-OCR 2 的架构不仅是 OCR 技术的革新更是迈向“通用模态编码器”的里程碑。
在这一架构下我们可以预见一个“参数共享”的超级引擎——共享Wk,Wv映射和 FFN 层。
处理图像、音频或文本时唯一的变量是特定模态的Learnable Query。
这种设计将不同模态的特征提取与逻辑压缩统一在同一个参数空间内彻底打破模态间的壁垒。
论文https://huggingface.co/deepseek-ai/DeepSeek-OCR-2同时元旦期间DeepSeek提出的mHC新思路震撼了全网AI社区。
我们先来回归一下何凯明团队提出的ResNet残差网络结构。
核心问题它解决了什么深度退化问题以前人们以为“网络越深越好”但实验发现当层数增加到一定程度如超过
层即使加更多卷积层训练误差和测试误差反而上升不是过拟合而是网络自己学不会恒等映射。
关键创新残差连接Residual Connection / Skip Connection传统网络每一层输出直接作为下一层输入层层叠加容易导致梯度消失/爆炸。
ResNet 的残差块Residual Block结构 输出 F(x) xx直接从输入“跳跃”过来的身份映射identity shortcut。
F(x)通过几层卷积通常
层学到的残差函数residual function。
如果 F(x) 学到 0整体就相当于恒等映射output x网络至少不会变差。
这让网络可以轻松学会“什么都不变”或者“再加点改进”。
十年来“只需增加更多层”的残差连接策略通过强制每一层保留对原始输入的访问我们隐含地限制了网络对信息的转换能力。
DeepSeek 的贡献是提出重写神经网络的方案。
→ 它们从用于残差的简单加法转向定义在流形上的几何约束。
→ mHC 限制了超连接的表现力恢复残余连接的稳定性从而实现两者兼得。
→ DeepSeek表明完全可以建立深度稳定的网络而无需依赖自2015年以来依赖的安全网。
ResNet、HC、mHC对比普通Transformer的残差连接是“单车道”F(x) x每层输出 输入 处理后的部分信号强度基本保持在1倍左右训练很稳定。
字节跳动先提出的Hyper-ConnectionsHC想把残差变成“多车道”一层里同时走好几条并行路径比如
条每条路径都加回输入这样可以大幅增加模型深度和容量理论上性能更好、训练更高效。
但问题来了无约束的多车道残差会让信号强度指数级爆炸实验里放大上万倍梯度也失控模型直接训崩尤其在大模型、深层网络里特别严重。
mHC就是在HC的基础上加了一个流形约束用Sinkhorn-Knopp算法强制每条路径的权重归一化确保所有路径加起来的信号强度严格稳定在≈
0倍几乎不损失性能开销也很小~7%。
具体解释如下第一步压缩mHC的做法是一开始先复制四份X1语义更丰富有的可能专门代表了语法、有的代表了上下文等等然后继续往右侧走如果通过注意力机制直接计算四次开销会很大所以要使用一个可学习的向量Hpre1×n将那 4 个向量合并成1 个向量。
这实际上是一个加权求和Weighted Sum。
比如
9×A
1×B…。
第二步加工将压缩后的这 1 个向量送入标准的 Transformer 层F进行计算如 Attention 或 Feed-Forward。
这是整个网络中最耗时的“思考”过程。
mHC 的约束就是 DeepSeek 解决崩溃问题的关键区别与HC。
DeepSeek 强制要求这个混合矩阵Hres必须是双随机矩阵。
规则每一行加起来必须等于 1每一列加起来也必须等于 1。
作用这保证了无论信息怎么在 4 个通道间“倒来倒去”总能量信号强度保持不变防止了数值爆炸或消失。
第三步扩张计算完成后得到 1 个新的输出向量。
此时使用另一个向量Hpost1×n将其“广播”回 4 个通道。
注意这不是简单的复制而是根据权重将新知识以不同比例分配给 4 个通道从而产生差异化最终向量就包含了语法、上下文、逻辑、领域知识等等更多的语义信息。
最后将“计算路径”产生的新知识加到“残差路径”混合后的旧记忆上形成下一层的输入。
DeepSeek 证明了只要辅以恰当的数学约束如流形约束我们可以驯服更复杂的非线性拓扑从而获得更大的信息容量。
也有博主对mHC进行了复现效果比DeepSeek原文还要好https://taylorkolasinski.com/notes/mhc-reproduction/https://taylorkolasinski.com/notes/mhc-reproduction-part2/DeepSeek mHC论文 https://huggingface.co/papers/
2