FSMN-VAD真实案例:如何处理1小时长录音

核心内容摘要

基于SpringBoot的定制化设计服务平台系统(源码+lw+部署文档+讲解等)
NSudo系统权限管理指南:从基础到高级的全方位掌控方案

GLM-4-9B-Chat-1M与Qt集成:跨平台长文本处理工具开发

研究背景从扫描顺序到语义理解的范式转变想象一下当你阅读一份复杂的学术论文时你的眼睛是如何移动的你不会机械地从左上角一行行扫到右下角而是会根据内容的语义逻辑——标题、摘要、图表、公式——进行有选择性的跳跃式阅读。

但现有的视觉语言模型(VLMs)却恰恰相反它们像扫描仪一样死板地按照从上到下、从左到右的光栅扫描顺序处理图像完全忽略了图像中蕴含的语义关系和逻辑结构。

这就是DeepSeek团队想要解决的核心问题。

他们提出了一个大胆的假设能否让视觉编码器像人眼一样根据图像的语义内容动态地重新排列视觉token的顺序而不是被固定的空间坐标所束缚这个想法在文档OCR场景中尤为关键——想想看一份包含复杂公式、多栏排版、表格的学术论文如果机械地按行扫描根本无法捕捉其内在的阅读逻辑。

DeepSeek-OCR 2的三大核心贡献可以概括为首先他们设计了DeepEncoder V2这个革命性的编码器。

与传统编码器不同它用一个小型语言模型(LLM)架构替换了CLIP组件并引入了因果流查询(causal flow tokens)机制。

这些可学习的查询token能够动态地重新排列视觉信息就像人眼根据语义进行选择性注意一样。

其次在保持高效压缩率的同时实现了显著的性能提升。

DeepSeek-OCR 2将输入到LLM的视觉token数量控制在256到1120之间——这个上限甚至低于Gemini-3 Pro的最大视觉token预算但在OmniDocBench v

5基准测试中却实现了

73%的性能提升。

最后这项工作为统一的全模态编码器提供了初步验证。

通过使用LLM风格的编码器架构理论上可以用同一套参数处理文本、图像、音频等多种模态只需为不同模态配置特定的可学习查询即可。

相关工作从目标检测到多模态对齐的演进之路要理解DeepEncoder V2的设计灵感我们需要回顾两个重要的技术分支解码器中的并行查询和投影器中的并行查询。

第一个里程碑是DETR(Detection Transformer)。

它在2020年将Transformer引入目标检测领域彻底改变了传统的检测范式。

DETR的核心创新是引入了100个对象查询(object queries)——这些可学习的查询通过交叉注意力机制与特征图交互同时通过自注意力机制相互交换信息。

这种设计让Transformer能够并行处理多个目标而不是像传统方法那样串行解码。

这个思想后来成为了Transformer检测方法的标准组件。

![]第二个重要进展是BLIP-2的Q-former。

在视觉-语言模型快速发展的浪潮中研究者们发现需要一个桥梁来连接视觉编码器(如CLIP)和大型语言模型。

BLIP-2提出的Q-former采用了类似BERT的架构借鉴DETR的对象查询设计使用32个可学习查询与数百个CLIP视觉token进行交叉注意力交互。

这些压缩后的查询表示随后被输入到LLM中实现了从视觉到语言空间的有效映射。

Q-former的成功证明并行可学习查询不仅适用于检测任务的特征解码也同样适用于多模态对齐中的token压缩。

![]此外近年来的研究还发现在大规模互联网数据上预训练的LLM可以作为多模态模型的有效初始化。

一些研究表明冻结的LLM Transformer层能够增强视觉判别任务。

更激进的是像Fuyu和Chameleon这样的无编码器或轻量编码器模型以及语音领域的VALL-E都进一步验证了LLM预训练权重在多模态初始化中的潜力。

这些工作为DeepSeek-OCR 2使用LLM架构作为视觉编码器提供了理论支撑。

核心方法双流注意力实现视觉因果流DeepSeek-OCR 2的整体架构延续了DeepSeek-OCR的编码器-解码器设计但关键创新集中在编码器部分——也就是DeepEncoder V2。

让我们深入了解它是如何工作的。

视觉分词器16倍压缩的第一步DeepEncoder V2的第一个组件是视觉分词器(vision tokenizer)。

它采用了一个8000万参数的SAM-base架构配合两个卷积层。

这个看似简单的设计实际上非常精妙——通过窗口注意力机制实现了16倍的token压缩将原始图像patch数量大幅减少从而显著降低后续全局注意力模块的计算成本和激活内存。

值得注意的是最终卷积层的输出维度从DeepEncoder的1024降低到896以便与后续流程对齐。

这个压缩式分词器并非不可替代——理论上可以用简单的patch embedding取代。

但保留它的原因很实际它的参数量(80M)与LLM中用于文本输入嵌入的典型100M参数相当在保持压缩效率的同时不会引入过多的计算开销。

LLM作为视觉编码器双流注意力的奇妙设计这里是最精彩的部分。

在DeepEncoder中CLIP ViT负责压缩视觉知识。

而DeepEncoder V2则大胆地将这个组件重新设计为LLM风格的架构并引入了一种独特的双流注意力机制。

具体来说架构中存在两种token视觉token使用双向注意力就像传统ViT一样每个token可以看到所有其他视觉token保持了CLIP的全局建模能力因果流查询(causal flow queries)使用因果注意力每个查询只能看到所有视觉token和它之前的查询token这个设计有个关键细节可学习查询的数量与视觉token数量相等。

这样做的好处是在不改变token数量的前提下对视觉特征进行语义排序和提炼。

最终只有因果查询的输出被送入LLM解码器而不是原始的视觉token。

为什么要用LLM架构而不是传统的编码器-解码器结构研究团队实际上尝试过使用交叉注意力的mBART风格编码器-解码器但发现无法收敛。

他们推测失败的原因在于当视觉token被隔离在单独的编码器中时视觉信息的交互不足。

相比之下前缀拼接设计(将视觉token作为前缀)让视觉token在所有层中保持活跃促进了视觉信息与因果查询之间的有效交换。

实现上他们选择了Qwen2-

5B(500M参数)——这个规模与CLIP ViT(300M)相当不会引入过多的计算开销。

这个架构实际上建立了两级级联因果推理编码器通过可学习查询对视觉token进行语义重排然后LLM解码器对这个排序后的序列进行自回归推理。

因果流查询多尺度策略因果查询token的数量计算为W × H 16 2 × 16 \frac{W \times H}{16^2 \times 16}162×16W×H​其中W WW和H HH是输入编码器的图像宽度和高度。

为了避免为不同分辨率维护多组查询他们采用了多裁剪策略使用预定义分辨率的固定查询配置。

![]具体来说全局视图使用1024 × 1024 1024 \times 10241024×1024分辨率对应256个查询嵌入(记为query global \text{query}_{\text{global}}queryglobal​)局部裁剪采用768 × 768 768 \times 768768×768分辨率裁剪数量k kk从0到6(当图像两个维度都小于768时不裁剪)所有局部视图共享一组144个查询嵌入(记为query local \text{query}_{\text{local}}querylocal​)因此输入到LLM的重排序视觉token总数为k × 144 256 k \times 144 256k×144256范围在[256, 1120]之间。

这个最大token数(

比DeepSeek-OCR的1156(Gundam模式)更少,恰好等于Gemini-3 Pro的最大视觉token预算。

注意力掩码拼接双向与因果为了更清楚地展示DeepEncoder V2的注意力机制他们在论文中可视化了注意力掩码。

这个掩码由两个不同的区域组成![]左侧区域对原始视觉token应用双向注意力(类似ViT)允许完整的token间可见性右侧区域对因果流token采用因果注意力(三角形掩码与decoder-only LLM相同)每个token只能看到之前的token这两个组件沿着序列维度拼接构成DeepEncoder V2的注意力掩码(M):M [ 1 m × m 0 m × n 1 n × m LowerTri ( n ) ] , 其中 n m M \left[\begin{matrix} \mathbf{1}_{m \times m} \mathbf{0}_{m \times n} \\ \mathbf{1}_{n \times m} \text{LowerTri}(n) \end{matrix}\right], \text{其中 } n mM[1m×m​1n×m​​0m×n​LowerTri(n)​],其中nm这里n nn是因果查询token数量m mm是原始视觉token数量LowerTri表示下三角矩阵(对角线及以下为1以上为

解码器与整体前向传播由于DeepSeek-OCR 2主要关注编码器改进解码器组件保持不变——仍然使用DeepSeek-OCR的30亿参数MoE结构约5亿活跃参数。

整个DeepSeek-OCR 2的核心前向传播可以形式化为:O D ( π Q ( T L ( E ( I ) ⊕ Q 0 ; M ) ) ) \mathbf{O} \mathcal{D}\left(\pi_Q\left(\mathcal{T}^L\left(\mathcal{E}(\mathbf{I}) \oplus \mathbf{Q}_0; \mathbf{M}\right)\right)\right)OD(πQ​(TL(E(I)⊕Q0​;M)))其中I ∈ R H × W × 3 \mathbf{I} \in \mathbb{R}^{H \times W \times 3}I∈RH×W×3是输入图像E \mathcal{E}E是视觉分词器将图像映射为m mm个视觉tokenQ 0 ∈ R n × d \mathbf{Q}_0 \in \mathbb{R}^{n \times d}Q0​∈Rn×d是可学习因果查询嵌入⊕ \oplus⊕表示序列拼接T L \mathcal{T}^LTL代表L LL层带掩码注意力的TransformerM \mathbf{M}M是前面定义的块因果注意力掩码π Q \pi_QπQ​是提取最后n nn个token的投影操作符D \mathcal{D}D是语言解码器。

实验效果更少token更高性能训练流程三阶段渐进式优化DeepSeek-OCR 2的训练分为三个阶段每个阶段都有明确的目标阶段1编码器预训练- 这个阶段让视觉分词器和LLM风格编码器获得特征提取、token压缩和token重排序的基本能力。

他们使用语言建模目标将编码器与一个轻量级解码器耦合通过下一个token预测进行联合优化。

在两个分辨率(768 × 768 768 \times 768768×768和1024 × 1024 1024 \times 10241024×

的数据加载器上训练使用160个A100 GPU批量大小640训练4万次迭代(约1亿图像-文本对样本)。

阶段2查询增强- 在编码器预训练后将其与DeepSeek-3B-A500M集成为最终流程。

冻结视觉分词器(SAM-conv结构)同时优化LLM编码器和LLM解码器以增强查询表示。

在这个阶段通过多裁剪策略统一两个分辨率到单一数据加载器。

使用4阶段流水线并行全局批量大小1280,训练

5万次迭代。

阶段3LLM持续训练- 为了快速消耗训练数据这个阶段冻结所有DeepEncoder V2参数只更新DeepSeek-LLM参数。

这个策略将训练速度提高了一倍以上(相同全局批量大小下)同时帮助LLM更好地理解DeepEncoder V2重排序后的视觉token。

从阶段2继续再训练2万次迭代。

主要结果全面领先他们选择OmniDocBench v

5作为主要评测基准——这是一个包含1,355个文档页面的数据集,涵盖9大类别(杂志、学术论文、研究报告等)的中英文文档。

结果如表所示:DeepSeek-OCR 2在使用最少视觉token上限(

的情况下达到了

9

09%的先进性能。

与DeepSeek-OCR基线相比在相似训练数据下实现了

73%的提升验证了新架构的有效性。

更值得注意的是阅读顺序(R-order)的编辑距离显著降低从

085降至

057。

这说明新的DeepEncoder V2能够根据图像信息有效地选择和排列初始视觉token。

与Gemini-3 Pro(

0.

相比DeepSeek-OCR 2(

0.

在相似视觉token预算(

下实现了更低的编辑距离进一步证明新模型在保持高压缩率的同时确保了卓越性能。

细粒度分析仍有提升空间团队对9种文档类型进行了详细的性能对比发现DeepSeek-OCR 2仍有相当大的改进空间。

例如在文本识别编辑距离方面DeepSeek-OCR 2在大多数情况下优于DeepSeek-OCR但在报纸类别上表现较弱(

13 ED)。

他们分析认为主要有两个原因较低的视觉token上限可能影响文本超密集报纸的识别——未来可以通过增加局部裁剪数量简单解决报纸数据不足——训练数据仅包含25万相关样本,不足以充分训练DeepEncoder V2处理这一类别但在阅读顺序指标上DeepSeek-OCR 2在所有类别上全面优于DeepSeek-OCR再次验证了视觉因果流编码器设计的有效性。

生产就绪度实战表现出色DeepSeek-OCR在生产中有两个主要用例为DeepSeek-LLM提供在线OCR服务以及执行批量PDF处理的预训练数据流水线。

他们比较了两个版本的生产性能。

由于生产环境中无法获得真实标签主要关注重复率作为关键指标。

结果显示DeepSeek-OCR 2相比前身表现出明显改善的实用性在线用户日志图像的重复率从

25%降至

17%PDF数据生产的重复率从

69%降至

88%。

这些结果进一步验证了DeepSeek-OCR 2架构的有效性特别是其逻辑视觉理解能力。

论文

总结从1D到2D推理的探索之路DeepSeek-OCR 2解决的其实是个很实际的问题以前模型读文档就像小学生傻傻地从左上角一个字一个字往右下角扫碰到复杂排版、公式、表格就懵了。

现在它学会了像人一样看到标题先读标题看到图表就跳过去看图表按照文档本身的逻辑来读自然就更准了。

而且它用的token更少、速度更快在实际使用中重复率从6%降到4%——这意味着你让它识别PDF时出错和胡说八道的情况明显少了。

乐播视频-乐播视频应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123