核心内容摘要
东北45岁女人笑的没谁了:笑出岁月光彩,笑出人生风韵
1月29日百度正式发布并开源新一代文档解析模型PaddleOCR-VL-
5。
该模型以仅
9B参数的轻量架构在全球权威文档解析评测榜单OmniDocBench V
5中取得全球综合性能第一成绩整体精度达到
9
5%超过Gemini-3-Pro、DeepSeek-OCR
Qwen3-VL-235B-A22B、GPT-
2等模型。
值得关注的是PaddleOCR-VL-
5 全球首次实现OCR模型的“异形框定位”能力使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态首次让“歪文档”实现稳定、可规模化解析。
该技术解决了传统OCR模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。
PaddleOCR-VL-
5 基于文心大模型进行开发在 OmniDocBench V
5多个关键指标上取得领先表现。
其中表格结构理解
9
8 分和阅读顺序预测
9
8 分两项核心指标上均位列
别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。
在文档阅读顺序预测任务中其版面逻辑解析错误率仅为同类其他模型约一半。
这表明PaddleOCR-VL-
5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性在合同、财报等高复杂度业务场景中拥有更高可用性。
2025年10月16日百度首次发布并开源 PaddleOCR-VL模型在 OmniDocBench V
5 榜单中取得全球SOTA成绩并连续五天登顶 HuggingFace全球模型总趋势榜与ModelScope全球模型总趋势榜双榜第一。
相比于上代在功能层面PaddleOCR-VL-
5 进一步集成印章识别、文本检测与识别等任务能力关键指标持续领跑同时针对特殊场景与多语种识别进行系统优化在生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升并新增对藏语、孟加拉语等语种的支持。
模型还支持跨页表格自动合并与跨页段落标题识别有效解决长文档解析中的结构断裂问题。
近半年来全球主流模型厂商密集布局 OCR 领域。
1月27日深度求索发布新一代 OCR 模型 DeepSeek-OCR-2引入“因果流查询”机制并将语言模型融入视觉编码在OmniDocBench V
5中实现
9
09%精度。
与此同时Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型行业竞争持续加剧。
业内分析认为随着大模型加速进入金融、政务、制造等高复杂度业务流程文档解析能力正从“能用”走向“稳定可规模化落地”。
PaddleOCR-VL-
5 在精度、复杂场景适应性与工程化能力上的系统突破有望进一步降低产业应用门槛推动 OCR 技术在真实生产环境中的深度落地。
目前PaddleOCR-VL-