核心内容摘要
SGLang后端运行时优化细节,开发者必读
智谱AI正式开源发布GLM-OCR这款参数量仅
9B 的模型以 “小尺寸、高精度” 的特性打破了行业记录。
在权威榜单 OmniDocBench V
5 中它以
9
6 的高分超越多款同类模型展现了在手写公式、多语混排及印章识别等复杂文档场景下的统治级能力为行业提供了高效的专业级OCR解决方案。
核心能力与技术架构GLM-OCR 采用独特的 “编码器 - 解码器” 架构通过极致的参数效率实现了性能与成本的双重突破。
关键技术指标轻量部署总参数量仅
9B完美支持 vLLM、SGLang 和 Ollama 等主流推理框架大幅降低了部署门槛。
SOTA性能在 OmniDocBench V
5 综合评测中斩获
9
6 分在文本识别、公式解析、表格还原及信息抽取四大维度均表现优异性能接近 Gemini-3-Pro据公开报道。
极致速度在同等硬件条件下单副本单并发PDF 文档处理吞吐量达
86 页/秒图片处理达
67 张/秒。
颠覆性成本API 调用输入输出同价仅需
2 元/百万 Tokens。
1 元人民币即可处理约 2000 张 A4 扫描件或 200 份 10 页 PDF成本仅为传统 OCR 方案的 1/10。
典型场景与落地效果针对传统 OCR 难以处理的 “硬骨头”GLM-OCR 进行了深度优化在多种极端场景下实现了突破。
手写体与公式 模型在复杂的数学公式识别及多语言混排文档中保持了极高的还原精度有效解决了科研与教育场景的痛点。
复杂表格解析 面对跨页、跨单元格及多层表头的复杂表格GLM-OCR 能够直接理解逻辑结构并输出标准 HTML 代码极大提升了数据录入与转换效率。
票据与卡证提取 支持从各类非结构化票据中智能提取关键字段并直接输出结构化的 JSON 数据适配银行、保险及物流系统的自动化需求。
RAG支撑 其高精度的识别能力与规整的 Markdown/JSON 输出格式为检索增强生成RAG系统提供了高质量的数据底座。
行业应用与接入GLM-OCR 的高性价比使其迅速覆盖了教育、科研、办公、政务、金融、保险及物流等多个核心行业。
在接入方面智谱提供了灵活的 API 调用方式与批量处理工具。
相比传统人工录入或昂贵的专用软件GLM-OCR 将文档处理成本降低至 “白菜价”1 元可处理海量文档。
未来团队还将持续迭代计划推出更多尺寸版本并将能力拓展至更多语种及视频 OCR 领域。
AITOP100小编
总结GLM-OCR 以 “小尺寸、高精度” 重新定义了复杂文档处理的性价比标准。
其在复杂版式、手写印章及多语混排下的卓越鲁棒性叠加极低的部署成本与开放 API正在推动文档解析技术从单一的 “工具” 向行业通用的 “基础设施” 演进。
文章来源AITOP100原文链接https://www.aitop