核心内容摘要
XQuery 选择和过滤
Chandra开源模型详解ViT-EncoderDecoder架构与Apache
0商用适配指南
Chandra模型概述Chandra是由Datalab.to在2025年10月开源的布局感知OCR模型它能将图片和PDF文档一键转换为保留完整排版信息的Markdown、HTML或JSON格式。
这个模型特别擅长处理复杂文档元素包括表格、数学公式、手写内容和表单复选框等。
在权威的olmOCR基准测试中Chandra取得了
8
1的综合评分表现优于GPT-4o和Gemini Flash 2等知名模型。
对于需要处理大量文档转换的用户来说Chandra提供了高效且精确的解决方案。
核心特性与技术架构
1 模型架构Chandra采用ViT-EncoderDecoder的视觉语言架构设计视觉编码器基于Vision Transformer(ViT)负责提取图像特征语言解码器将视觉特征转换为结构化文本输出布局感知模块专门设计用于保留原始文档的排版信息这种架构使Chandra不仅能识别文本内容还能准确理解文档的视觉布局和结构关系。
2 性能表现Chandra在多个关键指标上表现出色老式扫描数学文档识别准确率
8
3表格识别准确率
8
0长小字识别准确率
9
3模型支持40多种语言其中中文、英文、日文、韩文、德文、法文和西班牙文表现最佳同时也支持手写体识别。
3 输出格式Chandra的一个显著特点是能同时输出三种格式Markdown适合文档编辑和知识管理HTML可直接用于网页展示JSON便于程序处理和RAG应用所有输出都保留原始文档的结构元素包括标题、段落、列、表格、图像标题及其坐标位置。
安装与部署指南
1 系统要求显存最低4GB推荐8GB以上操作系统Linux/Windows/macOSPython
8及以上版本
2 快速安装通过pip一键安装pip install chandra-ocr安装完成后系统会自动提供命令行界面(CLI)Streamlit交互页面Docker镜像
3 使用vLLM后端对于需要更高性能的场景可以使用vLLM后端首先安装vLLMpip install vllm启动vLLM服务python -m vllm.entrypoints.api_server --model chandra-ocr --tensor-parallel-size 2注意vLLM模式需要至少两张GPU卡才能正常运行单卡启动会失败。
实际应用示例
1 基本使用处理单个文件chandra process input.pdf --output output.md批量处理目录chandra batch-process input_directory/ --output output_directory/
2 输出格式选择指定输出格式chandra process input.jpg --format html同时输出多种格式chandra process input.pdf --format markdown html json
3 高级选项设置置信度阈值chandra process input.png --confidence
85指定语言默认为自动检测chandra process input.jpg --lang zh
商业使用与许可
1 许可条款Chandra采用双重许可模式代码Apache
0许可证权重OpenRAIL-M许可证
2 商业授权商业使用授权政策年营收或融资额低于200万美元免费商用超过200万美元需要单独授权这种灵活的授权模式使得初创公司和小型企业能够低成本使用先进的OCR技术。
性能优化建议
1 硬件配置推荐配置GPURTX 3060及以上内存16GB及以上存储SSD硬盘
2 vLLM优化使用vLLM后端时启用多GPU并行处理调整tensor-parallel-size参数匹配GPU数量单页处理约8k token平均耗时1秒
3 批量处理技巧处理大量文档时使用batch-process命令设置合理的并发数预先按类型分类文档
7.
总结与展望Chandra作为一款开源的布局感知OCR模型在文档识别和转换方面表现出色特别适合需要保留原始排版的应用场景。
其ViT-EncoderDecoder架构提供了强大的识别能力而Apache
0和OpenRAIL-M的双重许可则为商业应用提供了灵活性。
未来随着模型的持续优化和社区贡献Chandra有望在更多语言支持和特殊文档处理方面取得进一步突破。