核心内容摘要
绯染的天空:八重神子与丘丘人的意外情缘,稻妻从未透露的秘密
Chandra OCR医疗文档应用病历扫描件结构化提取诊断关键词Markdown标注
医疗文档处理的痛点与解决方案医疗行业每天产生大量病历、检查报告等纸质文档传统人工录入方式存在效率低、错误率高的问题。
Chandra OCR为解决这一痛点而生它能将医疗扫描件自动转换为结构化Markdown同时标注关键诊断信息。
这个基于vLLM的开源方案有三大优势保留原始排版精确识别病历中的表格、手写医嘱等复杂元素结构化输出直接生成带标题层级和关键词标注的Markdown开箱即用4GB显存即可运行无需复杂配置
快速安装与部署
1 环境准备确保系统满足NVIDIA显卡RTX 3060及以上4GB以上显存Python
3.
8
2 一键安装pip install chandra-ocr
3 启动服务chandra serve --backend vllm --gpus 2注意需要至少两张显卡才能正常启动服务
医疗文档处理实战
1 病历扫描件处理将扫描的病历PDF转换为结构化Markdownfrom chandra import process_document result process_document( patient_record.pdf, output_formatmarkdown, medical_keywordsTrue # 启用诊断关键词标注 ) print(result)
2 输出示例处理后的Markdown会保留原始排版并标注关键信息# 门诊病历 - 张三 **主诉** [咳嗽] [发热] 3天 ## 体格检查 - 体温
3
5℃ [发热] - 呼吸音双肺可闻及 [湿啰音] ## 诊断意见
[社区获得性肺炎]
[急性支气管炎]
3 批量处理处理整个文件夹的医疗文档chandra batch-process ./medical_records/ --output ./structured_md/
医疗场景专项功能
1 诊断关键词自动标注Chandra内置医疗知识图谱能自动识别并标注症状术语[咳嗽]、[发热]疾病名称[肺炎]、[糖尿病]检查指标[白细胞升高]
2 表格数据提取完美处理检验报告中的复杂表格项目结果参考值标注WBC
1
2.
[白细胞升高]CRP
2
8.
[C反应蛋白升高]
3 手写体识别准确识别医生手写内容[阿莫西林]
5g q8h ×7天 [布洛芬]
2g prn [发热]
性能优化建议
1 硬件配置常规病历RTX 306012GB可满足需求批量处理建议使用RTX 4090或A
1
2 速度优化启用多GPU并行chandra serve --backend vllm --gpus
4
3 精度调优针对模糊文档使用增强模式process_document(old_record.jpg, enhanceTrue)
6.