国产玖玖

核心内容摘要

当你的名字,成为她心底最温柔的旋律
别只顾着“逼逼”!那些让你脱颖而出的“靠谱”秘籍

ww我的快乐在哪里:一场与内在小孩的温柔对话

“多模态RAG是一项非常复杂的系统需要分布解决文档解析嵌入多模态融合上下文构建等。

”RAG技术虽然还存在很多问题但基本上已经可以应用于真实的业务场景并且用来解决部分实际问题但随着业务场景越来越复杂多模态RAG也被提上了日程因为有些场景下单纯的文本解决不了问题。

如各种领域内的设计图产品图架构图单纯靠文字描述很难解决问题所以才有了多模态RAG当然多模态RAG并不是一个新概念而且已经被提出了一段时间如果单纯从理论上来讲多模态RAG很简单只是在之前的RAG上加上了多模态数据但在真实的工程开发中多模态却面临着各种各样的问题。

所以今天我们就来简单记录一下多模态系统是怎么实现的然后存在哪些问题。

多模态RAG实现流程多模态RAG既然是在基础RAG之上增加了多模态数据那么它依然遵循RAG的完整流程文档解析–入库–检索召回–生成。

而由于多模态数据的特殊性它和传统的纯文本处理还存在很大的差别首先在第一步文档解析需要把文档中不同模态的数据提取出来如文本图片等然后分别存储并构建关联关系。

{ file_id: 文件id, page_no: 页码, text: 文本描述, img: [图片地址, 图片地址] }关于文档解析可以使用多种技术如使用一些文档处理库自己手动解析文档中的文本图片页码等信息其次也可以使用VLM模型进行解析或者使用OCR技术(解析文本表格类文档)亦或者是第三方文档解析服务。

总之文档解析的第一步就是提取文档中不同模态的数据并保留结构和元数据信息。

入库与检索多模态文档入库的目的和传统RAG一样都是为了进行向量相似度计算但多模态文档入库有两种方式内容提取转换为文本说明然后通过文本语义相似度进行检索多模态嵌入模型使用模态融合的方式直接把不同模态的数据转换成同一向量空间进行检索包括文字图片视频音频等模态数据经典模型如CLIP。

当然在以后可能还会存在其它方法解决多模态检索的问题如不同模态的数据分块进行检索即文本数据用来检索文本内容图片数据用来检索图片内容最后把不同模态数据的检索结果进行合并或者其它新的算法出现。

总之你用什么样的方法存就要用对应的方法取多模态数据涉及到多种算法包括但不仅限于跨模态对齐多模态表示多模态融合等最终目的只有一个那就是怎么更好的处理不同模态的数据。

生成在RAG中检索的目的是为了增强生成因此生成才是最后一步也是最重要的一步否则前面检索做的再好也没有任何意义。

而在生成过程中最重要的就是构建上下文合理的上下文有利于模型理解和生成。

在文本RAG中上下文构建只需要按照提示词模板把用户问题历史记录参考文档等拼接到一块即可但在多模态中因为涉及到多种模态的数据因此其上下文构建要复杂得多因为目前多模态模型的接口都是把文本和图片分开处理的所以这个对应关系怎么搞。

而且在多模态RAG中前面的检索和上下文构建好之后还需要模型的理解和生成能力这个就需要靠模型自己了比如说互联网的产品设计图和房地产的产品设计图以及铁路交通等设计图结构侧重点都不一样针对这些特定的行业可能需要对模型进行适当的训练和优化否则很难达到想要的效果。

总结多模态RAG实操要远比理论复杂的多我们没有办法一次性解决所有问题只能按照RAG的整体框架一步一步的解决问题和优化问题而在多模态RAG中作者认为最核心的三个步骤就是文档解析嵌入和生成对应的就是智能文档处理多模态融合嵌入上下文构建。

其中对模型来说它需要的是一个结构化的文本图片视频音频等内容组成的一个多模态上下文而嵌入是解决怎么存储和检索多模态数据包括内容

总结多模态融合等技术解决的构建上下文的数据从哪来怎么来的问题而文档解析的目的是对文档进行拆分然后方便存储和检索。

来源AI探索时代免责声明本文版权归原作者及原出处所有内容为作者****观点并不代表本公众号赞同其观点及对其真实性负责。

如涉及版权等问题请及时与我们联系我们立即更正或删除相关内容。

本公众号拥有对此声明的最终解释权。

学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

扌喿比-扌喿比应用

百度百家号客服电话人工服务

123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123 123