核心内容摘要
【兽娘通信】萌即正义!在这个世界,你就是最可爱的那颗星!
GraphRAG是RAG技术的革命性进化通过构建知识图谱和社区发现使AI从翻书找词升级为全知视角。
它解决了传统RAG无法理解实体关系的局限能处理复杂关系分析和全局
总结。
尽管构建成本更高但在需要关系理解、多跳推理的场景中表现优异。
对于关系密集的知识库GraphRAG是实现既见木又见林的理想选择。
GraphRAG 技术封面最近在折腾 RAG 相关的东西发现一个挺有意思的现象——传统 RAG 在处理某些问题时简直就是智商掉线。
举个具体的例子。
我拿《三体》
做了个测试注选
是因为它够短、人物关系也相对简单方便验证想法不想被后面那两部复杂的剧情搞晕问它叶文洁是怎么联系上三体文明的“传统 RAG 毫无压力直接就给你翻到红岸基地”、发射信号这些段落。
但换个问法“ETO 组织到底是怎么搞起来的里面的人都是什么关系”它就抓瞎了。
为啥会这样说白了传统 RAG 就像个只会关键词搜索的愣头青它能找到单独的段落但把这些段落拼不起来。
它看不到 A 段落里的叶文洁和 B 段落里的伊文斯其实是一伙的更理解不了这帮人怎么就搞出了一个全球性的地下组织。
这就是所谓的见木不见林。
三体
人物关系网示例
GraphRAG 怎么解决这事儿2024 年初微软研究院扔出来一篇论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》提出了一个叫 GraphRAG 的方案。
核心思想其实挺直白不用向量相似度去找相似的片段而是先把文档里的实体和关系都抽出来建成一个知识图谱。
然后呢用 Leiden 算法在这个图谱上找社区——就是那些关系特别紧密的一群节点。
最后给每个社区生成一份摘要让查询的时候能既看到细节又看到全局。
还是那句老话传统 RAG 是在翻书找词GraphRAG 是在织网捕鱼。
传统 RAG 到底输在哪先看看传统 RAG 是怎么干活的代码层面其实就那几步文档切成小块
字一个 chunk用 Embedding 模型把 chunk 变成向量向量存数据库查询时把问题也转成向量找最相似的几个 chunk扔给 LLM 生成答案传统 RAG 工作流程这套流程有个致命伤它根本不理解关系。
传统 RAG 检索失败示意图你问叶文洁和汪淼有啥关系它大概率会给你两段独立的内容——一段讲叶文洁是谁一段讲汪淼是谁。
但实际上这俩人的关系是通过 ETO 事件串联起来的这个信息可能分散在好几个不同的章节里向量检索根本抓不住。
更别提那些跨越整个故事线的问题了比如ETO 是怎么从红岸基地的一个小项目变成全球组织的——这种问题需要你理解时间线、人物关系、事件因果传统 RAG 完全搞不定。
GraphRAG 的三板斧GraphRAG 的做法不太一样它分三个阶段GraphRAG 三阶段流程第一斧把文本变成图谱这个阶段不是简单切 chunk而是让 LLM 把每个内容块都嚼碎了提取出两样东西•实体人物、地点、组织、事件这些关键节点•关系这些节点之间怎么连着的比如原文是叶文洁收到红岸基地的信号后向三体世界发射了回复信号提取完就变成了• (叶文洁) --[收到信号]– (红岸基地)• (叶文洁) --[发射信号]– (三体世界)实体关系提取示意图整个文档跑一遍你就得到一个完整的知识图谱。
拿《三体》
来说最后能出来几十个节点、上百条关系边。
第二斧用算法找社区图谱建好了接下来就该 Leiden 算法登场了。
它的作用是在这个关系网里自动发现社区——那些关系特别紧密的一群节点。
知识图谱社区结构在《三体》
里Leiden 算法可能会找到这么几个社区• 红岸基地那帮人叶文洁、雷志成、杨卫宁• ETO 核心层叶文洁、伊文斯、申玉菲• 被卷进来的科学家汪淼、史强、丁仪• 三体游戏里的角色汪淼、周文王、牛顿、墨子最关键的是LLM 会给每个社区生成一份摘要。
这玩意儿特别有用相当于把整个关系网络压缩成了几个可理解的知识单元。
比如红岸基地社区的摘要可能是以叶文洁为核心包括雷志成、杨卫宁等人是发现外星文明信号的起点。
社区摘要生成示意图第三斧两种查询模式有了社区摘要GraphRAG 就能玩出两种查询方式局部模式 vs 全局模式局部模式从问题里的实体出发顺藤摸瓜。
适合问叶文洁和伊文斯怎么认识的这种具体的关系。
全局模式把所有相关的社区摘要都捞出来拼在一起看全局。
适合问ETO 的最终目标是什么这种宏观问题。
这个设计挺巧妙的——既保留了微观的细节追踪能力又有了宏观的全局视角。
技术角度对比一下向量检索 vs 图谱检索对比维度向量检索图谱检索数据结构高维向量空间节点边的图结构查询方式算余弦距离找相似的追踪关系路径多跳推理优势实现简单查得快能理解关系支持复杂推理局限看不到实体之间的关系构建成本高查得慢适用事实检索、语义匹配关系分析、全局
总结一句话
总结向量检索是找相似的图谱检索是找关联的。
实战用 RAGFlow 跑个 GraphRAG理论扯完了来点实际的。
市面上支持 GraphRAG 的工具不少我用 RAGFlow 演示一下主要是它有可视化界面上手快。
RAG 技术演进路线RAGFlow 是个开源的 RAG 引擎从文档解析到知识检索全流程都覆盖到了。
最新版本里已经内置了 GraphRAG 组件配置起来也不复杂。
假设你手头有《三体》
的文本文件想搞个知识库来回答那些复杂问题大概流程是这样的上传文档先在 RAGFlow 里建个知识库把文本文件传上去注我还是用
篇幅适中、人物关系清晰方便验证效果。
配置 GraphRAG在工作流里加个 GraphRAG 组件主要配置几项• 用哪个 LLM 做实体提取GPT-
DeepSeek 都行• 关系提取关注哪些类型人物关系、组织关系、事件关系• 社区检测用 Leiden 算法社区规模阈值设多大• 每个社区的摘要写多长跑构建点运行RAGFlow 会自动完成用 LLM 抽取所有实体和关系构建知识图谱Leiden 算法找社区给每个社区生成摘要这个过程耗时不好说取决于文档大小和 LLM 的速度。
测试一下构建完成后试试这几个问题问叶文洁和伊文斯是什么关系GraphRAG 会定位到叶文洁这个节点然后顺着关系网络摸过去——ETO 组织、他们的相遇过程、共同创立组织的历史。
最终给出的答案大概是这样的两人通过审判日邮件列表认识一起搞了个地球三体组织ETO伊文斯出钱叶文洁出与三体文明的关系。
局部查询演示图问ETO 的最终目标是什么GraphRAG 会把红岸基地社区、ETO 核心社区的摘要都捞出来整合分析一下。
答案大概是这样的ETO 的目标是帮三体文明占领地球、消灭人类文明他们认为人类自己解决不了环境问题。
全局查询演示图拿同样的问题问传统 RAG它可能找到一些片段但很难拼出这么完整的逻辑链。
GraphRAG vs 传统 RAG 对比效果图
几个主流工具对比各大工具架构对比微软官方 GraphRAG微软发论文的时候顺便开源了 Python 实现 microsoft/graphrag。
优点是开箱即用、文档齐全支持局部和全局两种查询模式内置了各种 LLM 的接口。
装起来也简单一行pip install graphrag搞定。
LlamaIndexLlamaIndex 有个KnowledgeGraphIndex可以比较轻量地集成到现有 RAG 流程里。
支持多种图数据库后端和现有流程结合起来比较顺滑。
LangChainLangChain 通过GraphCypherQA这些组件可以和 Neo4j 之类的图数据库集成。
架构设计比较灵活支持多种图数据库Cypher 查询也很方便。
RAGFlowRAGFlow 是国产化的方案内置了 GraphRAG 支持。
优势在于可视化工作流配置零代码/低代码就能用部署起来也比较简单。
代价和取舍成本与性能对比没啥技术是银弹GraphRAG 也不例外。
上这个技术之前得先算算账。
成本这块Token 消耗会明显增加。
构建索引的时候得用 LLM 把所有文档都理解一遍把实体和关系都抽出来。
Token 消耗大概是普通 RAG 的
倍。
拿《三体》
大概 20 万字来说• 传统 RAG20 万 tokens 左右用于嵌入• GraphRAG
万 tokens包括提取和摘要计算资源方面LLM 调用成本肯定要高不少。
Leiden 算法倒是不怎么耗 GPU但图谱得存在内存里。
性能考量构建时间差距挺大• 传统 RAG几分钟到几十分钟看文档大小• GraphRAG几小时到几十小时得等 LLM 慢慢处理查询速度• 传统 RAG几百毫秒• GraphRAG 局部模式几百毫秒• GraphRAG 全局模式几秒钟得整合社区摘要准确性这块简单问题事实检索两者差不多但复杂问题关系分析、全局
总结GraphRAG 明显更强。
啥时候用 GraphRAG适合用的场景• 复杂关系分析人物关系、组织结构、事件脉络• 全局性
总结财报风险分析、竞争格局分析• 需要多跳推理的查询• 知识库本身关系密集小说、法律文书这种不适合用的场景• 简单客服问答查快递、查政策• 文档量很小直接上 LLM 就够了• 预算有限、对延迟敏感• 知识库关系稀疏技术文档一句话建议真需要全局理解的时候再上 GraphRAG别拿牛刀杀鸡。
八、
总结GraphRAG 算是 RAG 技术演进里挺重要的一步——它让 AI 从翻书找词进化到了全知视角。
通过知识图谱、社区发现、全局摘要这些手段它能回答传统 RAG 搞不定的宏观问题。
但这个能力是有代价的——成本更高、构建更慢。
关键在于选对场景当你的问题真的需要既见木又见林的时候GraphRAG 才值得投入。
未来几个方向挺值得关注更高效的实体提取减少 LLM 调用、增量更新动态更新知识图谱、和智能体结合GraphRAG Agentic RAG、多模态扩展从文本到图像视频的关系理解。
AI大模型从0到精通全套学习大礼包我在一线互联网企业工作十余年里指导过不少同行后辈。
帮助很多人得到了学习和成长。
只要你是真心想学AI大模型我这份资料就可以无偿共享给你学习。
大模型行业确实也需要更多的有志之士加入进来我也真心希望帮助大家学好这门技术如果日后有什么学习上的问题欢迎找我交流有技术上面的问题我是很愿意去帮助大家的如果你也想通过学大模型技术去帮助就业和转行可以扫描下方链接大模型重磅福利入门进阶全套104G学习资源包免费分享
从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点
AI大模型学习路线图还有视频解说全过程AI大模型学习路线
学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的
大模型面试题目详解
这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。
目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制且资料与智泊AI共享相互补充。
这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。
课堂上不光教理论还带着学员做了十多个真实项目。
学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。
零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。
业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。
获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】