核心内容摘要
回看23年的llm学习
本文将探索属性图及其在提升数据表示和检索中的作用同时借鉴 Ravi ThejaLlamaIndex AI 工程师和布道师关于属性图的系列内容。
通过这篇文章我们将对如何使用 LlamaIndex 实现 GraphRAG 有一个清晰的理解并附上一份实践指南助您入门。
以下为译文01 进化从知识图谱到属性图谱首先让我们回顾下知识图谱KG的概念。
知识图谱使用主体、对象和谓语的三元组结构来定义关系就像一个基础的家谱。
它展示了人与人之间的关系但没有个人的详细信息。
来源LlamaIndex每个节点绿色和蓝色有“标签”承载了诸如类别的特定信息。
它们就像家庭聚会的姓名标签告诉你约翰是个人旧金山是一个城市。
谓语边定义了这些节点之间的关系和方向。
进入属性图PGPG 结构不仅包含主体、客体和谓语还包含了每个实体附加的属性比如名称/属性值对等。
就像是从一个只包含姓名标签的基础家谱升级为带有每个家庭成员的详细资料的详细版家谱。
来源LlamaIndex在这个详细版家谱中约翰不仅仅是一个人还记录了他今年 30 岁的年龄信息。
旧金山也不仅仅是一个城市是一座人口有 850 万的城市。
有趣的是甚至是谓语也可以有自己的属性让实体之间的联系都有了细节。
比如约翰与旧金山是什么关系我们可以添加“约翰从 2006 年就住在旧金山”的信息。
这就像是在家谱上添加便签详细描述所有细节。
OpenSPG 是一个语义增强的可编程知识图谱GitHub地址如下欢迎大家Star关注~https://github.com/OpenSPG/openspg02 如何构建属性图谱那么如何将我们的基础家谱升级为这个信息翔实的网络呢仅需要两步PG 构建和查询。
下面让我们逐步讲解来源LlamaIndex
1 第一步图谱提取构建阶段有三种方法
ImplicitPathExtractor这就像整理书架你不需要阅读每一本书只是按顺序排列。
在下面的图中大文本 E 被分为小块的文本 AB 和 C。
这三个部分之间的关系定义为 A 在 B 之前B 又在 C 之前它们都属于源文本 E。
所以ImplicitPathExtractor 将原始文档分割成一个有序的块节点列表以及它们之间的节点关系作为词汇图。
而且这个过程不需要 LLM 的参与。
SimpleLLMExtractor使用一个 LLM 从文本片段中提取实体和关系这就像是你有一个非常聪明的朋友阅读一本书然后告诉你书中所有的人物及其关系。
在下面的例子中我们使用 LLM 从文本片段中抽取出 4 个实体太阳、猫、窗户和垫子以及它们之间的关系。
这里的 LLM 可以是像 Llama3 这样的开源版本因为我们不需要调用原生函数。
请注意所有节点都使用相同的节点标签每个文本片段都通过“提及”关系与其它实体相关联这些实体之间还可以有进一步的关系。
来源LlamaIndex
SchemaLLMPathExtractorSchemaLLMPathExtractor 和 SimpleLLMExtractor 类似但它使用预定义的 Schema可以提前定义待提取的实体、节点标签和关系。
这就像是给你的“聪明朋友”提供了一份在书中查找特定内容的问题清单比如“告诉我这本书中的主角、反派和背景设定”等问题。
还是以之前的文本片段为例如果把问题限定在“垫子”这个实体及其关系中属性图将被截断如下所示。
还有一点不同在于SchemaLLMPathExtractor 最适合配合 LLM 使用支持函数调用且节点可以有不同的节点标签。
来源LlamaIndex
2 幕后英雄实体消歧创建属性图后下一个步骤应该是检索其实中间还有一个经常被忽视的重要步骤就是“实体消歧”。
这一步骤类似于 ETL (Extract-Transform-Load) 流程中的数据清洗通过文本嵌入相似度和词汇距离来移除潜在的重复项。
再拿家谱的例子来说这个步骤可以确保你不会混淆家谱中两个同名的人。
比如约翰叔叔和堂兄弟约翰是同一个人吗这个步骤有助于澄清这一点。
来源Neo4j
3 第二步图检索器查询阶段现在我们已经建好了这个详细的家谱如何在里面查找信息呢我们有四种工具来源LlamaIndex
LLMSynonymRetriever顾名思义它根据用户的查询生成同义词和关键词以找到最近的节点及其邻居。
唯一的缺点是它使用关键词搜索不太可靠。
这就像是向你的姨妈询问家族历史她可能会跑题但你也会得到一些有趣的相关信息。
VectorContextRetriever这个检索器使用嵌入和余弦相似性进行向量相似性搜索以检索相关的节点。
它可以直接用于图数据库或者是图和向量数据库的组合。
值得注意的是它不适合需要聚合响应的全局查询更像是用于你的家谱的搜索引擎。
适合特定问题但不适用于“告诉我关于家族的历史”的查询。
来源LlamaIndex
Text2Cypher这里使用 LLM 根据用户查询生成 Cypher 语句然后从图数据库中获取数据。
Text2Cypher 适用于需要聚合的全局查询。
这就像是有一个翻译他可以把你的问题转化为你的家谱能理解的语言。
当然 LLM 生成的 Cypher 语句并不总是准确但我们正在以准确度换取灵活性所以在这里建议使用微调的本地模型。
来源LlamaIndex
CypherTemplateRetriever在此我们可以使用带有特定参数的 Cypher 模板。
对于用户查询我们会使用 LLM 来填充这些参数以创建用于检索的 Cypher 查询。
这在很大程度上解决了 LLM 生成错误 Cypher 语句的问题就像预先写好问题的框架你只需要填空就好了降低了提出家谱无法理解的问题的可能性。
来源LlamaIndex03 整合GraphRAG 开始工作实际上GraphRAG 就好比把你家详细的家谱交给一个超级智能的家族历史学家。
传统的 RAG检索增强生成系统经常在回答宽泛主题的问题上遇到困难。
这是因为这类问题需要对整个数据集有全面的理解而不仅仅是检索特定信息。
所以GraphRAG 在以下场景中表现出色在大型数据集中识别核心主题理解不同主题之间的关联全面了解复杂的信息架构感谢 Ravi Theja我们现在有了使用 LlamaIndex 实现 GraphRAG 的教程。
教程链接https://github.com/run-llama/llama_index/blob/main/docs/docs/examples/cookbooks/GraphRAG_v
ipynb从知识图谱到属性图谱再到 GraphRAG 的发展标志着我们对数据的理解和交互方式发生了重大转变。
GraphRAG 在揭示隐藏模式和回答开放性问题方面展现出潜力但也只是我们工具箱中的众多工具之一其真正的价值要通过实际应用和持续研究来确定。
想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2026 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容
学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI
100本大模型方向电子书
26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC
实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
600套技术大会 PPT听行业大咖讲实战PPT 整理自
年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌
107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自
年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析
102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑
97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”
路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。
L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、
关键技术以及大模型应用场景。
L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。
L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。
L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。
L5阶段专题集丨特训篇 【录播课】