🦙下一代RAG技术:GraphRAG

type
status
date
slug
summary
tags
category
icon
password
😀
通过 LLM 构建知识图谱结合图机器学习,极大增强 LLM 在处理私有数据时的性能,同时 GraphRAG 具备连点成线的跨大型数据集的复杂语义问题推理能力。
 

📕特性

  • 提供 Index、Query 工具链与建模工具
  • - 提供 Graph Prompt 调优能力

🏠 GraphRAG 介绍地址:

普通 RAG 技术在私有数据,如企业的专有研究、商业文档表现非常差 而 GraphRAG 则基于前置的知识图谱、社区分层和语义总结以及图机器学习技术可以大幅度提供此类场景的性能
  • 问答问题需要遍历不同信息片段提供综合简介
  • 从大型文档中摘要语义概念
GraphRAG 基于微软图形机器学习的研究和工具沉淀的解决方案:
  • 企业图谱:

GraphRAG 的流程:

  • Index:将输入切分成 TextUtils,使用 LLM 提取三元组和实体关系、使用 Leiden 对图进行聚类分层 形成层级社区,并且提供每个社区的语义化摘要
  • Query:Global 和 Local 搜索
  • Global Search:利用社区摘要进行全局搜索
  • Local Search:查询特定实体相邻或相关概念搜索

Global Search 参考 DSL 和 Prompt 实现:

Local Search 参考:
 

GraphRAG 论文已经发布:

notion image
 

微软还发布了一个解决方案加速器,如果你不想自己搞整套流程,可以使用 Azure 的解决方案:

 

GraphRAG 的核心数据流如下:

notion image
 

关于如何进行 Global Search 和 Local Search,GraphRAG 也提供了两个 Notebook 实例:

GraphRAG 对于「全局问题」的优势分析:

  • 朴素 RAG 只考虑 K 个最相似的文本块,并无依赖关系,甚至可能是表面相似的答案,导致问题
  • 而 Global Search 则是针对 Indexing 阶段建立的社区摘要形成对图谱数据的整体理解,提供了事实性的支撑

Global Search 原理:

  • 按 LLM 窗口大小拆分社区总结
  • 基于问题映射匹配社区分组,生成答案
  • 汇总所有社区分组答案,形成最终全局答案
 

GraphRAG 在大规模播客数据、以及新闻数据上进行评估:

  • 播客数据:8564 个节点,20691 条边
  • 新闻数据:15754 个节点,19520 条边
评估全面性、多样性、赋权性,结果显示 GraphRAG 优于朴素 RAG(70~80% 获胜率),即使是使用一些 low level 的社区摘要时,也优于普通的 top k 召回
notion image
 

GraphRAG 的局限:

  • Index 和全局搜索等成本较高
  • 响应速度较慢
  • 构建良好索引的技术门槛高:微软提供了解决方案加速器
Loading...

No results found.