人工智能咨询培训老师叶梓 转载标明出处
大模型(LLMs)在预训练后,如何有效地整合大量新经验,同时避免灾难性遗忘,一直是人工智能领域的难题。尽管已有的检索增强生成(RAG)方法为LLMs提供了长期记忆的解决方案,但这些方法在处理需要跨段落整合新知识的复杂任务时仍然力不从心。图1通过一个例子说明,如果要找到一个既与斯坦福大学有关又研究阿尔茨海默病的教授,当前的RAG系统由于孤立地编码每个段落,很难找到这位教授,除非一个段落同时提到这两个特征。这与人类大脑的关联记忆能力形成对比,人类可以迅速通过海马体的索引结构(上图中的C形结构)回忆起这位教授。
为了解决这一挑战,来自俄亥俄州立大学和斯坦福大学的研究人员提出了一种名为HippoRAG的新型检索框架,灵感来源于人类长期记忆的海马索引理论。
方法
海马记忆索引理论详细描述了人类长期记忆中的三个关键组成部分:新皮层、海马旁区域(PHR),以及海马体。这三个部分协同工作,实现了模式分离和模式完成两个主要目标。模式分离确保不同感知经验的表征是独特的,而模式完成则允许从部分刺激中检索完整的记忆。
图2 展示了HippoRAG如何模仿这一过程,包括以下两个阶段:
-
离线索引阶段:类似于人类记忆的编码过程,使用一个指令调整的大型语言模型(LLM)作为人工新皮层,通过开放信息提取(OpenIE)技术从文本语料库中提取知识图谱(KG)三元组。这些三元组以离散的名词短语形式存在,而不是密集的向量表示,从而实现更细粒度的模式分离。人工海马索引被定义为这个开放的KG,它是逐段构建在整个检索语料库上的。为了连接这两个组成部分,类似于PHR的作用,使用了为检索微调的现成密集编码器(检索编码器),在KG内相似但不完全相同的名词短语之间提供额外的边,以帮助下游的模式完成。
-
在线检索阶段:模仿人脑的记忆检索过程。基于LLM的新皮层从查询中提取一组显著的命名实体,称为查询命名实体。然后,这些命名实体通过检索编码器与KG中的节点联系起来,这些选定的节点被称为查询节点。一旦选择了查询节点,它们就成为人工海马体执行模式完成的部分线索。为了模仿海马体中神经通路的高效图搜索过程,利用了个性化PageRank(PPR)算法,这是一个只通过一组用户定义的源节点在图中分布概率的PageRank版本。这种约束允许输出偏向查询节点集合,就像海马体从特定部分线索中提取关联信号一样。最后,聚合PPR节点概率在先前索引的段落上,并用它来对它们进行排名以进行检索。
在图2的示例中,可以看到涉及Thomas教授的三元组被提取并整合到KG中。在在线检索阶段,LLM新皮层从查询中提取了命名实体"Stanford"和"Alzheimer’s",然后通过检索编码器将它们链接到KG中的相应节点。PPR算法随后在海马索引上运行,最终通过聚合PPR节点概率来对段落进行排名,以实现检索。
HippoRAG还引入了节点特异性的概念,这是一种神经生物学上合理的改进检索的方法。节点特异性定义为节点在P中出现的次数的倒数,作为一种局部信号,替代了需要全局聚合的逆文档频率(IDF)。在图2中,通过符号大小表示节点特异性:"Stanford"标志比"Alzheimer’s"标志大,因为它出现在较少的文档中,体现了其更高的节点特异性。这种方法允许HippoRAG在检索过程中调节查询节点及其邻域的概率,从而提高检索的准确性。
想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
留言“参加”即可来叶老师的直播间互动,1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。
实验
实验主要在两个具有挑战性的多跳问答(QA)基准测试集上评估HippoRAG的检索能力:MuSiQue和2WikiMultiHopQA。此外,尽管HotpotQA被认为对于多跳推理的测试较弱,但由于其完整性,也包括在内。为了限制实验成本,从每个验证集中提取了1,000个问题。为了创建一个更现实的检索环境,根据IRCoT的方法,收集了选定问题的所有候选段落(包括支持和干扰段落),并为每个数据集形成了一个检索语料库。表1展示了每个数据集的检索语料库和提取的知识图谱(KG)的统计数据。
- MuSiQue有11,656个段落(P),91,729个唯一节点(N),21,714个唯一边(E),107,448个唯一三元组。
- 2WikiMultiHopQA有6,119个段落,42,694个唯一节点,7,867个唯一边,50,671个唯一三元组。
- HotpotQA有9,221个段落,82,157个唯一节点,17,523个唯一边,98,709个唯一三元组。
- 在Contriever和ColBERTv2生成的同义词边(E′)的数量也被列出。
HippoRAG与几种强大且广泛使用的检索方法进行了比较,包括BM25、Contriever、GTR和ColBERTv2。此外,还与两个最近的大模型增强型基线进行了比较:Propositionizer和RAPTOR。除了上述单步检索方法外,还包含了多步检索方法IRCoT作为基线。
使用recall@2和recall@5(R@2和R@5)来评估检索性能,使用精确匹配(EM)和F1分数来评估QA性能。
默认情况下,使用GPT-3.5-turbo-1106作为大模型L,Contriever或ColBERTv2作为检索器M。使用MuSiQue训练数据中的100个示例来调整HippoRAG的两个超参数:同义词阈值τ设置为0.8,PPR阻尼因子设置为0.5。HippoRAG的性能通常对其超参数具有鲁棒性。
表2 显示了单步检索结果。HippoRAG在MuSiQue和2WikiMultiHopQA数据集上超越了所有其他方法,并在较不具挑战性的HotpotQA数据集上取得了可比的性能。
表3 显示了多步检索结果。将HippoRAG与标准的多步检索方法如IRCoT结合使用,在所有三个数据集上都取得了显著的改进。
表4 显示了问答性能。HippoRAG在单步和多步检索设置中的改进导致了在MuSiQue、2WikiMultiHopQA和HotpotQA上的F1分数分别提高了3%、17%和1%。
值得注意的是,单步HippoRAG在在线检索期间的成本比IRCoT低10-30倍,速度比IRCoT快6-13倍。这些结果表明,HippoRAG不仅在检索性能上取得了显著的改进,而且在成本和效率方面也具有明显的优势。
https://arxiv.org/pdf/2405.14831
https://github.com/OSU-NLP-Group/HippoRAG