【RAG最新总结】检索增强生成最新进展2024-2025

发布于:2025-06-05 ⋅ 阅读:(82) ⋅ 点赞:(0)

检索增强生成(RAG)的最新进展与未来展望(2024年以来)

I. 引言:检索增强生成的演进与重要性

A. RAG的定义:核心原则及其在现代大型语言模型中的意义

检索增强生成(Retrieval-Augmented Generation, RAG)是一种旨在通过整合外部知识源来增强大型语言模型(LLM)能力的技术范式。其核心目标是使LLM能够生成更准确、与上下文更相关且信息更新的回复 1。RAG系统通过结合LLM强大的文本生成能力和实时的外部数据检索能力,有效地弥补了传统LLM在知识时效性和事实准确性方面的不足 2。RAG的基本流程通常包括查询编码(Query Encoding)、文档检索(Document Retrieval)、上下文融合(Contextual Fusion)和响应生成(Response Generation)四个关键步骤 3。

RAG不仅仅是对LLM的简单补充,更代表了一种根本性的架构转变,旨在解决LLM固有的局限性。其重要性在于,通过将LLM的输出锚定在可验证的事实基础上,RAG推动了人工智能向更可信赖的方向发展。理解RAG的基本工作流程是深入探讨其后续复杂机制和创新技术的前提。

B. 应对LLM的局限性:RAG在提升准确性和时效性方面的作用

传统的大型语言模型由于其训练数据的静态性,普遍存在知识截止(knowledge cut-offs)的问题,导致模型内部知识可能过时,并且容易产生“幻觉”(hallucinations),即生成看似合理但实际上不正确或无事实依据的信息 1。RAG通过引入外部动态知识源,直接应对了LLM的这些核心缺陷,显著提升了生成内容的准确性和时效性 1。通过将模型的回答锚定在检索到的文档上,RAG有效地减少了幻觉现象的发生 1。这种基于事实的生成机制对于那些对信息可靠性有高度要求的应用场景至关重要,例如企业级应用、医疗诊断和法律咨询等领域。

C. RAG的演进:从基础模型到2024-2025年的高级范式

RAG技术自提出以来经历了显著的演进。早期的RAG系统主要依赖于简单的关键词匹配进行检索,并进行一次性的信息检索与生成。然而,随着研究的深入,特别是进入2024-2025年,RAG架构展现出向更复杂、更智能方向发展的趋势 7。高级RAG范式开始整合诸如查询重写(query rewriting)、重排序(re-ranking)、混合检索(hybrid retrieval)等创新技术,并采用基于组件的模块化架构 7。

这一演进反映了RAG领域的成熟,标志着其正朝着更鲁棒、高效和智能的系统发展,这些系统能够处理更复杂的推理任务并支持多样化的数据类型。当前的趋势表明,RAG架构越来越注重动态性、上下文感知能力以及自我提升能力 7。这种发展不仅仅是为了优化检索过程,更是为了在检索器和生成器之间建立一种更具协同效应的关系,这种关系往往涉及到迭代式的处理流程和反馈循环。其深层动因在于需要处理日益复杂的查询,并确保检索到的知识能够被真正有意义地整合,而非仅仅是表面上的信息堆砌。

II. RAG核心组件与预处理的进展(2024-2025年)

RAG系统的性能在很大程度上取决于其核心组件的质量以及数据预处理的精细程度。近年来,这些方面均取得了显著进展。

A. 分块策略的创新

传统的固定大小分块(fixed-size chunking)方法由于其机械性,常常导致上下文信息的碎片化,影响后续的检索和生成质量 16。为了克服这一缺陷,研究者们提出了多种先进的分块策略,旨在更好地保留文本的语义连贯性和结构信息。

语义分块(Semantic Chunking) 是一种重要进展,它依据文本块嵌入向量的语义相似性来对句子进行分组,从而生成语义上更内聚的文本块 18。上下文检索(Contextual Retrieval)延迟分块(Late Chunking) 等技术则致力于在分块过程中最大程度地保留全局上下文信息 16。

基于文档结构的分块(Document-based chunking) 利用文档固有的结构信息(如Markdown的标题、章节等)进行切分,使得分块结果更符合文档的逻辑层次 18。一个突出的例子是 MAL-RAG(Multiple Abstraction Level RAG),该方法在不同粒度级别(如文档级、章节级、段落级、多句级)上对文档进行分块,并对较高层级的块采用MapReduce等方法生成摘要信息,这显著增强了对复杂科学文献等深度文本的理解能力 17。

此外,递归分块(Recursive chunking) 通过迭代使用预设的分隔符(如换行符、空格等)来切分文本,直至达到期望的块大小,同时尽可能保持段落、句子等语义单元的完整性 18。更进一步,智能体分块(Agentic chunking) 利用LLM自身的理解能力,根据文本的语义含义和内容结构(如段落类型、章节标题、步骤说明等)来动态决定最优的切分点 18。在工程实践层面,关于高级分块的讨论还涉及到如何合并过小的文本块以及如何有效处理元数据,这些思考催生了如Docling项目中的 HybridChunker 等混合分块器的出现 20。

这些分块策略的演进清晰地表明,RAG系统正从简单的机械式文本切分转向更智能、更侧重内容感知的分割方法。其核心目标是生成既易于后续嵌入和检索,又包含足够上下文信息以供生成器有效利用的文本块。例如,MAL-RAG的层级化分块方法对于需要深度理解和多层次信息整合的任务尤为重要。这种对上游分块质量的重视,源于一个基本认知:分块质量直接决定了后续整个RAG流程的上限。如果文本块定义不佳(例如,在句子或主题中间随意切断),那么后续的嵌入和检索步骤必然会继承这种缺陷。即使拥有最先进的检索算法,如果信息的基本单元本身缺乏意义,检索效果也会大打折扣。因此,高级分块策略旨在创建“检索友好”且“生成友好”的信息单元,这对提升最终答案的相关性和连贯性具有直接且深远的影响。

B. 嵌入与索引技术的发展

文本块的向量化嵌入(Embedding)和高效索引(Indexing)是RAG系统的另两个核心环节。

尽管高维向量嵌入是RAG的核心,但在实际应用中,以常见的float32精度大规模存储这些嵌入向量会带来巨大的内存挑战 21。因此,诸如量化(quantization)和降维(dimensionality reduction)等技术被积极探索以缓解存储压力 21。2024至2025年间的嵌入模型本身也取得了显著进步,例如出现了针对特定领域优化的嵌入模型、支持更长上下文窗口(如8K+ tokens)的模型,以及具备强大跨语言能力的模型 9。

索引技术的目标是将数据转化为可高效搜索的结构。在这一领域,关键的考量因素包括平衡索引大小、搜索速度和准确性,并确保索引能够及时反映知识库的更新 22。诸如Pinecone、Weaviate、Chroma等专门的向量数据库针对这些需求进行了优化,为RAG系统提供了高效的存储和检索支持 9。

一个值得关注的创新方向是__基于图的文本索引(Graph-enhanced text indexing)__,典型代表如 LightRAG。这类方法利用LLM从文本块中识别实体(作为图的节点)和它们之间的关系(作为图的边),并为每个节点和边生成键值对。其中,“键”用于高效检索,而“值”(通常是概括性的文本)则辅助生成。通过去重操作可以优化图的结构,减少冗余,提升后续图操作的效率 5。

嵌入和索引技术的发展主要由提升效率和增强语义表达能力这两个核心需求驱动。基于图的索引方法(如LightRAG所采用的)标志着从传统的扁平化向量存储向更结构化、更富含连接关系的知识表达方式的重大转变。这不仅仅是创建嵌入向量,更关键的是如何高效管理这些嵌入,并确保它们能够捕捉到多样化、复杂数据(包括多模态数据)所需的丰富语义。向图索引的转变,暗示了显式表达知识间关系的需求日益增长,而这正是扁平化嵌入所难以直接实现的。传统的向量搜索依赖于高维空间中的语义相似度计算,虽然强大,但在处理那些实体间关系至关重要的复杂查询时,可能会遗漏关键信息或难以进行精确推理。基于图的索引直接编码了这些关系,允许检索过程沿着这些连接进行,从而能够获取更精确、上下文更丰富的检索结果集,尤其有利于支持多跳推理(multi-hop reasoning)。这代表了使知识库中的“知识”更明确化、更易于导航的趋势。

C. 高级检索机制

检索机制本身也在不断进化,以适应更复杂的查询需求和数据环境。

现代RAG系统的检索过程已远超简单的最近邻搜索,趋向于采用混合检索、多阶段检索和上下文感知检索等高级策略 9。混合检索(Hybrid Search) 是一个重要的发展方向,它结合了稠密检索(dense retrieval,基于语义和向量)和稀疏检索(sparse retrieval,基于关键词,如BM25、TF-IDF)的优势 9。一些实现(如Pinecone)允许用户调整稠密和稀疏检索结果的权重 29。图结构元素也可以融入混合搜索策略中 27。

查询重写与扩展(Query Rewriting/Expansion) 是在检索前对用户查询进行优化的关键步骤,旨在提高召回率和更好地捕捉用户意图。这可以通过基于规则的方法、基于机器学习的方法或两者的结合来实现。LLM本身也可以被用来进行查询扩展 9。

重排序(Re-ranking) 则是在初步检索获得候选文档集后,应用一个计算成本更高但通常更精确的模型(如交叉编码器 (cross-encoders)、基于BERT的重排序模型,甚至LLM自身作为排序器)对这些候选结果进行重新排序,以提升最终检索结果的精度 9。例如,谷歌的Ranking API能够提供超越单纯语义相似度的、更精确的相关性评分 32。

检索机制的日益复杂化反映了一种“纵深防御”的信息获取策略。系统不再依赖单一的、完美的检索器,而是通过多种技术的组合来首先确保尽可能广泛地覆盖潜在相关信息(提高召回率),然后逐步精炼结果(提高精确率)。这种分层处理的思路是信息检索领域的经典策略,如今正被LLM的特有能力所进一步强化和创新。例如,简单的语义搜索可能检索到主题相似但遗漏了关键术语的文档,而关键词搜索可能找到该术语但其上下文不相关。混合搜索试图结合两者的优点。随后,重排序阶段则利用更强大(但通常也更慢)的模型,对一个较小的候选集进行更细致的审查。这种多层次的方法旨在最大化初始阶段的召回,并在后续阶段优化精确度。

III. 前沿RAG架构与技术(2024-2025年焦点)

进入2024-2025年,RAG领域涌现出一系列创新的架构和技术,它们针对传统RAG的特定局限性进行了改进,并拓展了RAG的应用边界。

A. LightRAG深度解析

LightRAG作为一种备受关注的新型RAG架构,其核心创新在于将图结构深度整合到文本索引和检索流程中,并采用双层检索系统,以实现对低层级(特定实体/关系)和高层级(更广泛主题)知识的全面发现 24。

1. 基于图的文本索引 (Graph-Based Text Indexing):

LightRAG的索引构建过程充分利用了LLM的理解能力:

  • 实体与关系抽取: LLM负责从文本块中识别出关键实体(作为图的节点)及其间的关系(作为图的边)24。
  • 键值对生成: 针对每个实体节点和关系边,LLM进行“画像”(profiling),生成文本键值对。其中,“键”(key)是词或短语,用于高效检索;“值”(value)则是一段概括了相关外部数据片段的文本,用于辅助最终的文本生成。实体通常以其名称作为唯一的索引键,而关系则可能拥有多个通过LLM增强得到的索引键,这些键可能包含了来自相连实体的全局主题信息 24。
  • 去重优化: 系统会识别并合并来自不同文本片段的相同实体和关系,有效减小图的规模,从而降低图操作的开销,提升数据处理效率 24。

2. 双层检索机制 (Dual-Level Retrieval):

LightRAG的检索机制能够灵活适应不同复杂度的查询:

  • 它通过区分特定查询和抽象查询,并针对性地在图的不同层级进行检索 26。
  • 低层级检索: 专注于精确获取特定实体及其关系的详细信息,通过直接访问图中的特定节点和上下文关键词匹配来实现 25。
  • 高层级检索: 旨在捕捉更广泛的主题和概念,通过聚合主题相关的节点簇,并利用全局关键词进行匹配 25。

3. 增量更新算法 (Incremental Update Algorithm):

一个关键特性是LightRAG支持增量更新。这意味着当知识库发生变化时,系统可以及时整合新的数据,而无需完全重建整个索引。这极大地降低了计算成本,加快了系统对动态环境的适应速度 24。

4. LightRAG的优势:

通过上述设计,LightRAG带来了多方面的好处,包括提升检索准确率、加快响应速度、增强对动态数据的适应性、改进上下文相关性以及提高资源利用效率 26。

LightRAG的设计明确地应对了检索粒度与上下文广度之间的权衡。图结构使得系统既能进行精确的、以实体为中心的检索,又能导航更广泛的主题连接,这是传统纯向量检索难以兼顾的。其增量更新能力对于需要处理实时变化知识库的实际应用而言,是一个显著的实用优势,因为大规模索引的重建既耗时又耗费计算资源,会严重影响系统对新信息的响应速度。

B. 更广泛的图增强RAG方法

LightRAG并非孤例,将图结构引入RAG是当前的一大趋势,多种图增强RAG(Graph-Enhanced RAG)方法应运而生:

  • GraphRAG(微软倡导的概念及通用方法): 该方法的核心思想是利用知识图谱(KG)来改进复杂推理任务中的信息检索过程,从而提供更精确和全面的检索结果 8。GraphRAG可以利用LLM进行知识图谱的构建(如实体和关系抽取),并通过层级化的社区发现算法来实现对大规模知识图谱的可扩展分析 36。
  • KG-IRAG (Knowledge Graph-Based Iterative RAG): 此方法将知识图谱与迭代式推理相结合。系统通过迭代地从外部知识图谱中收集相关数据,支持逐步推理,尤其适用于处理涉及时间和逻辑依赖性的查询 33。
  • GraphRAG-FI (Filtering & Integration): 针对GraphRAG中可能存在的噪声问题,GraphRAG-FI采用两阶段过滤机制来提纯检索到的图信息,并通过基于logits的选择策略来平衡来自外部知识图谱的知识与LLM自身的内在推理能力 34。
  • KG2RAG: 该框架利用知识图谱来提供文本块之间的事实级关系,以提高检索结果的多样性和连贯性。它采用的是一种知识图谱增强的文本块检索策略,该策略结合了基于语义的检索和图引导的扩展 28。

这些方法中普遍应用的技术包括实体与关系抽取、社区发现、图遍历算法,以及将图结构与向量表示相结合等 5。

图增强RAG代表了RAG领域的一大进步,它使得系统从简单的文档片段检索转向检索相互连接的事实和概念。这为进行更复杂的推理和信息综合奠定了基础。各种GraphRAG变体(如KG-IRAG, GraphRAG-FI, KG2RAG)的出现,表明研究界正努力使图的应用更加智能化——不仅仅是使用图,而是迭代地、带过滤地使用图,并且理解文本块之间的关系,而不仅仅是单个文本块内部的内容。这标志着结构化知识正在更深层次地融入RAG流程。标准RAG检索的是“段落”,而图RAG旨在以更结构化的形式检索“知识”。通过将数据表示为图,这些系统可以执行更复杂的检索路径,例如查找通过多跳连接相关的实体,或根据其在图中的邻居来理解信息的上下文。这对于回答那些需要综合来自多个、间接相关来源信息的复杂问题至关重要。例如,KG-IRAG的迭代特性表明,复杂查询通常需要多步骤的检索过程,这与人类进行研究的方式非常相似。

C. 自适应与动态检索策略

为了提升RAG系统在不同查询场景下的效率和效果,自适应和动态检索策略成为研究热点。

  • Adaptive RAG: 这类RAG系统能够根据查询的复杂性或性质动态调整其检索策略,决定何时以及如何进行检索 3。例如,当初步生成的响应质量不佳时,系统可能会修改提示(prompt)并重新检索 44。
  • MBA-RAG (Multi-Armed Bandit RAG): 该方法利用多臂老虎机算法,根据查询的复杂度动态选择最合适的检索策略,并在探索(尝试新的策略)和利用(使用已知最优策略)之间进行平衡。MBA-RAG还采用了一个动态的奖励函数,该函数同时考虑了生成答案的准确性和检索过程的效率 42。
  • LLM无关的自适应RAG (LLM-Independent Adaptive RAG): 为了追求更高的效率,这类方法提出基于外部信息特征(如查询本身的特性、相关实体的流行度、图特征等)而非依赖LLM进行不确定性估计来决定是否需要检索 41。相比之下,一些依赖LLM的自适应检索技术,如FLARE(当LLM生成下一个词的概率低于某个阈值时触发检索)和DRAGIN(通过词元概率和注意力权重估计不确定性),虽然有效但可能效率较低 41。
  • 强化学习的应用: 强化学习(RL)被广泛用于优化外部数据源的实时选择过程 8,以及训练自适应的路由机制(决定采用何种检索策略)42。

自适应检索是提升RAG系统实用性的关键,它避免了对简单查询进行不必要的复杂检索,同时确保对复杂查询投入足够的检索资源。这种“因材施教”的检索方式,标志着RAG系统在资源利用方面变得更加“智能”。它不再是“一刀切”的检索流程,而是会预先评估查询的特性,然后决定最佳(且最具成本效益)的应答路径。这对于实际的大规模部署至关重要。一个简单的查询可能仅凭LLM的参数化知识或一次快速查找就能回答。而一个复杂的多方面查询则可能需要从多个来源进行迭代检索、图遍历或其他高级技术。自适应RAG旨在动态地做出这一决策。例如,MBA-RAG使用多臂老虎机是一种复杂的机制,通过基于反馈(平衡准确性和成本的奖励)随时间学习最优检索策略。这是向自我优化的RAG管道迈出的一步。

D. RAG中的自我纠正、反思与迭代优化

为了进一步提升RAG系统的鲁棒性和准确性,研究者们引入了自我纠正、反思和迭代优化的机制。

  • Self-RAG: 该框架训练语言模型按需自适应地检索段落,并使用特殊的“反思词元”(reflection tokens)来反思检索到的段落和模型自身的生成内容。这些反思词元包括:是否需要检索(retrieve)、检索内容是否相关(relevance)、生成内容是否得到检索内容支持(support)、以及整体回答是否有用(utility)3。Self-RAG在生成时采用基于评论分数的段落级束搜索(segment-level beam search)。
  • Corrective RAG (CRAG): CRAG采用一个轻量级的检索评估器来评估检索到文档的质量(分为正确、不正确、模糊三类)。如果数据不正确或模糊,CRAG会触发网页搜索等纠正行为,并采用“分解-再重组”(Decompose-then-Recompose)算法进行知识提炼 3。
  • SEARCH-R1: 这是一个强化学习框架,LLM在其中学习在逐步推理的过程中自主生成搜索查询,并结合实时检索结果进行验证和修正,从而支持自我验证和自我纠正 53。
  • Madam-RAG: 此方法采用多智能体辩论的机制。独立的LLM智能体分别处理单个检索到的文档,然后由一个中心聚合器综合它们的响应。通过迭代式的多轮辩论,智能体可以反思并修正自己的观点,从而有效处理信息冲突和模糊性问题 54。
  • Astute RAG: 该方法自适应地引出LLM的内部知识,然后以来源感知(source-awareness)的方式迭代地整合内部知识和外部检索到的知识,并根据信息的可靠性最终确定答案,旨在处理不完美的检索结果和知识冲突 55。

这些技术的核心机制包括检索评估器、知识提炼、网页搜索增强、自主查询生成以及多智能体辩论等。它们的目标是通过在RAG流程中引入反馈循环和批判性评估,使RAG系统更具鲁棒性。这些“自我驱动”和“纠正性”的RAG方法标志着系统正朝着更自主、更可靠的方向发展。它们不再是被动地检索和生成,而是主动地评估、质疑和优化信息流。这对于构建用户信任以及处理充满噪声、冲突或不完整信息的真实世界数据至关重要。传统的RAG系统非常脆弱:如果检索到的文档不相关或具有误导性,生成质量就会受到严重影响。Self-RAG和CRAG引入了在生成之前评估检索内容的明确步骤,或者评估生成内容本身。SEARCH-R1更进一步,允许LLM迭代地决定搜索什么。Madam-RAG和Astute RAG通过促进辩论或仔细整合来处理冲突信息。这些都是为了提高生成器所用信息的信噪比,并使系统对不完美的检索更具弹性。

E. 管理大规模上下文:长上下文RAG与压缩技术

随着LLM的上下文窗口不断扩大(例如,Claude 200k, GPT-4-turbo 128k, Gemini 1.5 Pro 2M),如何有效利用这些长上下文成为RAG的新课题 56。

  • 长上下文RAG的挑战与机遇: 虽然更长的上下文窗口允许RAG系统一次性处理更多文档,但研究表明,模型性能可能会随着上下文长度的增加而下降(出现“迷失在中间” (lost in the middle) 的现象),并且实际的有效上下文长度可能远小于模型声称的最大长度 56。
  • Long RAG: 这类方法通过处理更长的检索单元(如整个章节或文档)来提高效率和上下文的完整性 3。OP-RAG (Order-Preserve RAG) 则在检索到排名靠前的文本块后,依然保持它们在原始文档中的顺序进行组织 57。
  • MacRAG (Multi-scale Adaptive Context RAG): 这是一个层级化的RAG框架,它将文档压缩并划分成从粗到细的不同粒度,然后在查询时通过实时的文本块级和文档级扩展来动态地合并相关上下文 58。
  • MAL-RAG (Multiple Abstraction Level RAG): 与MacRAG类似,MAL-RAG也采用多层级抽象的文本块,并对高层级的块生成摘要信息 17。
  • 上下文压缩 (Context Compression): 检索后上下文管理的目标是精简信息。这可以通过__摘要式总结__(如RECOMP-Abst)或__抽取式技术__(如LLMLingua, RECOMP-Extr)来实现 58。层级化检索(如RAPTOR, SIRERAG)是另一种在检索阶段就考虑上下文组织的方法 58。

尽管长上下文窗口为RAG带来了新的可能性,但简单地将大量信息“塞”入上下文并非最优解。关键在于制定智能策略来选择、排序和压缩上下文信息。LLM上下文窗口的扩展与RAG策略之间存在动态的相互作用。更长的上下文窗口并没有消除对RAG的需求,而是改变了RAG的实现方式。重点转向了如何选择最有价值的长上下文并有效地组织它。像MacRAG和MAL-RAG这样的技术表明,层级化上下文表示正成为一个重要趋势。简单地向LLM提供更多数据并不能保证更好的性能;它可能导致“迷失在中间”的问题或增加处理成本。先进的长上下文RAG技术旨在为LLM提供大量信息的结构化和总结性视图。层级化方法(MacRAG、MAL-RAG、RAPTOR)允许系统根据需要“放大”或“缩小”信息,检索摘要以获得广泛的上下文或详细的块以获取特定事实。压缩技术有助于有效地将更多相关信息装入上下文窗口。

F. 多模态RAG (MM-RAG)

真实世界的信息往往是多模态的,RAG系统也开始向处理多种数据类型(文本、图像、音频、视频等)的方向发展 60。

  • MMKB-RAG (Multi-Modal Knowledge-Based RAG): 该框架利用模型固有的知识边界来动态生成语义标签,以指导多模态环境下的检索过程。它包含三个阶段:判断检索必要性、评估单个文档相关性、以及验证多个文档间的一致性 61。
  • Multi-RAG: 这是一个为自适应视频理解设计的系统,它将视频和音频输入转换为统一的文本表示,以便进行索引和检索 62。
  • 当前策略与未来方向: 目前,**文本锚定(text-grounding)**是一种常见的实用策略,即将所有模态的数据转换为文本格式,然后进行嵌入和检索 64。未来的发展方向则更侧重于真正的多模态嵌入模型,例如Meta的ImageBind、苹果的4M以及微软的Florence-2等,这些模型有望在共享的向量空间中直接表示和检索不同模态的信息 64。

MM-RAG对于那些信息本质上是多模态的应用(例如,分析包含文本和图表的报告、理解视频内容等)至关重要。当前对文本锚定的依赖是实现MM-RAG的一个务实的过渡步骤。MM-RAG的真正潜力将通过能够真正在共享空间中跨不同模态表示和检索信息的高级多模态嵌入模型来释放。现实世界中的信息很少是单模态的。新闻报道可能包含文本、图像和嵌入式视频。病历可能包含文本注释、X射线图像和实验室结果。为了提供全面的答案,RAG系统需要处理所有这些模态。文本锚定通过将所有内容转换为文本来工作,但这可能导致信息丢失(例如,图像的细微差别可能无法通过标题完全捕捉)。具有跨模态检索和融合能力的真正多模态RAG将能够实现更丰富、更准确的信息综合。

G. 智能体RAG (Agentic RAG)

智能体RAG是将自主AI智能体嵌入到RAG流程中的一种新兴范式。这些智能体利用诸如反思、规划、工具使用和多智能体协作等模式,来动态管理检索策略、迭代优化上下文理解,并根据复杂的任务需求调整工作流程 2。

  • 核心能力: Agentic RAG能够实现动态检索策略、上下文理解和迭代优化,在需要高精度和强适应性的场景中表现出色 67。
  • 分类与演进: Agentic RAG是从朴素RAG(Naïve RAG)、模块化RAG(Modular RAG)和图RAG(Graph RAG)等早期范式演化而来的更自主的系统 2。
  • 关键组件: 其核心组件包括作为“大脑”的LLM、记忆模块(短期记忆、长期记忆、知识检索)、规划模块(单路径链式规划、多路径树状扩展、反馈驱动的迭代规划)以及行动执行模块(工具利用、物理交互)65。

Agentic RAG代表了向更自主、更通用的RAG系统迈出的重要一步,其中RAG过程本身由智能智能体进行编排。将智能体能力集成到RAG中,模糊了信息检索和任务执行之间的界限。RAG不再仅仅是为LLM查找信息以生成文本;它关乎智能体使用RAG作为工具,在复杂环境中感知、推理、规划和行动。复杂的用户请求可能不是单个问题,而是多步骤的任务。Agentic RAG系统可以分解此任务,决定何时以及检索每个子任务所需的信息,可能还会使用其他工具(例如代码解释器、API),并综合结果。这使得RAG能够应用于比传统RAG复杂得多的问题解决场景。“规划”和“工具使用”组件是这里的关键区别。

下表总结了2024-2025年间出现的一些前沿RAG架构及其特点:

表1:前沿RAG架构比较(2024-2025年)

架构名称

核心思想/解决的问题

关键技术/机制

主要优势

代表性论文/来源

LightRAG

集成图结构进行文本索引和检索,双层检索系统

基于图的文本索引(LLM提取实体关系、键值对生成、去重),双层检索(低层级实体/关系,高层级主题),增量更新算法

提升检索准确率、响应速度,适应动态数据,改进上下文相关性,资源高效

5

GraphRAG (通用)

利用知识图谱改进复杂推理的信息检索

LLM辅助KG构建,层级化社区发现,查询聚焦摘要 (QFS),MapReduce

提供更精确全面的检索,支持多跳推理,增强可解释性

8

KG-IRAG

结合KG与迭代推理,处理时序和逻辑依赖查询

迭代式从KG收集数据,逐步推理

适用于动态时序数据提取与推理结合的场景

33

GraphRAG-FI

解决GraphRAG中的噪声问题,平衡外部KG知识与LLM内在推理

两阶段过滤机制提纯检索信息,基于logits的选择策略

提升GraphRAG在噪声数据下的鲁棒性和推理能力

34

KG2RAG

利用KG提供文本块间的事实级关系,提升多样性和连贯性

KG增强的文本块检索(语义检索+图引导扩展)

改善检索结果的多样性和内部连贯性

28

Adaptive RAG (通用)

根据查询复杂性/性质动态调整检索策略

查询分析,动态选择检索源或方法,提示修改

提升复杂查询处理效率和效果,避免简单查询的过度检索

3

MBA-RAG

基于多臂老虎机算法动态选择检索策略

多臂老虎机,基于查询复杂度的策略选择,动态奖励函数(平衡准确率与效率)

在准确性和效率间取得更优平衡,尤其在复杂查询上

42

LLM-Independent Adaptive RAG

基于外部信息特征(非LLM不确定性)决定是否检索

轻量级外部特征(查询特性、实体流行度、图特征)

比基于LLM不确定性的自适应方法更高效

41

Self-RAG

模型自适应检索,并使用反思词元进行自我评估和批判

反思词元(检索、相关性、支持度、效用),段落级束搜索,离线训练Critic模型

按需检索,提升事实准确性,可控生成,引用可追溯

7

Corrective RAG (CRAG)

轻量级检索评估器评估文档质量,对不准确/模糊信息进行纠正

检索评估器(正确、不正确、模糊),网页搜索增强,分解-再重组算法

提升对不完美检索结果的鲁棒性,动态适应知识

3

SEARCH-R1

RL框架,LLM学习在逐步推理中自主生成搜索查询

强化学习(PPO, GRPO),实时检索,检索内容屏蔽(不参与梯度计算),结果驱动的奖励函数

增强检索驱动的决策制定,支持自我验证和纠正

53

Madam-RAG

多智能体辩论处理冲突信息和模糊性

独立LLM智能体处理单个文档,中心聚合器综合响应,多轮迭代辩论

有效处理信息冲突和模糊性,提升复杂场景下的响应质量

54

Astute RAG

自适应引出LLM内部知识,迭代整合内外知识并感知来源

来源感知(source-awareness)的知识整合,可靠性评估

增强对不完美检索和知识冲突的鲁棒性

55

Long RAG / OP-RAG

处理更长的检索单元 / 保持原始文档顺序

直接处理长文本块 / 按原始顺序组织检索块

提升长文档处理效率和上下文完整性 / 更好地保留信息流

3

MacRAG / MAL-RAG

层级化RAG,文档被压缩并划分成不同粒度 / 多层级抽象块,高层级块带摘要

层级化索引和检索,实时块级和文档级扩展 / 多层级分块,MapReduce生成摘要

优化长上下文处理,平衡细节与概览,提升复杂文档理解

17

MMKB-RAG / Multi-RAG

多模态RAG,利用模型知识边界生成语义标签 / 自适应视频理解,统一文本表示

动态语义标签生成,三阶段处理(必要性、相关性、一致性)/ 视频、音频转文本表示,向量索引

实现对图像、视频等多模态数据的检索增强 / 提升视频理解和人机协作能力

61

Agentic RAG (通用)

将自主AI智能体嵌入RAG流程

反思、规划、工具使用、多智能体协作

实现动态检索策略、上下文理解和迭代优化,适应复杂任务

2

这些前沿架构和技术共同推动RAG向更智能、更自适应、更鲁棒的未来迈进。它们不仅提升了RAG系统处理复杂信息和查询的能力,也为RAG在更多元、更动态的应用场景中的落地奠定了坚实基础。

IV. RAG与更广泛LLM进展的协同效应

RAG技术的发展并非孤立进行,它与大型语言模型(LLM)领域的其他重要进展相互促进,共同提升了AI系统的整体能力。

A. 推理增强检索与检索增强推理

RAG与LLM的推理能力之间存在一种显著的协同增强关系,主要体现在两个方面:推理增强检索(Reasoning-Augmented Retrieval)检索增强推理(Retrieval-Augmented Reasoning) 15。

  • 推理增强检索 指的是利用LLM的推理能力来优化检索过程本身。传统的检索方法可能难以处理模糊查询、评估信息相关性或进行迭代式的信息搜集。通过引入LLM的推理能力,RAG系统可以实现更自适应的检索策略,例如动态扩展查询词、消解查询中的歧义、以及聚合来自多个信息源的多跳证据(multi-hop evidence aggregation)15。这使得检索过程能够超越简单的关键词匹配或向量相似度计算,更好地与任务的深层推理需求对齐。
  • 检索增强推理 则是指利用检索到的外部知识来强化LLM的复杂推理过程。即使是先进的LLM,其参数化知识也可能存在知识鸿沟、信息过时或在组合推理方面遇到困难。通过RAG引入外部知识,可以将LLM的推理过程锚定在更新、更特定领域或模型权重中缺失的稀有信息上。这对于提升推理结果的可解释性、支持多步骤演绎推理以及整合多样化信息源至关重要 15。

这种双向增强机制——推理使检索更智能,检索使推理更鲁棒和有据可依——共同扩展了LLM解决复杂现实世界问题的能力。

B. 与自适应LLM(如Transformer²)的潜在交互

以Transformer²为代表的自适应LLM技术,为RAG的未来发展提供了新的可能性 71。Transformer²的核心思想是使LLM能够通过奇异值微调(Singular Value Fine-tuning, SVF)和预先训练的“专家向量”(expert vectors),在处理任务时实时、动态地调整其内部机制,而无需进行耗时耗力的完全重训练 72。其采用的两阶段推理机制——第一阶段理解任务,第二阶段调整并作答——与RAG的某些高级形态(如自适应RAG)有异曲同工之妙。

一个具备Transformer²能力的自适应LLM,在RAG流程中可以发挥独特作用。例如,它可以根据用户查询的性质和初步检索到的上下文,动态地优化其后续的检索策略或调整其生成答案的方式。如果检索到的文档来自高度专业的领域(如法律文书或医学报告),自适应LLM可以在第一阶段识别出这一点,然后在第二阶段激活针对该领域的“专家向量”,从而更深入地理解检索到的上下文并生成更精准的答案。这将比为每个领域维护独立的RAG模型更为高效。这种自适应能力,使得RAG系统不再局限于固定的流程,而是能够根据具体情境实时调整其信息检索的焦点、对检索数据的解读方式以及生成内容的风格,从而实现高度个性化和上下文敏感的RAG体验。

C. 高级微调(SFT/KaFT, DPO, GRPO)与提示工程对RAG性能的影响

LLM的微调技术和提示工程的进步,也直接或间接地提升了RAG系统的性能。

  • 监督微调 (SFT) 与知识感知微调 (KaFT):
    • SFT是使预训练LLM适应特定任务的常用方法 73。然而,在领域特定的问答(QA)任务中,SFT面临的一个关键挑战是__知识冲突(knowledge conflict)__,即LLM的内部参数化知识与训练数据(通常包含更新的领域知识)中的上下文知识发生矛盾 74。
    • KaFT (Knowledge-aware Fine-Tuning) 针对这一问题提出了一种解决方案。它通过设计一种查询多样化策略来鲁棒地检测知识冲突,并根据冲突级别为不同的训练样本赋予自适应的权重或奖励,从而在SFT过程中更有效地处理这些冲突,提升LLM在领域特定QA任务上的性能和泛化能力 74。KaFT可以应用于RAG系统的生成器组件,使其能更好地处理(或优先采纳)检索到的信息,尤其是在检索信息与LLM固有知识相悖时。
  • 直接偏好优化 (DPO):
    • DPO是一种直接从偏好数据(如“选择的答案”与“拒绝的答案”对)中优化LLM策略的方法,旨在使LLM的输出更符合人类偏好,它简化了传统的基于人类反馈的强化学习(RLHF)流程 81。研究表明,数据选择策略,例如基于外部奖励边际和DPO隐式奖励边际的**双边际引导数据选择(dual-margin guided data selection)**方法,能够显著提升DPO的效率和性能,同时降低计算成本 82。
    • 在RAG场景下,DPO可用于微调生成器,使其生成的答案不仅在事实上有所依据(来自检索内容),而且在风格、相关性或实用性等方面更受用户青睐。
  • 组相对策略优化 (GRPO):
    • GRPO是一种内存高效的强化学习算法,特别适用于训练LLM完成数学、编码等复杂推理任务 90。其核心机制是:针对每个问题,模型生成多个候选答案,然后使用一个奖励模型对这些答案进行评分,并利用这组答案的平均分作为基线来计算每个答案的优势值(advantage),从而避免了维护一个独立的、与策略模型同样庞大的价值函数(value function)91。例如,SQL-R1模型就采用了GRPO来进行自然语言到SQL的转换任务训练 94。MM-UPT则探索了使用GRPO对多模态LLM进行无监督后训练,通过自奖励机制实现 93。
    • GRPO可以用来训练RAG的组件,特别是生成器,以优化最终RAG输出的特定奖励信号,例如事实准确性、相关性、引用的正确性等。
  • 提示工程 (Prompt Engineering):
    • 诸如思维链(Chain-of-Thought, CoT)、少样本提示(Few-Shot Prompting)、思维树(Tree-of-Thought)、角色提示(Role Prompting)、任务分解(Task Decomposition)和上下文提示(Contextual Prompting)等高级提示工程技术,对LLM的准确性、推理能力和输出风格有显著影响 95。例如,CoT提示虽然能提升准确率,但也可能导致模型过度自信 99。
    • 有效的提示工程对于RAG的各个阶段都至关重要:从构建初始查询、指导检索器工作,到引导生成器综合利用检索到的上下文信息。例如,一个精心设计的CoT提示可以指导RAG系统“首先,总结检索到的文档中的关键点;其次,识别任何冲突信息;第三,基于一致的信息综合出一个全面的答案,并注明来源。”

这些LLM领域的进展与RAG并非相互孤立。微调技术可以使RAG的生成器组件更擅长利用检索到的上下文、遵循特定风格或处理领域特定的细微差别。提示工程则是用户和系统设计者与RAG系统交互和控制的主要界面。一个RAG系统的生成器LLM可以使用KaFT进行微调,以更好地解决检索信息与其内部知识冲突的问题。DPO不仅可以使生成的答案在事实上准确(来自RAG),还可以使其在帮助性或语气上与人类偏好对齐。GRPO可以训练生成器生成最大化复杂奖励的答案,该奖励可能包含事实性、简洁性和对检索来源的正确引用。精心设计的提示可以指导RAG系统如何综合检索到的信息,关注哪些方面,以及期望的输出格式。

V. 现代RAG系统的评估(2024-2025年概览)

随着RAG系统的日益复杂和多样化,对其进行全面而准确的评估变得至关重要。

A. RAG评估中持续存在与新出现的挑战

RAG系统的评估本身就是一个复杂的问题,这源于其混合架构(检索+生成)、对动态知识的依赖、组件间的复杂交互,以及评估诸如连贯性、事实准确性等主观质量的固有难度 11。

具体挑战包括:

  • 检索质量: 如何确保检索到的文档既相关又完整,同时避免引入过时或不完整的信息 3。
  • 上下文理解: RAG系统在处理模糊查询、进行多跳推理方面的能力仍有提升空间 3。
  • 生成准确性与幻觉: 即使有检索到的上下文,生成器仍可能产生不准确或捏造的信息 3。
  • 延迟: 复杂的检索和生成过程可能导致较高的系统延迟 3。
  • 数据质量与偏见: 检索源的数据质量参差不齐,可能包含噪声甚至偏见,这些都可能传递到最终的生成结果中 101。

B. 关键性能指标:超越基础相关性

传统的基于词汇表面匹配的评估指标(如BLEU, ROUGE, Perplexity)已不足以全面评估LLM驱动的RAG系统 104。当前的评估趋势更侧重于衡量语义质量、事实基础和可信度。

关键的RAG评估指标可分为:

  • 检索阶段指标:
    • 上下文相关性/精确率 (Context Relevance/Precision): 衡量检索到的文档与用户查询的匹配程度 5。
    • 上下文召回率 (Context Recall): 衡量是否检索到了所有相关的文档 5。
    • 平均倒数排名 (Mean Reciprocal Rank, MRR): 评估系统将第一个相关文档排在结果列表靠前位置的能力 105。
    • 命中率 (Hit Rate): 衡量系统检索到的结果中包含相关文档的比例 105。
  • 生成阶段指标:
    • 答案相关性 (Answer Relevance): 衡量生成的答案与用户查询的匹配程度 5。
    • 忠实度/上下文依从性 (Faithfulness/Context Adherence): 衡量生成的答案是否准确反映了检索到的文档内容,以及答案与源文档之间的一致性 5。
    • 答案正确性/事实准确性 (Answer Correctness/Factual Accuracy): 衡量生成的答案与事实基础或标准答案的相符程度 5。
    • 幻觉率 (Hallucination Rate): 衡量答案中包含未在检索上下文中出现或与上下文相悖的信息的程度 104。
  • 系统整体指标:
    • 上下文充分性 (Context Sufficiency): 评估检索到的上下文是否足以回答问题 104。
    • 噪声鲁棒性 (Noise Robustness): 系统在面对不相关或错误信息时的表现 103。
    • 信息整合能力 (Information Integration): 系统综合利用多个检索来源信息的能力 103。
    • 反事实鲁棒性 (Counterfactual Robustness): 系统在面对与事实相反的假设性信息时的表现 103。
    • 引用准确性 (Citation Accuracy): 系统能否准确引用其信息来源 36。

利用LLM作为评估者(LLM-as-a-judge)来评价这些更细致、更主观的质量维度,正成为一种流行趋势 11。诸如RAGAS和ARES等框架就采用了LLM进行评估 11。

C. 代表性评估基准与数据集(2024-2025年)

为了更全面和标准化地评估RAG系统,学术界和工业界开发了一系列新的基准和数据集。

  • ARES (Automated RAG Evaluation System): 该系统通过生成合成数据,并利用微调的轻量级语言模型作为“裁判”,来评估RAG系统的上下文相关性、答案忠实度和答案相关性。ARES还引入了预测驱动推理(Prediction-Powered Inference, PPI)技术,以提供更可靠的评估结果和置信区间 11。
  • CRUD-RAG: 这是一个面向中文RAG系统的综合性基准,它将RAG的应用场景划分为创建(Create)、读取(Read)、更新(Update)和删除(Delete)四类,并为每个类别构建了特定的数据集和评估任务 106。
  • MIRAGE: 这是一个专为RAG评估设计的问答数据集,包含大量精心策划的实例和一个庞大的检索池。MIRAGE还提出了一系列新的评估指标,用于衡量RAG系统的适应性,如噪声脆弱性、上下文可接受性、上下文不敏感性和上下文曲解等 103。
  • CReSt: 该基准专注于评估RAG系统在处理结构化文档时的复杂推理能力,其评估维度包括答案拒答能力和引用准确性 109。
  • RGB (Retrieval-Augmented Generation Benchmark): 这是一个支持中英文的RAG评估语料库,旨在测试模型在噪声鲁棒性、负向拒绝(识别无法回答的问题)、信息整合以及反事实鲁棒性等方面的能力 110。
  • RECALL (LegalBench-RAG, FinanceBench): 这类基准主要衡量RAG系统是否能够检索到所有相关信息,即召回率 106。
  • RAGBench: 这是一个大规模(包含10万个样本)的RAG基准数据集,覆盖了五个特定行业领域,并提供了可解释的标签,以便进行更全面的RAG评估 110。
  • 其他基准: 还包括BeIR(通用信息检索)、FRAMES(事实性、检索与推理)、RAGTruth(幻觉检测)、RULER(长上下文检索)、MMNeedle(多模态长上下文检索)以及FEVER(事实抽取与验证)等 115。此外,像ProBench这样的代码推理基准,虽然不直接评估RAG,但其评估的推理模型(如DeepSeek-R1)可能成为高级RAG系统的一部分 117。

这些多样化基准的涌现,反映了研究领域对RAG广泛应用场景的认知,以及对更具针对性的评估方法的需求。

下表总结了2024-2025年间一些关键的RAG评估基准及其特点:

表2:关键RAG评估基准与指标(2024-2025年)

基准名称

主要关注点/任务类型

关键评估指标

数据类型

特点/来源

ARES

上下文相关性、答案忠实度、答案相关性

上述三者,使用合成数据和LLM裁判进行评估,PPI

文本

自动化评估,数据高效 111

CRUD-RAG

创建、读取、更新、删除 (CRUD) 四类RAG应用场景

针对CRUD各场景的特定指标,如ROUGE, BLEU, RAGQuestEval (基于GPT)

中文文本

全面的中文RAG基准,系统性分析组件影响 109

MIRAGE

RAG适应性:噪声脆弱性、上下文可接受性、不敏感性、曲解

上述四种新指标,以及传统的QA指标

文本

轻量级但具挑战性的QA数据集,专为RAG组件级评估设计 103

CReSt

结构化文档上的复杂推理,答案拒答,引用准确性

复杂推理准确率,拒答能力,引用精确率/召回率

结构化文档 (英/韩)

关注实际RAG场景,包含HTML格式文档 109

RGB

噪声鲁棒性、负向拒绝、信息整合、反事实鲁棒性

针对上述四种能力的特定测试床

文本 (英/中)

诊断当前LLM在RAG应用中的挑战 110

RECALL

检索所有相关信息的能力 (召回率)

召回率 (LLMContextRecall, NonLLMContextRecall)

文本

关注是否遗漏重要信息,如LegalBench-RAG, FinanceBench 106

RAGBench

5个特定行业领域,多种RAG任务类型

可解释标签,评估相关性、利用率、完整性

行业文本

大规模 (100k),源自真实行业语料 (如用户手册) 110

BeIR

零样本信息检索,跨领域

nDCG@k, Recall@k, MAP@k, MRR@k

多样化文本

包含18个数据集,9种任务类型 115

FRAMES

事实性、检索准确性、多跳推理

事实性,检索准确率,推理能力(数值、表格、时序等)

维基百科文本

包含需要整合2-15篇维基文章的挑战性问题 115

RAGTruth

RAG系统中的幻觉检测

词级别幻觉分类(明显冲突、细微冲突、无端引入明显/细微信息)

LLM生成文本

包含18000个自然生成的RAG响应 115

RULER

长上下文中的信息检索、多跳追踪、聚合、问答

针对上述四类任务的特定指标

合成文本

自动生成评估样本,可变序列长度和任务复杂度 115

MMNeedle

多模态LLM的长上下文能力

在图像“草堆”中定位目标子图像“针”的能力

多模态 (图文)

包含4万张图片,56万标题,28万针-草堆对 115

FEVER

基于文本来源的事实抽取与验证

标签准确率 (支持/反驳/信息不足)

维基百科文本

包含超过18.5万个人工生成的基于维基百科的声明 115

D. 评估上游组件:分块与嵌入

RAG系统的整体性能高度依赖其上游组件,因此对分块(chunking)和嵌入(embedding)策略的评估也至关重要。

  • 分块评估:
    • 内部评估 (Intrinsic Evaluation): 关注分块本身的质量,例如“完整关键词覆盖率”(Full Keyword Coverage,衡量检索到的块中是否包含所有必需的关键词)和“答案所需词元数”(Tokens To Answer,追踪第一个包含完整答案的块的索引以及所需的累积词元数量)5。
    • 外部评估 (Extrinsic Evaluation): 分析不同的分块方法对下游检索性能和最终响应质量的影响。这通常通过在特定任务上比较不同分块策略下的ROUGE、BLEU、F1分数等指标,同时考虑计算开销(如延迟和词元使用量)来实现 5。一些研究还会在特定领域的数据集(如财务报告)上进行评估,观察基于结构或语义的分块如何提高检索准确性并降低延迟 5。
  • 嵌入评估:
    • 嵌入模型的评估主要考察其捕捉语义信息的能力以及对准确相似性搜索的支持程度。这通常通过在标准化的嵌入模型评测基准(如MTEB)上进行测试 21。
    • 在RAG的实际应用中,检索到文档的相关性可以间接反映嵌入模型的质量。如果嵌入模型未能准确捕捉查询和文档之间的语义关联,那么即使是完美的检索算法也难以找到真正相关的文档 107。

对RAG系统的评估正变得与RAG系统本身一样复杂。一个明显的趋势是,除了端到端的整体评估外,组件级评估也日益受到重视。这种细粒度的评估方式有助于更精确地定位瓶颈,从而进行针对性的调试和优化。例如,ARES等框架中合成数据和LLM裁判的使用,是使评估过程更具可扩展性和细致性的尝试。如果一个RAG系统表现不佳,必须确定问题所在:是分块策略不当?嵌入模型选择失误?检索器性能不足?重排序器未能发挥作用?还是生成器本身的问题?像CReSt和RAGBench这样的整体性基准,以及针对分块/嵌入的组件级评估,使得这种诊断式的方法成为可能。专门针对“拒答能力”或“引用准确性”等细分能力的基准的开发,也反映出市场对RAG系统在信息准确性之外,对安全性、透明度等方面日益增长的需求。

VI. 克服挑战与RAG的未来展望

尽管RAG技术取得了显著进展,但在实际应用和未来发展中仍面临诸多挑战。克服这些挑战并探索新的研究前沿,将是推动RAG技术持续发展的关键。

A. 处理不完美检索与知识冲突的策略

真实世界的知识库往往包含噪声、不一致甚至错误的信息。RAG系统在检索过程中不可避免地会遇到这些问题,导致检索结果不完美。此外,检索到的外部知识与LLM自身的参数化知识之间可能存在冲突,这也是一个亟待解决的难题 1。

针对这些问题,研究者们提出了一系列策略:

  • Astute RAG 通过自适应地引出LLM的内部知识,并以来源感知的方式迭代整合内部与外部知识,来应对不完美的检索结果 55。
  • Madam-RAG 则采用多智能体辩论的方法,让不同的智能体基于各自检索到的信息进行“辩论”,从而处理冲突信息和模糊性 54。
  • KaFT 通过在微调阶段根据知识冲突的程度为训练样本赋予不同的权重,来提升LLM处理知识冲突的能力 74。
  • GraphRAG-FI 等过滤方法致力于提纯从知识图谱中检索到的信息 34。
  • Self-RAGCRAG 则在RAG流程中引入了自我批判和纠正机制,使系统能够主动识别并修正潜在的错误 3。

这些策略的核心在于提升RAG系统对噪声和冲突数据的辨别能力和自我修正能力,使其在面对真实世界复杂数据时更加鲁棒。

B. 提升可扩展性、效率与成本效益

随着RAG系统处理的数据规模越来越大,其架构也日趋复杂,系统的可扩展性、运行效率和成本效益成为制约其广泛应用的关键因素 3。

主要的应对措施包括:

  • 高效索引与检索: LightRAG 通过图索引和增量更新来提升效率 24。自适应RAG 变体(如MBA-RAG)则根据查询复杂度选择不同的检索策略,以优化检索成本 42。
  • 嵌入优化: 采用嵌入量化、降维等技术减小存储和计算开销,并利用高效的索引结构(如HNSW, IVF)加速检索 9。
  • 系统架构优化: 例如,采用微服务架构,实现组件的独立扩展和优化;利用缓存机制减少重复计算等。

确保RAG系统在处理大规模数据和高并发请求时依然能够保持高性能和低成本,是其走向大规模商业应用的前提。

C. 增强RAG系统的可信度、安全性与可解释性

用户对AI系统的信任建立在其可靠性、安全性和透明度之上。RAG系统在这方面具有天然优势,但也面临新的挑战。

  • 安全性: 如果设计不当,RAG系统可能反而降低模型的安全性。即使是安全的LLM和安全的文档,其组合也可能产生不安全的输出 1。因此,仅仅确保文档库不含安全违规内容,并不能完全保证RAG系统的输出安全 1。需要更细致的风险评估和防护机制。
  • 可解释性与可追溯性: RAG通过将答案锚定在具体的源文档上,并支持生成引用,从而显著提升了输出的可解释性和可追溯性 1。这是RAG相比于传统黑箱LLM的一大优势。
  • 偏见处理: RAG系统需要警惕从检索源中引入偏见,并遵循负责任AI的实践原则 123。

未来的RAG系统必须将可信度、安全性和可解释性置于核心地位,才能赢得用户的广泛信赖。

D. RAG的研究前沿与开放性问题

RAG领域依然充满活力,许多研究方向和开放性问题有待探索:

  • 计算机视觉中的RAG: 包括实时检索优化、跨模态检索融合、隐私感知检索以及基于检索的生成模型在视觉领域的应用 6。
  • 检索与生成的深度融合: 进一步改进检索和生成组件之间的接口,探索更复杂的检索机制,如双向检索、基于强化学习的查询策略优化等 10。
  • 动态知识库管理: 如何更有效地处理持续演化、动态更新的大规模知识库,是RAG面临的长期挑战 8。
  • 特定领域的RAG应用: 例如,在自然语言到SQL(NL2SQL)的转换任务中,探索开放世界的NL2SQL解决方案和更具成本效益的NL2SQL模型 122。
  • 智能体RAG的深化: LLM智能体严重依赖RAG获取知识,其面临的可扩展性、记忆限制、可靠性、多轮动态评估以及监管措施等问题,也是RAG未来需要解决的关键问题 67。

2024年至2025年RAG领域的总体趋势是向更智能、自适应和鲁棒的系统发展。这不仅包括改进单个组件(检索器、生成器),还包括设计更复杂的架构,这些架构能够对检索过程进行推理、纠正错误、处理不同类型的数据并适应查询的复杂性。与智能体框架的集成以及对结构化知识(如图)的关注是这一趋势的关键驱动因素。该领域在评估方面也日趋成熟,认识到需要更全面和细致的基准。早期RAG是一个相当静态的流程。目前的进展显示出向动态自我优化的明显趋势。例如,一个自适应RAG系统可能首先尝试简单检索;如果置信度低或查询复杂,则可能升级到GraphRAG方法或触发多跳推理过程。像CRAG或Self-RAG这样的自我纠正机制增加了内部反馈循环来验证和完善信息。RAG系统本身这种增强的“元认知”能力定义了技术的前沿。此外,评估方面的挑战正在推动开发更细粒度的指标和基准,这反过来又将促进RAG设计的进一步改进。

VII. 结论

A. 2024-2025年RAG关键进展回顾

自2024年初以来,检索增强生成(RAG)领域取得了显著的技术突破和架构创新。其核心驱动力在于克服传统大型语言模型(LLM)在知识时效性、事实准确性和特定领域应用方面的局限性。关键进展可以概括为以下几个主要方面:

  1. 高级RAG架构的涌现: 以LightRAG、各类GraphRAG(如KG-IRAG, GraphRAG-FI, KG2RAG)、自适应RAG(如MBA-RAG)、自我纠正与反思型RAG(如Self-RAG, CRAG, SEARCH-R1, Madam-RAG, Astute RAG)、长上下文RAG(如Long RAG, OP-RAG, MacRAG, MAL-RAG)、多模态RAG(如MMKB-RAG, Multi-RAG)以及智能体RAG为代表的新型架构,针对性地解决了传统RAG在检索效率、上下文理解、信息冲突处理、多模态数据融合以及任务自主性等方面的痛点。
  2. 核心组件的精细化: 在分块策略上,从固定大小分块向语义分块、基于文档结构分块乃至智能体分块演进;在嵌入与索引技术上,除了优化传统向量嵌入的效率与表达能力外,基于图的索引成为新的研究热点;在检索机制上,混合检索、查询重写/扩展、以及多阶段重排序等高级策略得到广泛应用。
  3. 与LLM其他进展的深度协同: RAG的发展与LLM的推理能力、自适应能力(如Transformer²)、高级微调技术(SFT/KaFT, DPO, GRPO)以及提示工程的进步紧密相连,形成了相互促进的良性循环。
  4. 评估体系的成熟化: 面对日益复杂的RAG系统,学术界和工业界开发了更多维度、更细粒度的评估指标和基准数据集(如ARES, CRUD-RAG, MIRAGE, CReSt, RGB, RAGBench等),并开始重视对上游组件(如分块、嵌入)的独立评估。

B. RAG的发展轨迹及其在未来AI系统中的作用

RAG技术正从一种辅助LLM的补充性技术,演变为构建高级AI系统的核心组成部分。它不仅是解决LLM知识局限性的有效手段,更是实现更可靠、更可信、更具推理能力的AI系统的关键支撑。

未来,RAG的发展将呈现以下趋势:

  • 更深度的智能融合: RAG将与更强的推理能力、规划能力和决策能力相结合,特别是在智能体(Agent)框架下,RAG将作为智能体感知环境、获取知识、执行任务的重要工具。
  • 更强的自适应与自优化能力: RAG系统将具备更强的自主学习和调整能力,能够根据任务需求、数据特征和用户反馈动态优化其检索和生成策略。
  • 更广泛的多模态与跨模态应用: 随着多模态LLM和多模态嵌入技术的发展,RAG将在处理和融合文本、图像、音视频等多种信息方面发挥更大作用。
  • 更注重可信与负责任AI: 如何确保RAG系统在检索和生成过程中的安全性、公平性、透明度和可解释性,将是持续的研究重点。

可以预见,RAG技术将继续在提升AI系统的事实基础、知识更新能力和复杂任务处理能力方面扮演核心角色,推动人工智能向更智能、更实用、更值得信赖的未来迈进。

引用的著作
  1. RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.18041v1
  2. Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.09136v2
  3. The 2025 Guide to Retrieval-Augmented Generation (RAG) - Eden AI, 访问时间为 六月 3, 2025, https://www.edenai.co/post/the-2025-guide-to-retrieval-augmented-generation-rag
  4. Build a retrieval-augmented generation solution with Azure AI ..., 访问时间为 六月 3, 2025, https://learn.microsoft.com/en-us/azure/ai-services/content-understanding/tutorial/build-rag-solution
  5. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.14891v1
  6. Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.18016v1
  7. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.09136v1
  8. Retrieval-Augmented Generation (RAG): 2025 Definitive Guide, 访问时间为 六月 3, 2025, https://www.chitika.com/retrieval-augmented-generation-rag-the-definitive-guide-2025/
  9. Complete Guide to Building a Robust RAG Pipeline 2025 - DhiWise, 访问时间为 六月 3, 2025, https://www.dhiwise.com/post/build-rag-pipeline-guide
  10. What is Retrieval Augmented Generation(RAG) in 2025? - Glean, 访问时间为 六月 3, 2025, https://www.glean.com/blog/rag-retrieval-augmented-generation
  11. Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.20119v2
  12. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2502.16586.pdf
  13. RAG Using DeepSeek-R1: A Comprehensive Guide - BytePlus, 访问时间为 六月 3, 2025, https://www.byteplus.com/en/topic/406464
  14. What is Retrieval-Augmented Generation (RAG) – The Future of AI-Powered Decision-Making | Article by AryaXAI, 访问时间为 六月 3, 2025, https://www.aryaxai.com/article/what-is-retrieval-augmented-generation-rag-the-future-of-ai-powered-decision-making-by-aryaxai
  15. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.15909v1
  16. [2504.19754] Reconstructing Context: Evaluating Advanced Chunking Strategies for Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.19754
  17. Multiple Abstraction Level Retrieve Augment Generation, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.16952
  18. Chunking strategies for RAG tutorial using Granite | IBM, 访问时间为 六月 3, 2025, https://www.ibm.com/think/tutorials/chunking-strategies-for-rag-with-langchain-watsonx-ai
  19. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2410.19572?
  20. Advanced chunking for RAG · docling-project docling · Discussion ..., 访问时间为 六月 3, 2025, https://github.com/docling-project/docling/discussions/191
  21. Optimization of embeddings storage for RAG systems using quantization and dimensionality reduction techniques. - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.00105v1
  22. Common retrieval augmented generation (RAG) techniques ..., 访问时间为 六月 3, 2025, https://www.microsoft.com/en-us/microsoft-cloud/blog/2025/02/04/common-retrieval-augmented-generation-rag-techniques-explained/
  23. Mastering RAG: Enhancing AI Applications with Retrieval-Augmented Generation, 访问时间为 六月 3, 2025, https://opendatascience.com/mastering-rag-enhancing-ai-applications-with-retrieval-augmented-generation/
  24. LightRAG: Simple and Fast Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2410.05779v3
  25. LightRAG: Simple and Fast Retrieval-Augmented Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2410.05779
  26. LightRAG: Graph-Enhanced Text Indexing and Dual-Level Retrieval, 访问时间为 六月 3, 2025, https://promptengineering.org/lightrag-graph-enhanced-text-indexing-and-dual-level-retrieval/
  27. TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.11216v1
  28. arXiv:2502.06864v1 [cs.CL] 8 Feb 2025, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2502.06864
  29. Hybrid search - Pinecone Docs, 访问时间为 六月 3, 2025, https://docs.pinecone.io/guides/search/hybrid-search
  30. LLM RAG: Improving the retrieval phase with Hybrid Search ..., 访问时间为 六月 3, 2025, https://careers.edicomgroup.com/techblog/llm-rag-improving-the-retrieval-phase-with-hybrid-search/
  31. This paper Eliminates Re-Ranking in RAG : r/Rag - Reddit, 访问时间为 六月 3, 2025, https://www.reddit.com/r/Rag/comments/1kzkoaf/this_paper_eliminates_reranking_in_rag/
  32. Improve search and RAG quality with ranking API | AI Applications ..., 访问时间为 六月 3, 2025, https://cloud.google.com/generative-ai-app-builder/docs/ranking
  33. KG-IRAG: A Knowledge Graph-Based Iterative Retrieval-Augmented Generation Framework for Temporal Reasoning - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.14234v1
  34. Empowering GraphRAG with Knowledge Filtering and Integration - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.13804v1
  35. [2503.13804] Empowering GraphRAG with Knowledge Filtering and Integration - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2503.13804
  36. GraphRAG: Practical Guide to Supercharge RAG with Knowledge ..., 访问时间为 六月 3, 2025, https://learnopencv.com/graphrag-explained-knowledge-graphs-medical/
  37. What is Graph RAG | Ontotext Fundamentals, 访问时间为 六月 3, 2025, https://www.ontotext.com/knowledgehub/fundamentals/what-is-graph-rag/
  38. Beyond Single Pass, Looping Through Time: KG-IRAG with Iterative Knowledge Retrieval, 访问时间为 六月 3, 2025, https://arxiv.org/html/2503.14234v3
  39. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2503.14234.pdf
  40. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2503.13804.pdf
  41. LLM-Independent Adaptive RAG: Let the Question Speak for Itself - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.04253v1
  42. MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2412.01572v4
  43. 8 Retrieval Augmented Generation (RAG) Architectures You Should ..., 访问时间为 六月 3, 2025, https://humanloop.com/blog/rag-architectures#:~:text=Adaptive%20RAG%20is%20a%20dynamic,its%20approach%20in%20real%2Dtime.
  44. How Adaptive RAG Makes Generative AI More Reliable for Defense ..., 访问时间为 六月 3, 2025, https://www.gdit.com/perspectives/latest/how-adaptive-rag-makes-generative-ai-more-reliable-for-defense-missions/
  45. MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented ..., 访问时间为 六月 3, 2025, https://www.aimodels.fyi/papers/arxiv/mba-rag-bandit-approach-adaptive-retrieval-augmented
  46. [Revue de papier] MBA-RAG: a Bandit Approach for Adaptive Retrieval-Augmented Generation through Question Complexity - Moonlight, 访问时间为 六月 3, 2025, https://www.themoonlight.io/fr/review/mba-rag-a-bandit-approach-for-adaptive-retrieval-augmented-generation-through-question-complexity
  47. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2412.01572.pdf
  48. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2505.04253.pdf
  49. Advanced RAG Techniques - Pinecone, 访问时间为 六月 3, 2025, https://www.pinecone.io/learn/advanced-rag-techniques/
  50. Self-RAG: AI That Knows When to Double-Check - Analytics Vidhya, 访问时间为 六月 3, 2025, https://www.analyticsvidhya.com/blog/2025/01/self-rag/
  51. Self-RAG: Learning to Retrieve, Generate and Critique through Self ..., 访问时间为 六月 3, 2025, https://selfrag.github.io/
  52. Corrective RAG (CRAG) Implementation With LangGraph | DataCamp, 访问时间为 六月 3, 2025, https://www.datacamp.com/tutorial/corrective-rag-crag
  53. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2503.09516
  54. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.13079
  55. Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2410.07176v2
  56. Long Context RAG Performance of LLMs | Databricks Blog, 访问时间为 六月 3, 2025, https://www.databricks.com/blog/long-context-rag-performance-llms
  57. RAG vs. Long-context LLMs | SuperAnnotate, 访问时间为 六月 3, 2025, https://www.superannotate.com/blog/rag-vs-long-context-llms
  58. MacRAG: Compress, Slice, and Scale-up for Multi-scale Adaptive Context RAG - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.06569v2
  59. MacRAG: Compress, Slice, and Scale-up for Multi-Scale Adaptive Context RAG - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.06569v1
  60. Multimodal AI: A Guide to Open-Source Vision Language Models, 访问时间为 六月 3, 2025, https://www.bentoml.com/blog/multimodal-ai-a-guide-to-open-source-vision-language-models
  61. MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.10074v1
  62. Multi-RAG: A Multimodal Retrieval-Augmented Generation System for Adaptive Video Understanding - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.23990v1
  63. Build an AI-powered multimodal RAG system with Docling and ... - IBM, 访问时间为 六月 3, 2025, https://www.ibm.com/think/tutorials/build-multimodal-rag-langchain-with-docling-granite
  64. The future of Multimodal RAG: Transforming AI capabilities ..., 访问时间为 六月 3, 2025, https://superlinear.eu/insights/articles/the-future-of-multimodal-rag-systems-transforming-ai-capabilities
  65. Complete Guide to LLM Agents (2025) - Botpress, 访问时间为 六月 3, 2025, https://botpress.com/blog/llm-agents
  66. [2503.21460] Large Language Model Agent: A Survey on Methodology, Applications and Challenges - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2503.21460
  67. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2503.21460
  68. How to Build an LLM Agent With AutoGen: Step-by-Step Guide - Neptune.ai, 访问时间为 六月 3, 2025, https://neptune.ai/blog/building-llm-agents-with-autogen
  69. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2501.09136.pdf
  70. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2504.15909.pdf
  71. Self-adaptive LLMs - "Transformer"² - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2501.06252v2
  72. Transformer-Squared:停止微调LLMs - 果冻人工智能- 博客园, 访问时间为 六月 3, 2025, https://www.cnblogs.com/jellyai/p/18714924
  73. How to fine-tune open LLMs in 2025 with Hugging Face - Philschmid, 访问时间为 六月 3, 2025, https://www.philschmid.de/fine-tune-llms-in-2025
  74. KaFT: Knowledge-aware Fine-tuning for Boosting LLMs' Domain-specific Question-Answering Performance - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.15480v1
  75. deep-learning-pytorch-huggingface/training/fine-tune-llms-in-2024-with-trl.ipynb at main, 访问时间为 六月 3, 2025, https://github.com/philschmid/deep-learning-pytorch-huggingface/blob/main/training/fine-tune-llms-in-2024-with-trl.ipynb
  76. The Best Instruction-Tuning Data are Those That Fit - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2502.04194v2
  77. [2505.15480] KaFT: Knowledge-aware Fine-tuning for Boosting LLMs' Domain-specific Question-Answering Performance - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.15480
  78. Utilize the Flow Before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning | Proceedings of the AAAI Conference on Artificial Intelligence, 访问时间为 六月 3, 2025, https://ojs.aaai.org/index.php/AAAI/article/view/34812
  79. aclanthology.org, 访问时间为 六月 3, 2025, https://aclanthology.org/2024.emnlp-main.486.pdf
  80. 访问时间为 一月 1, 1970, https://arxiv.org/pdf/2505.15480.pdf
  81. Fine-tune large language models with reinforcement learning from ..., 访问时间为 六月 3, 2025, https://aws.amazon.com/blogs/machine-learning/fine-tune-large-language-models-with-reinforcement-learning-from-human-or-ai-feedback/
  82. Less is More: Improving LLM Alignment via Preference Data Selection - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2502.14560v2
  83. Improving LLM Safety Alignment with Dual-Objective Optimization - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/pdf/2503.03710
  84. How to align open LLMs in 2025 with DPO & and synthetic data - Philschmid, 访问时间为 六月 3, 2025, https://www.philschmid.de/rl-with-llms-in-2025-dpo
  85. 访问时间为 一月 1, 1970, http://arxiv.org/pdf/2502.14560.pdf
  86. Less is More: Improving LLM Alignment via Preference Data Selection - arXiv, 访问时间为 六月 3, 2025, http://arxiv.org/pdf/2502.14560
  87. [2502.14560] Less is More: Improving LLM Alignment via Preference Data Selection - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.14560
  88. Daily Papers - Hugging Face, 访问时间为 六月 3, 2025, https://huggingface.co/papers?q=target%20reward%20margin
  89. Daily Papers - Hugging Face, 访问时间为 六月 3, 2025, https://huggingface.co/papers?q=Fine-grained%20DPO
  90. Reinforcement Fine-Tuning LLMs with GRPO - DeepLearning.AI, 访问时间为 六月 3, 2025, https://www.deeplearning.ai/short-courses/reinforcement-fine-tuning-llms-grpo/
  91. Theory Behind GRPO - AI Engineering Academy, 访问时间为 六月 3, 2025, https://aiengineering.academy/LLM/TheoryBehindFinetuning/GRPO/
  92. Training Large Language Models: From TRPO to GRPO - Towards Data Science, 访问时间为 六月 3, 2025, https://towardsdatascience.com/training-large-language-models-from-trpo-to-grpo/
  93. [2505.22453] Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2505.22453
  94. SQL-R1: A Reinforcement Learning-based NL2SQL Model that Outperforms Larger Systems in Complex Queries with Transparent and Accurate SQL Generation : r/machinelearningnews - Reddit, 访问时间为 六月 3, 2025, https://www.reddit.com/r/machinelearningnews/comments/1k01zcf/sqlr1_a_reinforcement_learningbased_nl2sql_model/
  95. Prompt Engineering Guide | IBM, 访问时间为 六月 3, 2025, https://www.ibm.com/think/topics/prompt-engineering-guide
  96. Prompt Engineering Techniques | IBM, 访问时间为 六月 3, 2025, https://www.ibm.com/think/topics/prompt-engineering-techniques
  97. 10 Best Prompting Techniques for LLMs in 2025 - Skim AI, 访问时间为 六月 3, 2025, https://skimai.com/10-best-prompting-techniques-for-llms-in-2025/
  98. What is Prompt Engineering? A Detailed Guide For 2025 - DataCamp, 访问时间为 六月 3, 2025, https://www.datacamp.com/blog/what-is-prompt-engineering-the-future-of-ai-communication
  99. www.arxiv.org, 访问时间为 六月 3, 2025, http://www.arxiv.org/pdf/2506.00072
  100. Novel Universal Bypass for All Major LLMs - HiddenLayer, 访问时间为 六月 3, 2025, https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/
  101. How Human Oversight Solves RAG's Biggest Challenges for Business Success, 访问时间为 六月 3, 2025, https://labelstud.io/blog/how-human-oversight-solves-rag-s-biggest-challenges-for-business-success/
  102. [2504.14891] Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2504.14891
  103. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2504.17137v1
  104. RAG Evaluation Metrics: Best Practices for Evaluating RAG Systems - Patronus AI, 访问时间为 六月 3, 2025, https://www.patronus.ai/llm-testing/rag-evaluation-metrics
  105. Evaluation Metrics for Retrieval-Augmented Generation (RAG) Systems | GeeksforGeeks, 访问时间为 六月 3, 2025, https://www.geeksforgeeks.org/evaluation-metrics-for-retrieval-augmented-generation-rag-systems/
  106. Context Recall - Ragas, 访问时间为 六月 3, 2025, https://docs.ragas.io/en/latest/concepts/metrics/available_metrics/context_recall/
  107. RAG evaluation: Complete guide 2025 - SuperAnnotate, 访问时间为 六月 3, 2025, https://www.superannotate.com/blog/rag-evaluation
  108. Evaluating RAG pipelines - Promptfoo, 访问时间为 六月 3, 2025, https://www.promptfoo.dev/docs/guides/evaluate-rag/
  109. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.17503v1
  110. (PDF) RAGBench: Explainable Benchmark for Retrieval-Augmented ..., 访问时间为 六月 3, 2025, https://www.researchgate.net/publication/382301929_RAGBench_Explainable_Benchmark_for_Retrieval-Augmented_Generation_Systems
  111. stanford-futuredata/ARES: Automated Evaluation of RAG ... - GitHub, 访问时间为 六月 3, 2025, https://github.com/stanford-futuredata/ARES
  112. ARES: An Automated Evaluation Framework for Retrieval-Augmented Generation Systems, 访问时间为 六月 3, 2025, https://arxiv.org/html/2311.09476v2
  113. [Literature Review] CRUD-RAG: A Comprehensive Chinese ..., 访问时间为 六月 3, 2025, https://www.themoonlight.io/en/review/crud-rag-a-comprehensive-chinese-benchmark-for-retrieval-augmented-generation-of-large-language-models
  114. IAAR-Shanghai/CRUD_RAG: CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models - GitHub, 访问时间为 六月 3, 2025, https://github.com/IAAR-Shanghai/CRUD_RAG
  115. 7 RAG benchmarks - Evidently AI, 访问时间为 六月 3, 2025, https://www.evidentlyai.com/blog/rag-benchmarks
  116. Benchmarks - Ragie, 访问时间为 六月 3, 2025, https://www.ragie.ai/benchmarks
  117. ProBench: Benchmarking Large Language Models in Competitive Programming | Request PDF - ResearchGate, 访问时间为 六月 3, 2025, https://www.researchgate.net/publication/389510831_ProBench_Benchmarking_Large_Language_Models_in_Competitive_Programming
  118. ProBench: Benchmarking Large Language Models in Competitive Programming - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2502.20868v1
  119. ProBench: Benchmarking Large Language Models in Competitive Programming - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/abs/2502.20868
  120. SimCopilot: Evaluating Large Language Models for Copilot-Style Code Generation - arXiv, 访问时间为 六月 3, 2025, https://arxiv.org/html/2505.21514v1
  121. ProBench: Benchmarking Large Language Models in Competitive Programming, 访问时间为 六月 3, 2025, https://paperswithcode.com/paper/probench-benchmarking-large-language-models
  122. arxiv.org, 访问时间为 六月 3, 2025, https://arxiv.org/html/2408.05109v4
  123. Top LLM Trends 2025: What's the Future of LLMs - Turing, 访问时间为 六月 3, 2025, https://www.turing.com/resources/top-llm-trends
  124. The Future of Large Language Models in 2025 - Research AIMultiple, 访问时间为 六月 3, 2025, https://research.aimultiple.com/future-of-large-language-models/

网站公告

今日签到

点亮在社区的每一天
去签到