【RAG优化】rag整体优化建议-EW帮帮网

检索增强生成（RAG）效果优化技术综述

1. 引言：RAG及其优化需求

1.1. 检索增强生成（RAG）定义

检索增强生成（Retrieval-Augmented Generation, RAG）作为一种重要的人工智能技术范式，旨在通过在生成过程中整合外部知识库的信息来增强大型语言模型（Large Language Models, LLMs）的能力 1。与仅仅依赖模型内部参数化知识的传统LLMs不同 8，RAG系统在响应用户查询时，会先从外部数据源（如文档库、数据库、知识图谱等）检索相关信息，然后将这些检索到的信息作为上下文提供给LLM，以生成更准确、更相关、更可靠的回答。这种结合了检索和生成能力的方法，显著提升了LLM在知识密集型任务中的表现。基础的RAG流程通常遵循“检索-阅读”（Retrieve-Read）的模式 12，即先检索信息，再基于检索结果生成内容。

1.2. RAG优化的动机

尽管RAG带来了显著优势，但LLM本身固有的局限性以及RAG流程中的挑战促使研究人员不断探索优化方法。主要动机包括：

克服LLM的固有缺陷： LLMs普遍存在“幻觉”（生成不准确或捏造的信息）、知识陈旧（训练数据截止日期之后的信息无法获知）、缺乏特定领域知识以及推理过程不透明等问题 2。RAG通过引入外部实时知识源，旨在缓解这些问题。
提升生成质量： 优化的目标是提高生成内容的准确性（Accuracy）、可靠性（Reliability）、忠实度（Faithfulness，即生成内容与检索到的上下文保持一致）和上下文相关性（Contextual Relevance）1。
赋能特定领域应用： 许多知识密集型和专业领域（如法律、金融、医疗、编程等）对信息的准确性和时效性要求极高，通用LLM难以满足。RAG通过整合特定领域的知识库，使其能够在这些专业场景中有效应用 9。

1.3. 报告范围与结构

本报告旨在全面梳理和总结提升RAG系统效果和准确性的关键技术与策略。内容主要基于近期发表的技术文献、研究论文（特别是ArXiv预印本）以及相关的技术博客和资源 164。报告将重点关注以下方面：索引优化、检索优化、生成优化、先进RAG架构、相关工具与框架，以及实践中遇到的挑战和解决方案。

报告结构如下：第二部分将深入探讨RAG流水线核心环节（索引、检索、生成）的优化技术；第三部分介绍先进的RAG架构；第四部分讨论相关的工具、框架和库；第五部分关注实际应用中的挑战、解决方案及评估方法；最后，第六部分对全文进行总结并展望未来发展方向。

2. 优化RAG流水线：核心技术

RAG系统的性能很大程度上取决于其核心流水线的三个阶段：索引（Indexing）、检索（Retrieval）和生成（Generation）。针对每个阶段的优化是提升RAG整体效果的关键。下表总结了本报告将讨论的主要优化技术类别。

表1：RAG优化技术概览

阶段

技术类别

具体方法/概念

简要描述

主要目标/收益

相关文献示例

索引

分块策略 (Chunking)

固定大小、语义分块、模式分块、自适应分块、无分块 (Chunkless)

将文档分割成适合处理的小块，或采用无需分块的方法

优化上下文窗口利用率，保留语义连贯性

嵌入模型 (Embedding)

模型选择（大型模型趋势）、领域/任务微调 (Fine-tuning)、多模态嵌入

选择或训练能够准确表示文本/数据语义的向量模型

提升语义表示能力，适应特定领域

索引结构 (Structure)

向量数据库、层次化索引 (Hierarchical)、图索引 (Graph)

构建高效存储和查询向量的数据结构

加速检索，支持复杂关系查询

检索

查询理解与转换

查询重写 (Rewriting)、查询扩展 (Expansion)、查询分解 (Decomposition)、意图识别 (Intent Recognition)

优化用户输入，使其更清晰、更易于检索

提高检索相关性，处理复杂查询

高级搜索策略

混合搜索 (Hybrid Search)、多向量检索 (Multi-Vector)、多路/多跳检索 (Multi-Route/Hop)

结合多种检索方法或来源，处理复杂信息需求

提高检索覆盖率和准确性

重排序 (Re-ranking)

基于LLM的重排序、基于GNN的重排序、算法重排序（RRF）、效率优化（KV缓存复用）

对初步检索结果进行重新排序，提升顶部结果的相关性

提高最终上下文质量，平衡效果与效率

生成

上下文处理

上下文压缩/选择 (Compression/Selection)、上下文利用 (Utilization)、上下文排序 (Ordering)

有效管理和利用检索到的上下文信息

减少噪声干扰，提高效率，确保信息有效利用

提示工程 (Prompting)

基础提示、高级提示（如CoT）

设计有效的指令引导LLM基于上下文生成回答

提升生成质量，引导推理过程

108

LLM微调 (Fine-tuning)

领域适应、RAG特定微调（RAFT及其变体如PA-RAG, ALoFTRAG）、PEFT

训练LLM以更好地理解和利用检索到的上下文，适应特定任务或领域

提升模型在RAG场景下的特定能力

忠实度控制

冲突检测与处理（CK-PLUG, CaLE）、后处理（引用检查）、训练方法（RPO）

确保生成内容忠实于检索到的上下文，减少幻觉

提高生成结果的可靠性和可信度

2.1. 索引优化

索引阶段的目标是将原始知识文档转换成可供高效检索的格式。优化索引对于后续检索的准确性和效率至关重要。

2.1.1. 分块策略 (Chunking Strategies)

由于LLM通常存在上下文窗口长度的限制，将长文档切分成小块（Chunks）是RAG系统中的常见做法 70。然而，简单的固定大小分块可能会切断语义联系，导致上下文信息丢失 70。例如，代词指代关系可能因分块而被破坏。

为了解决这个问题，研究者提出了更先进的分块策略：

语义分块 (Semantic Chunking): 利用文本的语义相似度来决定分割点，试图在语义连贯的地方进行切分 32。
模式分块 (Pattern-based Chunking): 依据文档的固有结构（如法律文档中的章节符号 "§"）进行分割，这种方法在特定格式的语料库上可能效果更佳 87。一项研究发现，针对NYC Local Law 144（LL144）文档，使用其特定的分隔符进行模式分块，在上下文召回率、忠实度等方面优于句子级和语义分块 168。这表明针对特定语料库结构进行分块优化具有潜力。
自适应分块 (Adaptive Chunking): 如HyPA-RAG系统所采用的方法，可以根据查询的复杂性或其他因素动态调整分块策略 29。
面向检索准确性的分块: ChunkRAG框架通过在块级别进行评估和过滤来优化信息选择，进一步提升检索精度 32。

与此同时，随着嵌入模型处理长文本能力的提升，无分块 (Chunkless) 的方法也开始出现。例如，BGE Landmark Embedding技术通过利用长上下文窗口和位置感知函数，实现了无需预先分块的检索，从而更好地保证了上下文的连贯性 70。

这些进展表明，索引策略正从简单的固定大小切分向更智能、更上下文感知的方法演进。这种演变的核心驱动力在于，需要在LLM的上下文窗口限制与保留原始文档语义完整性之间找到最佳平衡点，尤其是处理结构复杂或篇幅冗长的文档时。大型嵌入模型及其处理长上下文的能力是实现这一目标的关键技术支撑。

2.1.2. 嵌入模型选择与微调 (Embedding Model Selection and Fine-tuning)

嵌入模型负责将文本块转换为向量表示，是实现语义检索的基础 25。模型的选择和优化直接影响检索效果。

模型选择趋势: 研究显示，使用基于大型语言模型（如SRF-Embedding-Mistral, GritLM7B, BGE M3, BGE Landmark）构建的嵌入模型正成为主流，它们通常在基准测试中表现更优，并且支持更长的上下文窗口（例如32k tokens），有助于处理长文档 70。
嵌入微调 (Fine-tuning): 虽然通用嵌入模型能力强大，但在特定领域或任务上，通过微调可以获得显著的性能提升 38。
- 有监督微调: 使用标注数据进行微调，以优化特定任务的嵌入表示。
- 无监督/自监督微调: ALoFTRAG框架展示了一种无需人工标注数据即可自动进行本地微调的方法，它通过LLM自身生成问答对和难负例来创建训练数据，尤其适用于保护数据隐私的场景 38。
- 参数高效微调 (PEFT): 利用PEFT技术（如LoRA）微调嵌入模型，可以在嵌入特定事实的同时，有效降低计算资源消耗 112。
多模态嵌入: 随着RAG应用扩展到文本之外，支持图像、音频等多模态数据的嵌入模型也日益重要 25。

选择通用的大型嵌入模型还是投入资源进行领域/任务特定的微调，是实践中需要权衡的关键点。通用模型提供了良好的基础性能和长上下文处理能力，而微调则能在特定场景下带来更高的精度，ALoFTRAG等自动化无监督微调技术降低了微调的门槛。

2.1.3. 索引结构与管理 (Index Structures and Management)

高效的索引结构是实现快速、准确检索的前提。

向量数据库 (Vector Databases): 专门用于存储和查询高维向量的数据库，是现代RAG系统的核心组件。常见的例子包括Milvus、Pinecone、Chroma等 25。它们提供了高效的相似性搜索能力。
索引类型:
- 扁平索引/ANN索引: 基础的向量索引结构，如FAISS库提供的索引。近似最近邻（ANN）算法用于在牺牲一定精度的情况下加速大规模向量搜索。
- 层次化索引 (Hierarchical Index): 如RAPTOR框架采用的树状结构，通过递归聚类和摘要构建多层次索引，可能有助于捕捉不同粒度的信息 25。
- 图索引 (Graph Index): 将知识表示为图结构，节点代表实体或文本块，边代表关系。这种结构便于捕捉实体间的复杂关系，支持多跳推理 14。GraphRAG和CausalRAG是利用图索引的代表性架构。
索引更新: 对于知识需要保持时效性的应用场景（如新闻问答、实时市场分析），索引的动态更新能力至关重要 25。向量数据库通常需要支持高效的插入、删除和更新操作。

选择合适的索引结构取决于具体的应用需求，如图结构更适合关系密集型的知识库，而层次结构可能更适合需要不同粒度信息的场景。向量数据库技术的成熟为这些高级索引策略的实现提供了基础。

2.2. 检索优化

检索阶段的目标是根据用户查询，从索引中快速、准确地找到最相关的信息片段。优化检索是提高RAG系统回答质量的核心环节。

2.2.1. 查询理解与转换 (Query Understanding and Transformation)

用户查询往往存在模糊性、不完整性或与索引文档表达方式不一致的问题，直接使用原始查询进行检索效果可能不佳。因此，对查询进行预处理和转换至关重要。

查询重写/扩展 (Query Rewriting/Expansion):
- 目的: 澄清用户意图，增加相关关键词或语义信息，提高查询与文档的匹配度 1。
- 方法:
  - 基于LLM的重写: 利用LLM的语言理解和生成能力，自动改写或扩展查询 32。例如，训练专门的重写模型 32 或直接提示LLM进行改写。
  - HyDE (Hypothetical Document Embeddings): 让LLM先根据查询生成一个假设性的“理想”答案文档，然后使用该假设文档的嵌入向量进行检索，而不是直接使用查询的嵌入。这种方法旨在更好地捕捉查询背后的深层意图 2。
  - 添加关键词/领域术语: 针对特定领域，可以补充相关的专业术语来提高检索精度 32。
查询分解 (Query Decomposition):
- 目的: 将复杂的、需要多步推理或涉及多个信息点的查询分解为一系列更简单的子查询 1。
- 方法:
  - 基于规则/模板: 预定义规则来拆分查询。
  - 基于LLM的分解: 利用LLM的推理能力自动进行分解。Collab-RAG框架展示了一种利用白盒小模型（SLM）进行分解，并由黑盒大模型（LLM）提供反馈进行优化的协作方法 1。SLM负责将复杂问题拆解成原子性的子问题序列，LLM则负责评估分解质量并指导SLM改进。
意图识别 (Intent Recognition): 在检索前先判断用户的真实意图，例如区分是需要事实性答案还是观点性总结，有助于选择更合适的检索策略 70。

2.2.2. 高级搜索策略 (Advanced Search Strategies)

单一的检索方法往往难以应对多样化的信息需求。结合多种搜索策略可以取长补短，提升检索的全面性和准确性。

混合搜索 (Hybrid Search):
- 概念: 结合__稠密检索 (Dense Retrieval)（基于向量嵌入的语义相似度搜索）和__稀疏检索 (Sparse Retrieval)（基于关键词匹配，如BM25、Splade等模型） 25。
- 优势: 稠密检索擅长理解语义和概念，即使关键词不完全匹配也能找到相关内容；稀疏检索则对关键词更敏感，能确保包含特定术语的文档被召回，并且在某些域外知识检索和可解释性方面表现更佳 70。混合搜索旨在结合两者的优点。
- 实现: 向量数据库（如Milvus 2.4）和搜索引擎（如Elasticsearch, OpenSearch）已广泛支持混合查询 70。
多向量检索 (Multi-Vector Retrieval): 使用能够同时生成多种类型向量（如稠密向量、稀疏向量、类似Colbert的Token级多向量）的模型（如BGE_M3），然后利用这些不同类型的向量进行多路召回，并通过LLM对结果进行融合排序，可以显著提升检索效果 70。
多路/多跳检索 (Multi-Route/Multi-Hop Retrieval):
- 多路召回: 同时查询多个不同的知识来源（如不同的数据库、API、甚至网页搜索）或使用多种不同的检索策略，然后融合结果 29。
- 多跳推理: 对于需要整合来自不同文档或知识碎片的复杂问题，系统需要进行多步检索，即根据第一轮检索的结果生成新的查询，进行下一轮检索，逐步逼近最终答案 12。这通常与查询分解或Agentic RAG架构相结合。

混合搜索正逐渐成为RAG系统的标配，因为它能有效结合语义理解和关键词匹配的优势。BGE_M3等多向量模型的出现以及Milvus等数据库的支持，进一步推动了这一趋势。

2.2.3. 重排序 (Re-ranking)

初步检索（召回）阶段为了保证覆盖率和速度，可能会返回一些相关性不高的结果。重排序是在召回之后、生成之前的一个关键步骤，旨在对初步检索到的文档或块进行重新打分和排序，将最相关的结果排在前面，以提高最终提供给LLM的上下文质量 11。

重排序方法:
- 基于LLM的重排序: 利用LLM强大的文本理解能力来评估查询和文档之间的相关性。这可以进一步细分为：
  - 零样本 (Zero-shot): 直接提示LLM对文档进行相关性打分或排序，无需额外训练 170。
  - 成对 (Pairwise): 训练LLM判断一对文档中哪一个与查询更相关 48。
  - 列表 (Listwise): 训练LLM一次性对整个文档列表进行排序 48。
  - 有监督/无监督: 可以使用标注数据进行有监督训练，也可以利用LLM自身的知识进行无监督重排序（例如，通过生成问题或利用内部概率）170。近期的研究趋势显示，基于解码器的重排序器（如使用T5或LLaMA）因其强大的生成和理解能力而逐渐占据主导地位 18。
- 基于GNN的重排序: 在GraphRAG等架构中，利用图神经网络（GNN）处理文档间的关系图，生成更丰富的表示用于排序 41。GNN能够捕捉文档间的复杂依赖关系，从而进行更精准的排序。这些方法同样可以采用Pointwise, Pairwise, Listwise等策略 48。
- 传统/算法方法: 如倒数排序融合 (Reciprocal Rank Fusion, RRF)，一种简单有效的融合多个排序列表的方法 87。
效率挑战与优化: 强大的重排序器（尤其是基于LLM的）通常计算成本高昂，会显著增加RAG系统的延迟 6。为了解决这个问题，研究人员提出了__KV缓存复用 (KV-Cache Reuse)__ 技术。例如，HyperRAG 系统通过复用重排序器计算过程中产生的文档端KV缓存，直接传递给生成阶段的LLM，避免了对相同文档内容的重复计算，从而在保持生成质量的同时，显著提升了系统的吞吐量（据称可达2-3倍）和端到端延迟 6。

检索过程的复杂化——从简单的单次向量搜索演变为包含查询理解、混合策略召回和精细化重排序的多阶段流程——反映了准确映射用户意图到相关知识的挑战性。混合搜索已成为行业共识，而重排序虽然能显著提升质量，但也带来了新的效率瓶颈，进而催生了像KV缓存复用这样的优化技术。这体现了一个典型的技术发展循环：解决一个问题（相关性不足）引入了新问题（效率低下），再针对新问题进行优化。

2.3. 生成优化

生成阶段是RAG的最终环节，LLM利用检索到的上下文信息来生成最终答案。优化生成阶段的目标是确保LLM能够有效、忠实地利用上下文，并生成高质量、相关的回答。

2.3.1. 上下文处理 (Context Handling)

如何将检索到的、可能包含噪声或冗余信息的上下文有效地呈现给LLM，是一个关键问题。

上下文压缩/选择 (Context Compression/Selection):
- 目的: 从检索到的大量上下文中筛选出最关键的信息，去除冗余或不相关部分，以适应LLM的上下文窗口限制，减少噪声干扰，并提高推理效率 4。
- 方法:
  - 查询无关压缩 (Query-agnostic): 在查询发生前对整个知识库或文档进行预压缩 4。
  - 查询相关压缩 (Query-aware): 在接收到查询后，根据查询动态地压缩或选择最相关的上下文片段 4。
  - 基于注意力机制: ATTENTIONRAG提出了一种方法，通过将RAG查询重新表述为下一个词元预测任务，识别查询的“焦点词元”，然后计算该焦点词元与上下文中各词元的注意力分数，保留注意力得分最高的句子，从而实现高达6.3倍的压缩率，同时性能优于基线方法 185。
  - 基于KV缓存: RetroLM框架在KV缓存层面进行检索和选择，只加载和计算最关键的KV缓存页面，从而隐式地压缩了上下文，并提高了处理长上下文的效率和鲁棒性 10。
上下文利用 (Context Utilization):
- 挑战: LLMs有时会忽略提供的上下文，过度依赖其内部的参数化知识，尤其是在上下文信息与其内部知识冲突时 13。
- 目标: 确保LLM能够充分、正确地利用检索到的上下文信息来生成答案 8。RetroLM通过在KV缓存层面进行检索，使得LLM能更好地利用碎片化的上下文 10。
上下文排序/放置 (Context Ordering/Placement): 重排序（见2.2.3节）不仅筛选内容，也决定了信息呈现给LLM的顺序。将最相关的上下文放在提示的开头或结尾可能影响LLM的注意力分配和利用效率 12。

有效管理上下文是优化生成的关键一环。面对检索结果可能存在的噪声和冗余，以及LLM有限的上下文窗口和注意力机制的特点，上下文压缩、选择和排序技术变得尤为重要。ATTENTIONRAG和RetroLM等方法代表了在这一方向上的前沿探索，它们试图更智能地筛选信息或在更底层的表示（KV缓存）上进行操作，以提高效率和效果。

2.3.2. 提示工程 (Prompt Engineering)

设计合适的提示（Prompt）是引导LLM基于检索到的上下文生成高质量回答的基础。

基础提示: 最简单的方式是将用户原始查询和检索到的文档块直接拼接起来，形成输入给LLM的提示 12。
高级提示技术:
- 思维链 (Chain-of-Thought, CoT): 提示LLM在生成最终答案前，先输出一步步的推理过程。当应用于RAG时，可以引导LLM基于检索到的上下文进行逻辑推理，而不仅仅是简单复述 9。例如，RAFT框架就利用了CoT风格的响应来训练模型进行推理 9。
- 结构化指令: 将提示分解为明确的指令、上下文、输入数据和输出格式指示等部分，有助于LLM更好地理解任务要求 108。
- 动态/自适应提示: 根据查询的复杂性或检索结果的特点动态调整提示内容或结构。

虽然基础提示简单易行，但对于需要复杂推理或整合多个信息源的任务，CoT等高级提示技术能显著提升生成质量和逻辑性。

2.3.3. LLM针对RAG的微调 (LLM Fine-tuning for RAG)

除了优化检索和提示，直接对LLM进行微调，使其更适应RAG的工作模式，也是一个重要的优化方向。目标是增强LLM理解和利用检索到的上下文、处理噪声、遵循RAG特定指令的能力 9。

领域适应微调 (Domain Adaptation): 使用特定领域的文档和问答对进行微调，可以提高RAG在该领域的性能 9。
RAFT (Retrieval-Augmented Fine-Tuning): 这是一种专门为RAG设计的微调方法。其核心思想是在微调阶段就让LLM接触到“检索”这一过程。训练数据通常包含一个问题、一个相关的“黄金”文档（Oracle Context），以及若干不相关或干扰性的文档（Distractor Documents）。通过在这种混合上下文中训练LLM生成答案（通常还带有CoT推理过程），RAFT旨在教会LLM：(1) 当存在相关文档时，如何有效利用它来回答问题；(2) 当只有不相关文档时，如何忽略它们并依赖自身知识（或拒绝回答）；(3) 如何在包含相关和不相关信息的混合情境中，识别并聚焦于相关信息 9。
RAFT的变体与改进: RAFT虽然有效，但也存在一些问题，催生了后续的改进方法：
- PA-RAG (Paraphrase Augmentation RAG): 指出RAFT存在“条件记忆偏差”（Conditional Memorization Bias，即模型根据训练时某个问题是属于“检索成功”还是“检索失败”场景，而对该问题相关的知识产生不同的记忆/依赖模式）和“规范答案过拟合”（Canonical Answer Overfitting，即模型只学会了训练数据中提供的标准答案表述）。PA-RAG通过__上下文增强__（为同一个问题模拟检索成功和失败两种场景）和__答案改写__（为每个问题生成多个释义的答案）来缓解这些问题，取得了比RAFT更好的效果 43。
- CoR (Chain-of-Rank): 简化RAFT中的复杂推理过程，让模型在微调时学习输出相关上下文的ID排序，而不是完整的推理链，以降低认知负荷 9。
- LLMQuoter: 将RAFT的“引用-思考-回答”过程解耦为独立的阶段，以简化训练 187。
- ALoFTRAG (Automatic Local Fine-Tuning RAG): 提出一种自动化的本地微调流程，利用基础LLM从无标签的领域文档中生成问答对和难负例样本，然后使用LoRA进行微调，无需人工标注或依赖更强大的教师模型，特别适合数据敏感领域 38。
参数高效微调 (PEFT) 的应用: 在进行RAG特定微调时，可以结合LoRA等PEFT方法，以降低训练成本和资源需求 38。

针对RAG的LLM微调，特别是RAFT及其变种，标志着一个重要的研究趋势。这表明研究者们认识到，仅仅优化检索或提示是不够的，还需要让LLM本身学会如何更好地“消费”检索到的信息，包括识别干扰项和进行基于证据的推理。ALoFTRAG等自动化、无监督方法的出现，进一步降低了实施RAG特定微调的门槛。

2.3.4. 控制忠实度与减少幻觉 (Controlling Faithfulness and Reducing Hallucinations)

确保LLM生成的内容忠实于（Faithful）检索到的上下文，是RAG的核心目标之一，也是减少幻觉的关键。然而，LLM有时会忽略、甚至违背上下文信息，尤其是在上下文与其内部参数化知识冲突时 7。

控制知识依赖的方法:
- CK-PLUG (Controllable Knowledge Plug-in): 这是一种即插即用的推理时方法，无需修改模型参数。它引入了一个名为“置信度增益”（Confidence Gain）的新指标，通过测量上下文注入前后词元概率分布的熵变来检测参数知识与上下文之间的冲突。对于检测到冲突（置信度增益为负）的词元，CK-PLUG通过一个可调参数 α 来加权融合参数感知和上下文感知的词元概率分布，从而实现对模型依赖内部知识还是外部上下文的细粒度控制 7。它还支持基于模型置信度的自适应控制模式 7。
- CaLE (Context-aware Layer Enhancement): 该方法利用V-usable信息分析来识别LLM内部处理上下文信息最有效的中间层（Context-aware Layer），然后通过放大或残差连接等方式增强该层的表示，以促进上下文信息向输出层的流动，从而提高忠实度 13。研究发现LLM内部的上下文信息流并非单调递增，这为干预提供了契机 13。
- 后处理 (Post-processing): 在生成答案后进行验证。例如，CiteFix方法通过关键词+语义匹配、微调的BERTScore模型或轻量级LLM来交叉检查生成内容中的引用与其声称来源的文档是否一致，以修正错误的引用 11。CausalRAG也包含对生成响应进行因果路径验证的步骤 21。
- 训练方法:
  - 反事实数据微调: 在包含反事实（即与模型内部知识冲突）的上下文数据上进行微调，可以显著提高模型的上下文忠实度，但可能损害模型原有的内部知识准确性 73。
  - RAFT/PA-RAG: 通过在训练中暴露模型于相关和不相关的上下文，隐式地训练模型更好地利用上下文，从而提高忠实度 9。
  - RPO (Retrieval Preference Optimization): 使用强化学习，根据检索上下文的相关性（质量）来调整奖励信号，从而训练LLM在面对多源知识（内部与外部）时，自适应地决定优先依赖哪一种知识 35。
忠实度评估指标: RAGAS框架提出的忠实度（Faithfulness）指标被广泛用于衡量生成答案与检索到的上下文之间的一致性 19。

简单地将检索到的上下文塞给LLM并不足以保证生成内容的忠实度。LLM内部知识与外部上下文之间的潜在冲突是一个核心挑战。CK-PLUG、CaLE、RPO等方法代表了解决这一问题的最新进展，它们试图更深入地理解和干预LLM的内部工作机制，或者通过更智能的训练范式，来实现对知识来源依赖性的精细控制。这标志着RAG优化正从关注“提供什么信息”转向关注“模型如何使用信息”。

3. 先进RAG架构

随着RAG应用的深入和复杂化，研究者们提出了超越基础“检索-生成”模式的更先进的RAG架构，旨在提高系统的适应性、推理能力和处理复杂信息的能力。

3.1. 多路召回系统 (Multi-Route Recall Systems)

现实世界的知识往往分布在不同的来源或以不同的形式存在。多路召回系统旨在通过同时利用多个检索器或知识源来提高检索的全面性和鲁棒性 29。这可以包括：

结合不同类型的检索器: 例如，同时使用基于向量的稠密检索和基于关键词的稀疏检索（如2.2.2节所述的混合搜索）。
查询多个知识源: 同时查询结构化数据库（如知识图谱）、非结构化文档库、甚至实时网页搜索。
路由机制 (Routing): 开发智能路由模块，根据输入查询的特性（如问题类型、领域等）将其导向最合适的知识源或检索策略 29。例如，对于事实性问题可能优先查询向量数据库，而对于需要最新信息的问题则可能路由到网页搜索。

3.2. 模块化RAG框架 (Modular RAG Frameworks)

将RAG系统视为一个由多个可插拔、可配置模块组成的框架，提供了更高的灵活性和可扩展性 12。这种模块化设计允许研究人员和开发者针对特定需求优化或替换单个组件，而无需重构整个系统。

核心模块: 索引、检索、生成。
可选/增强模块:
- 查询重写/分解模块: 优化输入查询。
- 重排序模块: 优化检索结果。
- 上下文压缩/选择模块: 优化传递给生成器的上下文。
- 记忆模块 (Memory): 利用LLM的记忆能力或引入外部记忆机制来处理对话历史或长期依赖 12。
- 搜索模块 (Search): 直接集成搜索引擎能力。
- 路由模块 (Routing): 如3.1节所述，用于选择知识源或处理流程。
- 预测模块 (Predict): 直接生成上下文而非检索。
- 任务适配器 (Task Adapter): 针对特定下游任务调整RAG流程 12。
灵活的交互模式: 模块化RAG不仅支持传统的“检索-阅读”流程，还可以实现更复杂的模式，如“重写-检索-阅读”（先优化查询再检索）、“生成-阅读”（先生成假设性答案再验证/检索）或“背诵-阅读”（先尝试从内部知识回答再检索）12。

模块化RAG代表了从固定流水线向灵活、可组合工作流的转变，使得RAG系统能够更好地适应多样化的任务和场景。

3.3. 基于图的RAG (Graph-based RAG / GraphRAG)

利用知识图谱（Knowledge Graphs, KGs）或从文本动态构建图结构来增强RAG，是近年来备受关注的方向 14。图结构能够显式地表示实体之间的关系和知识的层次结构，克服了传统基于“块”的检索方法中上下文碎片化和关系信息丢失的问题。

优势:
- 捕捉关系: 图能够明确表示实体间的复杂关系（如因果、从属、相似等），而这在扁平文本块中是隐式的 17。
- 多跳推理: 图结构天然支持沿着边进行多跳遍历，适用于需要整合多个关联信息的复杂查询 17。
- 上下文保持: 通过节点和边的连接，更好地保持原始文档的上下文完整性 14。
实现技术:
- 图构建: 可以使用预先构建好的知识图谱，或利用NLP技术（如实体识别、关系抽取）从非结构化文本中动态构建图 87。
- 图检索: 设计适用于图结构的检索算法，可能结合图遍历和节点嵌入相似度计算。
- 基于GNN的重排序: 利用图神经网络（GNNs）学习图中节点（文档/实体）的表示，并根据查询进行重排序，捕捉结构化信息 41。
- 社区发现/摘要: 如Microsoft的GraphRAG方法，利用图社区发现算法识别相关信息簇，并生成摘要作为检索结果 45。
代表性架构:
- Microsoft GraphRAG: 利用社区发现和摘要技术进行图检索 45。
- CausalRAG: 专注于构建和利用__因果图__进行检索，旨在捕捉知识间的因果关系，提高解释性和准确性，特别是在区分相关性与因果性方面优于传统RAG和基于语义/社区的GraphRAG 14。它通过识别因果路径来过滤无关信息并生成基于因果链的摘要。
- HyPA-RAG: 在法律领域应用中，结合了向量检索、稀疏检索和知识图谱检索 87。

GraphRAG，特别是CausalRAG等变体，代表了RAG从处理扁平文本向理解和利用结构化、关系化甚至因果化知识迈进的重要一步。虽然图的构建和查询带来了新的技术挑战 48，但其在处理复杂关系和进行深度推理方面的潜力巨大，有望显著提升RAG在专业领域的性能。

3.4. Agentic RAG

Agentic RAG是将自主智能体（Autonomous Agents）的概念融入RAG流程的一种新兴且极具潜力的架构 15。它不仅仅是被动地执行检索和生成，而是让一个或多个智能体主动地规划、执行、反思和协作，以完成更复杂的、需要多步骤推理和动态适应的信息处理任务。

核心理念: 将RAG流程视为一个由智能体驱动的任务执行过程，赋予系统更高的自主性和智能性。
关键Agentic模式:
- 规划 (Planning): Agent能够分析复杂任务，将其分解为一系列子任务或步骤，并制定执行计划 15。例如，对于一个复杂问题，Agent可能规划先进行初步检索，然后根据结果决定是否需要重写查询、进行多跳检索或调用特定工具。
- 工具使用 (Tool Use): Agent被授权使用外部工具、API或数据库来获取信息或执行特定操作 15。这极大地扩展了RAG系统的能力边界，使其能够与外部世界进行交互，例如调用计算器进行精确计算 90，查询实时数据库，或执行代码。
- 反思 (Reflection): Agent能够评估自身的行为、中间结果或最终输出的质量，识别错误或不足之处，并据此调整策略或进行迭代优化 15。例如，Agent可以反思检索到的文档是否足够回答问题，如果不够，则触发新一轮的查询扩展和检索。
- 多智能体协作 (Multi-Agent Collaboration): 对于特别复杂的任务，可以部署多个Agent，每个Agent扮演不同的角色（如查询生成Agent、文档检索Agent、信息综合Agent、答案生成Agent），它们分工协作，共享信息，共同完成任务 15。
优势: 相比传统RAG，Agentic RAG提供了前所未有的灵活性、适应性、可扩展性和上下文感知能力，尤其擅长处理需要动态策略调整和多步推理的复杂场景 15。
代表性框架/研究:
- Agent-G: 将Agentic框架应用于Graph RAG，实现对文本、关系和混合问题的自适应解决 50。
- C-3PO: 一个以代理为中心的框架，通过三个专门的Agent（评估检索需求、生成有效查询、选择适合LLM的信息）协作优化RAG流程，而无需修改检索器和LLM本身 28。

Agentic RAG被许多业内人士视为RAG的未来发展方向 190，它将RAG从一个相对固定的信息处理流水线，提升为一个具备初步自主决策和行动能力的智能系统。这种架构上的演进，预示着RAG系统将能够应对更广泛、更动态、更需要深度推理的应用场景。

4. RAG优化中的工具、框架与库

实现和优化RAG系统离不开一系列工具、框架和库的支持。这些技术栈简化了开发流程，提供了关键组件的实现，并促进了最佳实践的应用。

4.1. 编排框架 (Orchestration Frameworks)

编排框架负责将RAG流水线的各个组件（数据加载、索引、检索、生成等）连接起来，构建成一个完整的工作流。

LangChain: 一个广泛使用的开源框架，提供了用于构建LLM应用的模块化组件，包括数据连接器、文本分割器、嵌入模型接口、向量存储接口、检索器、Agent等，极大地简化了RAG应用的开发 52。许多RAG实践案例都基于LangChain构建。
LlamaIndex: 另一个流行的开源框架，专注于将LLM与外部数据连接起来。它提供了强大的数据索引和检索功能，支持多种数据源和索引结构（包括向量索引、列表索引、树索引、关键词表索引等），并提供了灵活的查询接口 25。LlamaIndex常被用于构建复杂的RAG数据管道。
DSPy: 一个专注于通过编程方式优化LM提示和权重的框架。它将重点从手动设计提示（"how"）转移到声明性地指定输入和期望输出（"what"），并通过算法自动优化提示和模型调用流程，可用于优化RAG中的提示生成或检索策略 108。

这些框架通过提供标准化的接口和预构建的组件，降低了开发门槛，使得开发者能够更专注于RAG流程本身的逻辑和优化，而不是底层实现细节。

4.2. 向量数据库与搜索引擎 (Vector Databases & Search Engines)

向量数据库和搜索引擎是RAG系统中存储和检索知识的核心基础设施。

目的: 高效地存储海量文本（或其他模态数据）的向量嵌入，并支持快速的相似性搜索。
代表性产品:
- Milvus: 一个开源的云原生向量数据库，专为大规模向量相似性搜索和分析而设计。它支持多种索引类型和距离度量，并已支持混合搜索（稠密+稀疏向量）70。
- Pinecone: 一个商业化的托管向量数据库服务，提供易于使用的API和可扩展的基础设施 25。
- Elasticsearch: 一个广泛使用的分布式搜索和分析引擎。较新版本（如Elasticsearch 8）增强了向量搜索能力，并提供了原生向量引擎、相关性优化功能以及与外部AI服务的集成能力，使其成为构建RAG系统的有力选择 72。
- OpenSearch: Elasticsearch的一个开源分支，同样具备强大的文本搜索和向量搜索能力，并在字节跳动等公司内部被用于构建RAG系统 72。
- Chroma: 一个开源的嵌入数据库，专注于简化LLM应用的开发，提供了易于使用的内存和持久化存储选项 167。
关键特性: 除了基础的向量存储和ANN搜索，现代向量数据库和搜索引擎越来越注重__混合搜索__能力（结合向量与关键词/稀疏向量搜索）70 和__可扩展性__ 162，以满足RAG系统处理大规模、多样化知识的需求。

向量数据库和搜索引擎技术的成熟是RAG得以广泛应用的关键因素。它们提供了处理海量非结构化数据并进行高效语义检索的基础能力。

4.3. 云平台与服务 (Cloud Platforms & Services)

各大云服务提供商也纷纷推出了针对RAG的解决方案或集成服务，进一步降低了企业部署和运维RAG应用的复杂度。

腾讯云 ES (Elasticsearch Service): 提供了一站式的RAG解决方案，涵盖模型上传、向量生成、存储、检索到LLM对接的全流程，并特别强调了其专有机器学习节点和向量/文本混合搜索能力 162。
华为云 KooSearch / ModelArts: 华为云的KooSearch智能搜索服务在其通用RAG能力基础上，增加了查询改写/分解、复杂查询分类/判定等优化，并支持多模态搜索 174。ModelArts Studio则提供了围绕大模型的全生命周期工具链，包括模型调优、部署以及LangChain、RAG、Agent等组件的集成 201。
AWS (Amazon Web Services): AWS提供了多种构建RAG应用的选项，并有相应的指导文档说明RAG与微调的区别与结合方式。AWS提供全托管的RAG解决方案，降低了对专业ML知识的要求 188。

云平台提供的集成化、托管式RAG服务，使得企业能够更快地将RAG技术应用于实际业务场景，减少了基础设施建设和维护的负担。

工具和平台生态系统的不断完善，反映了RAG技术从研究走向产业应用的趋势。标准化的框架降低了开发难度，高性能的向量数据库提供了核心检索能力，而云厂商的集成服务则加速了企业级部署。

5. 实践应用：挑战与解决方案

将RAG技术应用于实际场景并非一帆风顺，开发者和研究人员在实践中遇到了诸多挑战。理解这些挑战并探索相应的解决方案对于成功部署RAG系统至关重要。

在深入探讨具体挑战之前，首先需要明确RAG与另一种常见的LLM定制技术——微调（Fine-tuning）——之间的区别与联系。这两种方法各有优劣，适用于不同的场景，理解它们的差异是做出正确技术选型的前提。

表2：RAG 与微调 (Fine-tuning) 对比

方面

RAG (检索增强生成)

微调 (Fine-tuning)

核心机制

通过检索外部知识库来__增强__LLM的输入上下文，__不改变__模型参数 59。

通过在特定数据集上__重新训练__来__调整__LLM的内部参数和权重 59。

主要目的/优势

访问__最新/实时__信息；利用__私有/内部__数据；提高事实准确性；减少幻觉；提供__可追溯__的答案来源 59。

适应特定领域/任务；学习特定__风格/语气__；提高模型在特定任务上的__性能/专业性__；可能克服模型固有偏见 59。

数据需求

需要访问一个（通常是大量的）外部知识库（结构化或非结构化），需要良好的数据组织和维护 59。

需要一个（通常相对较小的）__特定领域/任务的标注数据集__进行训练 59。

知识更新

知识库可以__动态更新__，RAG能即时访问最新信息 59。

模型知识是__静态__的（基于微调数据），更新需要重新训练 59。

幻觉风险

较低，因为答案基于检索到的具体上下文，更容易验证 62。

可能__仍然存在__，尤其是在微调数据未覆盖的查询上，但领域内幻觉可能减少 59。

可解释性/可追溯性

较高，通常可以引用检索到的来源文档 59。

较低，模型的决策过程是内部参数作用的结果，难以直接追溯到具体训练数据 63。

定制化（行为/风格）

主要影响内容，对模型__固有行为或风格__的改变有限 62。

可以显著改变模型的__输出风格、语气和行为模式__ 67。

成本

前期开发成本（数据管道、索引构建）相对较低，但__运行时成本__（检索+生成）可能较高 67。

前期训练成本（计算资源、标注数据）通常__较高__，但__运行时成本__与基础LLM相似 59。PEFT可以降低训练成本 59。

技能要求

需要__编码和数据架构/管理__技能，维护数据管道和知识库 59。

需要更深入的__AI/ML专业知识__（NLP、深度学习、模型配置、评估），以及数据处理和标注能力 65。

数据安全/隐私

相对更优，敏感数据可以保留在本地安全环境中，仅检索相关片段用于生成 59。

微调数据成为模型的一部分，如果使用API进行微调，可能涉及__数据上传风险__ 66。

适用场景

需要利用__最新信息__、内部私有知识、__可验证来源__的应用，如智能客服、知识库问答、实时市场分析 65。

需要模型掌握__特定领域术语/知识__、遵循特定__输出格式/风格__、执行特定__推理模式__的应用，如医疗诊断辅助、法律文书起草、代码生成 59。

实践中，RAG和微调并非完全互斥。一种越来越普遍的趋势是结合使用这两种方法（有时被称为RAFT，Retrieval-Augmented Fine-Tuning，但注意这与2.3.3节讨论的特定训练方法RAFT有所区别），例如，先对LLM进行领域适应性微调，再将其集成到RAG架构中，以期结合两者的优势 66。

5.1. 领域适应挑战与实践 (Domain Adaptation Challenges and Practices)

将RAG应用于特定专业领域（如法律、金融、医疗、编程）是其核心价值所在，但也面临独特的挑战。

法律领域:
- 挑战: 法律语言高度精确、专业化，对事实准确性要求极高；LLM容易产生幻觉，生成错误的法律条款或判例；需要理解复杂的法律逻辑和不同法系（如大陆法系与英美法系）的差异；处理长篇法律文书的上下文理解 74。
- 实践/解决方案:
  - Adapt-Retrieve-Revise框架: 利用小型领域适应模型生成草稿，再用大型模型（如GPT-4）基于检索到的证据进行修正，以减少幻觉 74。
  - HyPA-RAG: 针对法律和政策文本，采用自适应参数调整（基于查询复杂度分类器）、混合检索（稠密+稀疏+知识图谱）和特定分块策略（模式分块）29。
  - 领域特定LLM (SaulLM): 通过在海量法律文本上进行持续预训练（Continual Pre-training, CPT）和法律指令微调（Instruction Tuning）来构建专门的法律LLM 103。
  - CitaLaw基准: 专门用于评估LLM在法律场景下生成带引用的回答的能力，区分外行用户和专业人士的需求，并包含法律条款和判例两种引用类型 96。
金融领域:
- 挑战: 金融术语专业性强；需要处理和理解数字信息并进行准确计算；市场信息瞬息万变，对知识时效性要求高；存在幻觉和推理错误风险；需要遵守严格的合规和数据治理要求 85。
- 实践/解决方案:
  - 领域适应性后训练 (Domain-adaptive Post-training): FinDaP框架系统地研究了金融LLM的后训练，包括定义核心能力（FinCap）、设计训练流程（FinRec，结合CPT、IT和新颖的偏好学习）和评估体系（FinEval）119。
  - 多任务微调: 同时在多个相关的金融任务上进行微调，利用任务间的协同效应提升单一任务性能，甚至使小模型（Phi-3-Mini）超越大型模型（GPT-4o）118。
  - 结合RAG: 利用RAG获取最新的市场数据或内部报告，补充LLM的知识 119。
  - 工具使用: 集成计算器等工具来处理精确的金融计算，弥补LLM在数值计算上的不足 90。
医疗/健康领域:
- 挑战: 医学知识专业且不断更新；对准确性和可靠性要求极高，错误可能导致严重后果；数据隐私和安全问题突出（HIPAA合规）；训练数据可能存在偏见，导致健康不平等；模型决策过程需要可解释性 61。
- 实践/解决方案:
  - RAG应用: 连接PubMed、UpToDate、StatsPearls等医学数据库，为临床决策支持、医学问答提供最新证据，减少幻觉 61。
  - 领域特定微调/预训练: 训练专门的医疗LLM（如Med-PaLM 2, HuatuoGPT, Meditron, PMC-LLaMA）61。
  - MedAdapter: 一种后验适配器方法，通过微调一个小的BERT大小的模型来对LLM生成的候选答案进行排序，从而在测试时适应医疗领域，适用于黑盒和白盒LLM，且保护隐私 115。
  - 3DS (Decomposed Difficulty Data Selection): 一种模型中心的数据选择框架，根据模型对指令理解、响应置信度和正确性的分解难度来选择最适合微调的数据，以优化医疗领域适应效果 105。
  - 持续预训练 (CPT): 在通用LLM基础上继续使用大规模医学文献（如PMC）进行预训练 125。
代码/软件工程领域:
- 挑战: 需要理解代码的语法和语义；处理长代码文件或整个代码库的上下文依赖；特定编程语言或框架的知识；生成正确、高效且安全的代码 79。
- 实践/解决方案:
  - ChipNeMo: 针对芯片设计领域，结合了领域自适应分词器、领域自适应预训练（DAPT）、模型对齐（SFT, SteerLM）和领域自适应RAG（微调检索模型）93。结果显示，领域适应后的模型在芯片设计任务上显著优于通用模型，甚至GPT-4。
  - CoderGen: 一个基于Agent的框架，用于生成特定任务的代码，并构建评测基准（AICoderEval）143。
  - zsLLMCode: 一种零样本方法，利用LLM和句子嵌入模型生成代码嵌入，无需针对特定任务进行微调 104。
  - RAFT用于代码: RAFT框架也被应用于代码相关任务，通过在包含相关和无关代码片段的上下文中进行微调，提升模型在代码问答或生成等任务中的表现 186。

这些案例研究共同揭示了一个核心趋势：通用LLM或基础RAG架构往往难以直接满足专业领域的高要求。成功的领域适应通常需要结合多种优化策略，例如：(1) 使用领域特定的数据进行持续预训练或微调（如SaulLM, FinDaP, Meditron, ChipNeMo DAPT）；(2) 采用更先进的RAG技术（如混合检索、知识图谱、自适应参数，如HyPA-RAG）；(3) 针对性地解决领域痛点（如金融计算的工具使用，医疗的隐私保护适配器MedAdapter，法律引用的CitaLaw）；(4) 优化训练数据或流程（如3DS, PA-RAG, ALoFTRAG）。这表明，有效的领域适应是一个系统工程，需要对目标领域的需求、数据的特点以及模型的局限性有深刻理解。

5.2. 应对鲁棒性挑战 (Addressing Robustness)

RAG系统在实际应用中必须能够应对各种不完美的输入，包括噪声查询和不可靠的上下文信息。

处理噪声查询:
- 挑战: 用户的自然语言查询可能包含拼写错误、语法错误、表达模糊，或者在语言风格（如正式度、礼貌度、可读性）上存在差异 2。
- 发现: 研究表明，RAG系统对这些语言变体相当敏感，性能下降幅度可能高达30-40%，甚至比单独使用LLM时更敏感，这可能是因为错误在检索和生成阶段发生了级联放大 2。即使是使用了查询扩展（如HyDE）或重排序等高级RAG技术的系统，也同样容易受到影响 2。
- 潜在解决方案: 查询重写/纠错模块（如2.2.1节所述）是应对此类问题的直接方法。此外，训练更鲁棒的检索和生成模型也至关重要。
处理不相关/冲突的上下文:
- 挑战: 检索阶段可能返回不相关、错误、甚至恶意（如投毒攻击 20）的信息。LLM在生成时需要能够识别并忽略这些噪声，并处理检索到的上下文与其内部知识可能存在的冲突 1。
- 解决方案:
  - 后检索处理: 重排序（将更相关的排前面）、上下文压缩/选择（过滤掉低质量或不相关内容）4。ChunkRAG在块级别进行评估过滤 32。
  - 训练时增强鲁棒性: RAFT及其变体（如PA-RAG）通过在训练时引入干扰文档，让LLM学会忽略无关信息 9。
  - 推理时控制: CK-PLUG等方法在推理时动态检测冲突并调整模型对上下文的依赖程度 7。RPO通过强化学习实现基于检索相关性的自适应知识利用 35。

鲁棒性是RAG系统从实验室走向实际应用的关键。研究表明，当前的RAG系统在这方面仍有提升空间，尤其是在处理多样化、非理想的用户输入和检索结果时。这要求在RAG流水线的各个环节——从查询理解到检索过滤，再到生成时的上下文处理和忠实度控制——都需要内置更强的鲁棒性机制。

5.3. 处理无法回答的问题 (Handling Unanswerable Questions)

一个可靠的RAG系统不仅要能正确回答可回答的问题，还需要能够识别并恰当处理（例如，拒绝回答或请求澄清）那些基于给定知识库无法回答或本身有问题的查询 12。

挑战: 传统评估主要关注可回答问题，忽略了系统在面对无法回答请求时的表现。系统可能会强行回答，导致错误或幻觉。
UAEval4RAG框架: 针对这一挑战，研究者提出了UAEval4RAG框架 19。
- 分类: 定义了六种与RAG相关的无法回答请求类别：信息不足 (Underspecified)、错误前提 (False-presupposition)、无意义 (Nonsensical)、模态限制 (Modality-limited)、安全担忧 (Safety Concerns) 和超出数据库范围 (Out-of-Database)。
- 数据合成: 提供了一个自动化流程，可以基于任何给定的知识库，利用LLM生成覆盖这六类的无法回答的查询。
- 评估指标: 提出了两个LLM辅助评估的指标：未回答率 (Unanswered Ratio)（衡量系统成功拒绝回答的比例）和__可接受率 (Acceptable Ratio)__（衡量系统的响应（如拒绝、要求澄清）是否符合人类偏好）。
发现: 使用UAEval4RAG进行的实验表明，不同的RAG组件（检索模型、重写方法、重排序器、LLM）和提示策略对处理可回答和无法回答问题的能力有不同的影响，存在需要权衡的方面。提示设计在引导模型拒绝无法回答的问题方面起着关键作用 206。

识别和妥善处理无法回答的问题是提升RAG系统实用性和可靠性的重要方面。UAEval4RAG等专用评估框架的出现，有助于量化和改进系统在这方面的能力，推动RAG系统在真实世界交互中表现得更加智能和负责任。

5.4. 效率与成本考量 (Efficiency and Cost Considerations)

随着RAG系统变得越来越复杂（例如，引入重排序、多轮检索、Agentic流程），其计算成本和响应延迟也成为重要的考量因素 6。

瓶颈:
- 检索延迟: 大规模知识库的检索，特别是需要复杂查询处理或多路召回时。
- 重排序成本: 基于LLM或复杂GNN的重排序器计算开销大 6。
- 生成（预填充）成本: LLM处理长上下文（拼接后的查询和检索文档）的预填充（Prefill）阶段计算量大 210。
优化技术:
- KV缓存复用: 如HyperRAG 6 和KVLink 210 所示，通过在RAG流程的不同阶段（如重排序和生成之间）复用预先计算好的文档KV缓存，可以显著减少冗余计算，提高吞吐量并降低首个令牌生成时间（Time-To-First-Token, TTFT）。HyperRAG声称可将吞吐量提高2-3倍 6，KVLink可将TTFT降低高达90% 210。
- 上下文压缩: 如2.3.1节所述，通过减少传递给LLM的上下文长度来降低生成成本 4。
- 参数高效微调 (PEFT): 在需要微调LLM以适应RAG时，使用PEFT方法可以降低训练成本 108。
- 硬件/系统优化: 专门的RAG系统优化，如RAGO 182，以及针对多阶段工作流（包括RAG、KV缓存检索、推理等）的模拟器HERMES 179，旨在优化整个系统的资源利用和性能。

在追求更高准确性和更强能力的同时，RAG系统的效率和成本效益正变得越来越重要。KV缓存复用和上下文压缩等技术是当前降低推理成本的热点研究方向。这反映了在RAG系统中，优化质量和效率之间存在着持续的权衡与协同进化。

5.5. 评估策略与基准 (Evaluation Strategies and Benchmarks)

准确评估RAG系统的性能对于指导优化方向和比较不同方法至关重要。然而，RAG的混合架构（检索+生成）和对动态知识源的依赖，使得评估比单独评估检索系统或LLM更为复杂 12。

评估挑战:
- 需要同时评估检索质量和生成质量，以及两者之间的交互影响。
- 传统指标（如BLEU, ROUGE）主要关注表面文本匹配，可能无法充分衡量事实准确性和语义忠实度 55。
- 基于大型LLM（如GPT-4）进行评估成本高昂且不易获取 39。
- 缺乏针对RAG特定挑战（如处理噪声、长上下文、无法回答问题）的标准化基准 39。
评估维度与指标:
- 检索阶段评估:
  - 相关性 (Relevance): 检索到的文档与查询的匹配程度 19。
  - 召回率 (Recall): 检索到的相关文档占所有相关文档的比例 55。
  - 精确率 (Precision): 检索到的相关文档占所有检索文档的比例 55。
  - 上下文精确率/召回率 (Context Precision/Recall): RAGAS指标，评估检索到的上下文对生成答案的实际贡献度 87。
  - 全面性 (Comprehensiveness): 检索结果是否覆盖了回答问题所需的全部信息 54。
  - 正确性 (Correctness): 检索系统对文档相关性排序的准确度 54。
- 生成阶段评估:
  - 忠实度 (Faithfulness): 生成的答案是否忠实于检索到的上下文，没有捏造或矛盾 19。RAGAS有专门的Faithfulness指标 19。
  - 答案相关性 (Answer Relevancy): 生成的答案是否直接回答了用户的问题 19。RAGAS有专门的Answer Relevancy指标 19。
  - 准确性 (Accuracy): 生成答案的事实准确性（通常与Ground Truth对比）19。
  - 流畅性/连贯性 (Fluency/Coherence): 生成文本的语言质量 55。
- RAG特定/端到端评估:
  - MIRAGE适应性指标: Noise Vulnerability（噪声脆弱性）, Context Acceptability（上下文接受度）, Context Insensitivity（上下文不敏感性）, Context Misinterpretation（上下文误解）39。这些指标旨在衡量检索和生成组件之间的交互影响。
  - UAEval4RAG指标: Unanswered Ratio（未回答率）, Acceptable Ratio（可接受率）19。用于评估处理无法回答问题的能力。
评估框架与基准:
- RAGAS: 提供一套无需参考答案的评估指标（Faithfulness, Answer Relevance, Context Relevance, Context Recall, Context Precision）19。
- ARES: 使用轻量级LLM作为“评判员”进行自动化评估 19。
- MIRAGE: 专为RAG评估设计的QA数据集，特点是检索池相对较小但具有挑战性，包含精心设计的正负样本，并提出了新的适应性指标 23。
- UAEval4RAG: 用于评估处理无法回答问题的框架，包含数据合成流水线和特定指标 19。
- 其他: RGB 19, RECALL 51, FaithEval 20, CitaLaw 96, RAGTruth 56。

RAG的评估正在从传统的、基于文本重叠度的指标，转向更细致、更关注语义、忠实度和组件交互的指标体系。RAGAS、MIRAGE、UAEval4RAG等新框架和基准的出现，正推动着RAG评估向更全面、更贴近实际应用需求的方向发展。然而，建立广泛认可的标准化评估体系仍然是一个持续的挑战。

6. 结论与未来方向

6.1. 关键优化策略总结

本报告系统梳理了当前提升检索增强生成（RAG）系统效果和准确性的主要技术和策略。分析表明，RAG优化是一个多维度的问题，涉及从数据处理、模型选择到流程设计的各个环节。关键的优化策略可以归纳为：

索引阶段: 从简单的固定大小分块转向更智能的__上下文感知分块__（语义、模式、自适应）或__无分块__方法，结合__大型、长上下文嵌入模型__的选择与__领域/任务特定微调__，并利用高效的__向量数据库__和__高级索引结构__（如图、层次结构）。
检索阶段: 通过__查询理解与转换__（重写、扩展、分解）提升查询质量，采用__混合搜索__（稠密+稀疏）和__多路召回__策略提高检索覆盖面和精度，并利用__重排序__（基于LLM或GNN）精炼结果，同时关注__效率优化__（如KV缓存复用）。
生成阶段: 有效__处理上下文__（压缩、选择、利用），运用__高级提示工程__（如CoT）引导推理，通过__RAG特定LLM微调__（如RAFT及其变体）增强模型适应性，并采用__忠实度控制__机制（如CK-PLUG, CaLE, RPO）减少幻觉，确保生成内容可靠。
架构层面: 探索**模块化、图增强（GraphRAG）和智能体化（Agentic RAG）**等高级架构，以应对更复杂的任务需求。

6.2. 新兴趋势与未来研究方向

RAG作为一个快速发展的领域，未来充满了机遇和挑战。基于当前的文献分析，以下几个方向值得重点关注：

Agentic RAG的深化: Agentic RAG被认为是RAG的重要发展方向 190。未来的研究将进一步探索如何优化Agent的__规划、反思、工具使用和多智能体协作__能力，使其能够更自主、更智能地完成复杂的信息获取和处理任务 15。如何设计有效的Agent训练方法（如强化学习）和协作机制将是关键。
GraphRAG与知识融合: 如何更有效地构建和利用知识图谱（包括__因果图__）来增强RAG的推理能力和上下文理解深度是一个重要方向 14。探索图表示学习、图检索算法以及图与文本知识的深度融合技术将是研究热点。
多模态RAG: 将RAG扩展到处理和融合__图像、音频、视频__等多模态信息，以支持更丰富的应用场景，如视觉问答、多模态摘要等，具有巨大的潜力 16。跨模态检索和生成是其中的核心挑战。
效率与可扩展性: 随着RAG系统复杂度的增加和应用规模的扩大，__降低延迟、减少计算成本、提高吞吐量__仍然是关键的工程挑战 6。研究更高效的检索算法、重排序方法、KV缓存策略、上下文压缩技术，以及面向__边缘设备__的轻量化RAG（EdgeRAG）25 将持续受到关注。
鲁棒性与可信度: 提升RAG系统在面对__噪声查询、不相关或冲突上下文、无法回答问题__时的鲁棒性，以及确保生成内容的__事实准确性、忠实度和安全性__（Trustworthy RAG）2，是建立用户信任、推动RAG在关键领域（如医疗、金融）广泛应用的基础。
评估体系的完善: 开发更__全面、标准化、自动化且低成本__的RAG评估基准和指标体系，以准确衡量不同技术和架构的优劣，并指导未来的研发方向，仍然是一个紧迫的需求 19。
RAG与微调的协同: 深入研究RAG与LLM微调（特别是领域适应性微调和RAG特定微调）的最佳结合方式，探索如何通过协同优化实现“1+1>2”的效果 71。个性化RAG 25，即根据用户偏好或历史交互动态调整检索和生成策略，也是一个值得探索的方向。

总之，RAG技术正从基础的“检索-生成”模式向更智能、更强大、更可靠的方向发展。未来的RAG系统将不仅仅是LLM的外部知识插件，更有可能演变成能够主动规划、推理、交互和适应的智能信息处理系统。克服在鲁棒性、效率、评估和可信度等方面的挑战，将是实现这一愿景的关键。# 检索增强生成（RAG）效果优化技术综述

引用的著作

arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.04915
arXiv:2504.08231v1 [cs.CL] 11 Apr 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.08231?
[2402.19473] Retrieval-Augmented Generation for AI-Generated Content: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2402.19473
arXiv:2503.04973v1 [cs.CL] 6 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.04973
[2503.10677] A Survey on Knowledge-Oriented Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.10677
[2504.02921] HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.02921
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390038931_Parameters_vs_Context_Fine-Grained_Control_of_Knowledge_Reliance_in_Language_Models
[2503.15888] Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.15888
Chain-of-Rank: Enhancing Large Language Models for Domain-Specific RAG in Edge Device - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.15134v1
Does RAG Really Perform Bad For Long-Context Processing?, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2502.11444
arXiv:2504.15629v1 [cs.IR] 22 Apr 2025, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.15629
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2312.10997
arXiv:2504.15630v1 [cs.CL] 22 Apr 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.15630
arXiv:2503.19878v1 [cs.CL] 25 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.19878?
[2501.09136] Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.09136
[2503.18016] Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.18016
[2501.13958] A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.13958
HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.02921v1
Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.12300v3
Retrieval-Augmented Generation with Conflicting Evidence - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.13079
CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390892507_CDF-RAG_Causal_Dynamic_Feedback_for_Adaptive_Retrieval-Augmented_Generation
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.15888v1
[2504.14891] Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.14891
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models, 访问时间为四月 28, 2025， https://arxiv.org/abs/2405.06211
A Survey on Knowledge-Oriented Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.10677v2
(PDF) Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390991356_Retrieval_Augmented_Generation_Evaluation_in_the_Era_of_Large_Language_Models_A_Comprehensive_Survey
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/372916233_When_Not_to_Trust_Language_Models_Investigating_Effectiveness_of_Parametric_and_Non-Parametric_Memories
arXiv:2502.06205v1 [cs.CL] 10 Feb 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2502.06205
Synergizing RAG and Reasoning: A Systematic Review - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.15909v1
Benchmarking Retrieval-Augmented Generation for Medicine | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/384207131_Benchmarking_Retrieval-Augmented_Generation_for_Medicine
(PDF) Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390991356_Retrieval_Augmented_Generation_Evaluation_in_the_Era_of_Large_Language_Models_A_Comprehensive_Survey/download
CHUNKRAG: A NOVEL LLM-CHUNK FILTERING - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=NsvaW3Y6Su
[2410.12837] A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2410.12837
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.09136v2
arXiv:2501.13726v1 [cs.CL] 23 Jan 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.13726
Hybrid Retrieval for Hallucination Mitigation in Large Language Models: A Comparative Analysis - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.05324v1
[2409.14924] Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2409.14924
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.11929
arXiv:2504.17137v1 [cs.CL] 23 Apr 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2504.17137
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.09136v1
arXiv:2503.14802v1 [cs.IR] 19 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.14802
Collab-RAG: Boosting Retrieval-Augmented Generation for Complex Question Answering via White-Box and Black-Box LLM Collaboration - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.04915v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2502.08356
ALoFTRAG: Automatic Local Fine Tuning for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.11929v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.19878
CausalRAG: Integrating Causal Graphs into Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.19878v1
[2405.07437] Evaluation of Retrieval-Augmented Generation: A Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2405.07437
Graph-Based Re-ranking: Emerging Techniques, Limitations, and ..., 访问时间为四月 28, 2025， https://arxiv.org/abs/2503.14802
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.18016v1
AN AGENTIC FRAMEWORK FOR GRAPH RETRIEVAL AUGMENTED GENERATION - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=g2C947jjjQ
MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.17137v1
RAG techniques - IBM, 访问时间为四月 28, 2025， https://www.ibm.com/think/topics/rag-techniques
LevelRAG: Enhancing Retrieval-Augmented Generation with Multi-hop Logic Planning over Rewriting Augmented Searchers - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.18139v1
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.14891v1
A System for Comprehensive Assessment of RAG Frameworks - arXiv, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.07803
Grounded in Context: Retrieval-Based Method for Hallucination Detection - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.15771v1
Abul Ehtesham - CatalyzeX, 访问时间为四月 28, 2025， https://www.catalyzex.com/author/Abul%20Ehtesham
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey | AI Research Paper Details - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/papers/arxiv/retrieval-augmented-generation-evaluation-era-large-language
RAG vs. Fine-tuning | IBM, 访问时间为四月 28, 2025， https://www.ibm.com/think/topics/rag-vs-fine-tuning
Graph-Based Re-ranking: Emerging Techniques, Limitations, and Opportunities - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.14802v1
Natural Language Processing for Digital Health in the Era of Large Language Models - PMC, 访问时间为四月 28, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC12020548/
RAG vs Fine Tuning LLMs: The Right Approach for Generative AI - Aisera, 访问时间为四月 28, 2025， https://aisera.com/blog/llm-fine-tuning-vs-rag/
RAG vs. fine-tuning: Choosing the right method for your LLM | SuperAnnotate, 访问时间为四月 28, 2025， https://www.superannotate.com/blog/rag-vs-fine-tuning
OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.08398v1
Retrieval-Augmented Generation vs Fine-Tuning: What's Right for You? - K2view, 访问时间为四月 28, 2025， https://www.k2view.com/blog/retrieval-augmented-generation-vs-fine-tuning/
RAG Vs Fine Tuning: How To Choose The Right Method - Monte Carlo Data, 访问时间为四月 28, 2025， https://www.montecarlodata.com/blog-rag-vs-fine-tuning/
RAG vs. Fine-Tuning: How to Choose | Oracle United Kingdom, 访问时间为四月 28, 2025， https://www.oracle.com/uk/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/rag-fine-tuning/
When do we use LLM fine tuning vs. LLM RAG? : r/OpenAI - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/OpenAI/comments/1bjtz7y/when_do_we_use_llm_fine_tuning_vs_llm_rag/
RAG vs fine tuning, a financial comparison : r/LocalLLM - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/LocalLLM/comments/1ep4d6c/rag_vs_fine_tuning_a_financial_comparison/
RAG 修炼手册｜RAG 敲响丧钟？大模型长上下文是否意味着向量检索 ..., 访问时间为四月 28, 2025， https://zilliz.com.cn/blog/will-long-contextllms-kill-rag-vectordatabase
专补大模型短板的RAG有哪些新进展？这篇综述讲明白了丨达观动态 ..., 访问时间为四月 28, 2025， https://www.datagrand.com/blog/%E4%B8%93%E8%A1%A5%E5%A4%A7%E6%A8%A1%E5%9E%8B%E7%9F%AD%E6%9D%BF%E7%9A%84rag%E6%9C%89%E5%93%AA%E4%BA%9B%E6%96%B0%E8%BF%9B%E5%B1%95%EF%BC%9F%E8%BF%99%E7%AF%87%E7%BB%BC%E8%BF%B0%E8%AE%B2%E6%98%8E.html
TOP100全球软件案例研究峰会, 访问时间为四月 28, 2025， https://top100.msup.com.cn/detail?id=17955
BALCONI: BALancing CONtext and Internal Knowledge For Training Flexible LLMs | OpenReview, 访问时间为四月 28, 2025， https://openreview.net/forum?id=hPk92D2GJV
Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise: A Case Study on Chinese Legal Domain - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2310.03328v3
Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise: A Case Study on Chinese Legal Domain - ACL Anthology, 访问时间为四月 28, 2025， https://aclanthology.org/2024.findings-acl.299.pdf
Revision History for Parameters vs. Context: Fine-Grained... - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/revisions?id=fInyinptjR
[2310.03328] Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise: A Case Study on Chinese Legal Domain - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2310.03328
[Literature Review] Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models - Moonlight, 访问时间为四月 28, 2025， https://www.themoonlight.io/review/parameters-vs-context-fine-grained-control-of-knowledge-reliance-in-language-models
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2305.18703v7
Context-Parametric Inversion:Why Instruction Finetuning Can Worsen Context Reliance - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.10796v3
arXiv:2305.18703v7 [cs.CL] 29 Mar 2024, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2305.18703
Enhancing the Precision and Interpretability of Retrieval-Augmented Generation (RAG) in Legal Technology: A Survey - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/389773115_Enhancing_the_Precision_and_Interpretability_of_Retrieval-Augmented_Generation_RAG_in_Legal_Technology_A_Survey?_tp=eyJjb250ZXh0Ijp7InBhZ2UiOiJzY2llbnRpZmljQ29udHJpYnV0aW9ucyIsInByZXZpb3VzUGFnZSI6bnVsbCwic3ViUGFnZSI6bnVsbH19
DataFunCon 2024·北京站：大数据-大模型双核时代 - 百格活动, 访问时间为四月 28, 2025， https://www.bagevent.com/event/8811235?bag_track=bagevent
Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise: A Case Study on Chinese Legal Domain - ACL Anthology, 访问时间为四月 28, 2025， https://aclanthology.org/2024.findings-acl.299/
Fine-tuning and Utilization Methods of Domain-specific LLMs - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/377237167_Fine-tuning_and_Utilization_Methods_of_Domain-specific_LLMs
aclanthology.org, 访问时间为四月 28, 2025， https://aclanthology.org/2024.emnlp-main.498.pdf
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2409.09046
Exploring the Nexus of Large Language Models and Legal Systems: A Short Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2404.00990v1
Guiding LLM Reasoning for Explainable Answers in High-Stakes Domains - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.14431v1
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2408.02302v1
Legal Evalutions and Challenges of Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2411.10137v1
SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2407.19584v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2311.00176
HyPA-RAG: A Hybrid Parameter Adaptive Retrieval-Augmented Generation System for AI Legal and Policy Applications - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/384075959_HyPA-RAG_A_Hybrid_Parameter_Adaptive_Retrieval-Augmented_Generation_System_for_AI_Legal_and_Policy_Applications
[2409.09046] HyPA-RAG: A Hybrid Parameter Adaptive Retrieval-Augmented Generation System for AI Legal and Policy Applications - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2409.09046
CitaLaw: Enhancing LLM with Citations in Legal Domain - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.14556v1
Adaptation of Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.03931v1
Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/371163915_Domain_Specialization_as_the_Key_to_Make_Large_Language_Models_Disruptive_A_Comprehensive_Survey
Domain Adaptation for Code Model-Based Unit Test Case Generation | Request PDF, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/383965053_Domain_Adaptation_for_Code_Model-Based_Unit_Test_Case_Generation
Large Language Models in Healthcare and Medical Domain: A Review - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2401.06775v2
LawLLM: Law Large Language Model for the US Legal System - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2407.21065v1
[2504.08002] More diverse more adaptive: Comprehensive Multi-task Learning for Improved LLM Domain Adaptation in E-commerce - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.08002
SaulLM-7B: A pioneering Large Language Model for Law - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2403.03883v2
[2409.14644] zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2409.14644
3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/384938869_3DS_Decomposed_Difficulty_Data_Selection's_Case_Study_on_LLM_Medical_Domain_Adaptation
From Beginner to Expert: Modeling Medical Knowledge into General LLMs - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2312.01040v3
SaulLM-54B & SaulLM-141B: Scaling Up Domain Adaptation for the Legal Domain - OpenReview, 访问时间为四月 28, 2025， https://openreview.net/pdf?id=NLUYZ4ZqNq
Properties of LLMs, weak points and improvement measures for the ..., 访问时间为四月 28, 2025， https://cc-bei.news/en/properties-of-llms-weak-points-and-improvement-measures-for-the-domain-adaptation-of-applications/
The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities (Version 1.0) - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2408.13296v1
A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2406.03712v2
Efficient continual pre-training LLMs for financial domains | AWS Machine Learning Blog, 访问时间为四月 28, 2025， https://aws.amazon.com/blogs/machine-learning/efficient-continual-pre-training-llms-for-financial-domains/
arXiv:2503.01131v1 [cs.CL] 3 Mar 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.01131
A Comprehensive Overview of Large Language Models - arXiv, 访问时间为四月 28, 2025， http://arxiv.org/pdf/2307.06435
A Review of Large Language Models in Medical Education, Clinical ..., 访问时间为四月 28, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC11942098/
MedAdapter: Efficient Test-Time Adaptation of Large Language Models Towards Medical Reasoning - PMC, 访问时间为四月 28, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC11868705/
[2409.11798] The Factuality of Large Language Models in the Legal Domain - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2409.11798
3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.10901v1
Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance - A Case Study in Finance | OpenReview, 访问时间为四月 28, 2025， https://openreview.net/forum?id=VoHJTTA2MB
Domain-adaptive Post-training of Large Language Models: An Empirical Study with Llama for Finance [Yifei: A more attractive/informative title?] - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.04961v2
Mixing It Up:The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance - A Case Study in Finance - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.01109v2
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2403.03883
Medical Adaptation of Large Language and Vision-Language Models: Are We Making Progress? - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2411.04118v1
(PDF) Demystifying Domain-adaptive Post-training for Financial LLMs - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/387872876_Demystifying_Domain-adaptive_Post-training_for_Financial_LLMs
A Comparative Analysis of Instruction Fine-Tuning LLMs for Financial Text Classification, 访问时间为四月 28, 2025， https://arxiv.org/html/2411.02476
Case Study: Innovating Domain Adaptation through Continual Pre-Training and Model Merging - Arcee AI, 访问时间为四月 28, 2025， https://www.arcee.ai/blog/case-study-innovating-domain-adaptation-through-continual-pre-training-and-model-merging
Large Language Model Assisted Software Engineering: Prospects, Challenges, and a Case Study, 访问时间为四月 28, 2025， https://web.eecs.umich.edu/~movaghar/LLM-Assisted-SE-2023-Review.pdf
[2410.10901] 3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2410.10901
Continual Learning of Large Language Models: A Comprehensive Survey - GitHub, 访问时间为四月 28, 2025， https://github.com/Wang-ML-Lab/llm-continual-learning-survey
More diverse more adaptive: Comprehensive Multi-task Learning for Improved LLM Domain Adaptation in E-commerce - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.08002v1
A Comprehensive Survey on the Trustworthiness of Large Language Models in Healthcare, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/389315523_A_Comprehensive_Survey_on_the_Trustworthiness_of_Large_Language_Models_in_Healthcare
Responsible Innovation: A Strategic Framework for Financial LLM Integration - arXiv, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.02165
Large Language Models (LLMs) for Source Code Analysis: applications, models and datasets - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.17502v1
[2409.03444] Fine-tuning large language models for domain adaptation: Exploration of training strategies, scaling, model merging and synergistic capabilities - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2409.03444
Large Language Models for Financial and Investment Management: Models, Opportunities, and Challenges, 访问时间为四月 28, 2025， https://www.pm-research.com/content/iijpormgmt/51/2/211
GraphRAG Analysis for Financial Narrative Summarization and A Framework for Optimizing Domain Adaptation - ACL Anthology, 访问时间为四月 28, 2025， https://aclanthology.org/2025.finnlp-1.2.pdf
Practical Guide for LLMs in the Financial Industry | Automation Ahead Series, 访问时间为四月 28, 2025， https://rpc.cfainstitute.org/research/the-automation-ahead-content-series/practical-guide-for-llms-in-the-financial-industry
A Review of Large Language Models in Medical Education, Clinical Decision Support, and Healthcare Administration - MDPI, 访问时间为四月 28, 2025， https://www.mdpi.com/2227-9032/13/6/603
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2408.02479v2
Research directions for using LLM in software requirement engineering: a systematic review, 访问时间为四月 28, 2025， https://www.frontiersin.org/articles/10.3389/fcomp.2025.1519437
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.03931
LLM Embeddings Improve Test-Time Adaptation to Tabular $Y|X$-Shifts | OpenReview, 访问时间为四月 28, 2025， https://openreview.net/forum?id=OyjMJjfhiw
[2411.09249] Enhancing Financial Domain Adaptation of Language Models via Model Augmentation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2411.09249
AICoderEval: Improving AI Domain Code Generation of Large Language Models - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2406.04712v1
[2401.14777] Large Language Model Adaptation for Financial Sentiment Analysis - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2401.14777
TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.21479v1
[2401.06775] Large language models in healthcare and medical domain: A review - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2401.06775
The path forward for large language models in medicine is open - PMC, 访问时间为四月 28, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC11603019/
Adapting a Large Language Model to the Legal Domain: A Case Study in Italian - CEUR-WS.org, 访问时间为四月 28, 2025， https://ceur-ws.org/Vol-3877/paper7.pdf
3DS: Decomposed Difficulty Data Selection's Case Study on LLM Medical Domain Adaptation | OpenReview, 访问时间为四月 28, 2025， https://openreview.net/forum?id=I5p1Gm8GFS
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2405.08603v3
A comprehensive overview of everything I know about fine-tuning. : r/LocalLLaMA - Reddit, 访问时间为四月 28, 2025， https://www.reddit.com/r/LocalLLaMA/comments/1ilkamr/a_comprehensive_overview_of_everything_i_know/
Transforming Software Engineering and Software Acquisition with Large Language Models - Computer Science, 访问时间为四月 28, 2025， https://www.cs.wm.edu/~dcschmidt/PDF/LLM-chapter-2024-12-15.pdf
Embracing Large Language Models for Medical Applications: Opportunities and Challenges - PMC - PubMed Central, 访问时间为四月 28, 2025， https://pmc.ncbi.nlm.nih.gov/articles/PMC10292051/
An LLM's Attempts to Adapt to Diverse Software Engineers' Problem-Solving Styles: More Inclusive & Equitable? - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.11018v1
[2305.18703] Domain Specialization as the Key to Make Large Language Models Disruptive: A Comprehensive Survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2305.18703
[2501.04961] Demystifying Domain-adaptive Post-training for Financial LLMs - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2501.04961
PrivAuditor: Benchmarking Data Protection Vulnerabilities in LLM Adaptation Techniques, 访问时间为四月 28, 2025， https://openreview.net/forum?id=VpkfxuVXwx&referrer=%5Bthe%20profile%20of%20Jiahui%20Geng%5D(%2Fprofile%3Fid%3D~Jiahui_Geng3)
Generative AI from Theory to Practice: A Case Study of Financial Advice, 访问时间为四月 28, 2025， https://mit-genai.pubpub.org/pub/l89uu140
[2404.08680] Automating Research Synthesis with Domain-Specific Large Language Model Fine-Tuning - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2404.08680
codefuse-ai/Awesome-Code-LLM: [TMLR] A curated list of language modeling researches for code (and other software engineering activities), plus related datasets. - GitHub, 访问时间为四月 28, 2025， https://github.com/codefuse-ai/Awesome-Code-LLM
A Survey On Large Language Models For Code Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.01245v1
首个！腾讯云ES通过中国信通院检索增强生成（RAG）技术要求专项测试 - 数据观, 访问时间为四月 28, 2025， https://www.cbdio.com/BigData/2024-04/29/content_6177303.htm
工业大模型落地提速，垂类应用亟待打破“数据烟囱” - 21经济网, 访问时间为四月 28, 2025， https://www.21jingji.com/article/20250425/herald/dce4a4420cad93d37d79b99ad2fd1d7d.html
Mingyue Cheng's HomePage, 访问时间为四月 28, 2025， https://mingyue-cheng.github.io/
Large Language Model Instruction Following: A Survey of Progresses and Challenges, 访问时间为四月 28, 2025， https://direct.mit.edu/coli/article/50/3/1053/121669/Large-Language-Model-Instruction-Following-A
Part 1：中国开源开发者生态数据 - Gitee, 访问时间为四月 28, 2025， https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf?fr=banner10203
datawhalechina/llm-cookbook: 面向开发者的LLM 入门教程 ... - GitHub, 访问时间为四月 28, 2025， https://github.com/datawhalechina/llm-cookbook
HyPA-RAG: A Hybrid Parameter Adaptive Retrieval-Augmented Generation System for AI Legal and Policy Applications - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2409.09046v2
USTCAGI/Awesome-Papers-Retrieval-Augmented-Generation - GitHub, 访问时间为四月 28, 2025， https://github.com/USTCAGI/Awesome-Papers-Retrieval-Augmented-Generation
RUC-NLPIR/LLM4IR-Survey - GitHub, 访问时间为四月 28, 2025， https://github.com/RUC-NLPIR/LLM4IR-Survey
[Revue de papier] Graph-Based Re-ranking: Emerging Techniques, Limitations, and Opportunities - Moonlight, 访问时间为四月 28, 2025， https://www.themoonlight.io/fr/review/graph-based-re-ranking-emerging-techniques-limitations-and-opportunities
How Query Expansion (HyDE) Boosts Your RAG Accuracy - Chitika, 访问时间为四月 28, 2025， https://www.chitika.com/hyde-query-expansion-rag/
Out of Style: RAG's Fragility to Linguistic Variation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.08231v1
企业搜索服务-KooSearch-华为云, 访问时间为四月 28, 2025， https://www.huaweicloud.com/product/koosearch.html
[Literature Review] Graph-Based Re-ranking: Emerging Techniques, Limitations, and Opportunities - Moonlight, 访问时间为四月 28, 2025， https://www.themoonlight.io/review/graph-based-re-ranking-emerging-techniques-limitations-and-opportunities
HyperRAG: Enhancing Quality-Efficiency Tradeoffs in Retrieval-Augmented Generation with Reranker KV-Cache Reuse | AI Research Paper Details - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/papers/arxiv/hyperrag-enhancing-quality-efficiency-tradeoffs-retrieval-augmented
Papers by Yuwei An - AIModels.fyi, 访问时间为四月 28, 2025， https://www.aimodels.fyi/authors/arxiv/Yuwei%20An
‪Yihua Cheng‬ - ‪Google Scholar‬, 访问时间为四月 28, 2025， https://scholar.google.com/citations?user=E4AT_24AAAAJ&hl=en
Understanding and Optimizing Multi-Stage AI Inference Pipelines - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.09775v2
Understanding and Optimizing Multi-Stage AI Inference Pipelines - arXiv, 访问时间为四月 28, 2025， https://www.arxiv.org/pdf/2504.09775
Computation and Language - arXiv, 访问时间为四月 28, 2025， https://pdf.arxiv.org/list/cs.CL/new
RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving, 访问时间为四月 28, 2025， https://ar5iv.labs.arxiv.org/html/2503.14649
[hep-ph/9610277] Exclusive versus Inclusive Semileptonic $\bar B$ Decays in the Quark Model - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/hep-ph/9610277
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.04973v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2503.10720
RAFT: Adapting Language Model to Domain Specific RAG - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2403.10131v1
arXiv:2501.05554v1 [cs.CL] 9 Jan 2025, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.05554
Comparing Retrieval Augmented Generation and fine-tuning - AWS ..., 访问时间为四月 28, 2025， https://docs.aws.amazon.com/prescriptive-guidance/latest/retrieval-augmented-generation-options/rag-vs-fine-tuning.html
Junfeng Fang - CatalyzeX, 访问时间为四月 28, 2025， https://www.catalyzex.com/author/Junfeng%20Fang
CAPRAG: A Large Language Model Solution for Customer Service and Automatic Reporting using Vector and Graph Retrieval-Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2501.13993
ADL158《AI搜索与信息智能体》开启报名-ADL动态 - 中国计算机学会, 访问时间为四月 28, 2025， https://www.ccf.org.cn/Activities/Training/ADL/ADL/2025-04-14/841444.shtml
Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/388080924_Agentic_Retrieval-Augmented_Generation_A_Survey_on_Agentic_RAG
Agentic Large Language Models, a survey - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2503.23037v2
asinghcsu/AgenticRAG-Survey: Agentic-RAG explores advanced Retrieval-Augmented Generation systems enhanced with AI LLM agents. - GitHub, 访问时间为四月 28, 2025， https://github.com/asinghcsu/AgenticRAG-Survey
(PDF) Agentic RAG Redefining Retrieval-Augmented Generation for Adaptive Intelligence, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/389719393_Agentic_RAG_Redefining_Retrieval-Augmented_Generation_for_Adaptive_Intelligence
ARCeR: an Agentic RAG for the Automated Definition of Cyber Ranges - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.12143v1
Agentic Information Retrieval - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2410.09713v3
arXiv:2405.10467v4 [cs.AI] 6 Nov 2024, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2405.10467
(PDF) The Agentic AI Mindset - A Practitioner's Guide to Architectures, Patterns, and Future Directions for Autonomy and Automation - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/390958865_The_Agentic_AI_Mindset_-_A_Practitioner's_Guide_to_Architectures_Patterns_and_Future_Directions_for_Autonomy_and_Automation
From RAG to Multi-Agent Systems: A Survey of Modern Approaches in LLM Development, 访问时间为四月 28, 2025， https://www.preprints.org/manuscript/202502.0406/v1
ModelArts Studio大模型即服务平台- 华为云, 访问时间为四月 28, 2025， https://www.huaweicloud.com/product/modelarts/studio.html
RAG vs. fine-tuning - Red Hat, 访问时间为四月 28, 2025， https://www.redhat.com/en/topics/ai/rag-vs-fine-tuning
llm-continual-learning-survey/README.md at main - GitHub, 访问时间为四月 28, 2025， https://github.com/Wang-ML-Lab/llm-continual-learning-survey/blob/main/README.md
Responsible Innovation: A Strategic Framework for Financial LLM Integration - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2504.02165v1
Demystifying Domain-adaptive Post-training for Financial LLMs - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2501.04961v1
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/pdf/2412.12300
[2412.12300] Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/abs/2412.12300
Unanswerability Evaluation for Retreival Augmented Generation | Request PDF - ResearchGate, 访问时间为四月 28, 2025， https://www.researchgate.net/publication/387140529_Unanswerability_Evaluation_for_Retreival_Augmented_Generation
Unanswerability Evaluation for Retrieval Augmented Generation - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2412.12300v1
KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/html/2502.16002v1
PEFT: Parameter-Efficient Fine-Tuning Methods for LLMs - Hugging Face, 访问时间为四月 28, 2025， https://huggingface.co/blog/samuellimabraz/peft-methods
arxiv.org, 访问时间为四月 28, 2025， https://arxiv.org/abs/2504.17137
Computation and Language - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/list/cs.CL/recent
Computation and Language - arXiv, 访问时间为四月 28, 2025， https://arxiv.org/list/cs.CL/new
Xuchen-Li/llm-arxiv-daily: Automatically update arXiv papers about LLM Reasoning, LLM Evaluation, LLM & MLLM and Video Understanding using Github Actions. - GitHub, 访问时间为四月 28, 2025， https://github.com/Xuchen-Li/llm-arxiv-daily

【RAG优化】rag整体优化建议