深入理解RAG:大语言模型时代的知识增强架构

发布于:2025-06-25 ⋅ 阅读:(15) ⋅ 点赞:(0)

在这里插入图片描述

在人工智能快速发展的今天,大语言模型(LLM)已经展现出令人惊叹的能力。然而,即使是最先进的模型也面临着知识更新滞后、事实性错误(幻觉)和专业领域知识不足等根本性挑战。检索增强生成(Retrieval-Augmented Generation,简称RAG)技术的出现,为解决这些问题提供了一个优雅而有效的方案。


一、为什么需要RAG?从大模型的局限性说起

1.1 大语言模型的固有缺陷

要理解RAG的价值,我们首先需要认识大语言模型的运作机制及其局限性。参数化记忆(Parametric Memory)是指模型在训练过程中将知识编码到神经网络的参数(权重)中。这种方式虽然强大,但存在几个根本性问题:

知识截止问题:模型的知识被"冻结"在训练时的时间点。例如,一个2023年训练的模型无法知道2024年发生的事件。

幻觉现象:当模型遇到不确定的问题时,它可能会"编造"看似合理但实际错误的答案。这是因为模型本质上是在进行概率预测,而非真正的知识检索。

知识更新成本:要更新模型的知识,需要重新训练整个模型,这不仅耗时(数周到数月)还极其昂贵(数百万美元的计算成本)。

专业领域知识缺失:通用模型难以涵盖所有专业领域的深度知识,特别是企业内部数据、行业特定信息等。

1.2 RAG的诞生:一个革命性的解决方案

2020年,Facebook AI Research的Patrick Lewis等人提出了RAG的概念,其核心思想简单而深刻:与其让模型记住所有知识,不如教会它如何查找知识。这就像人类专家在回答问题时,会先查阅相关资料,然后基于这些资料给出答案。

RAG通过引入非参数化记忆(Non-parametric Memory)——即外部知识库,使模型能够:

  • 动态访问最新信息
  • 引用具体的信息源,提高可信度
  • 处理专业领域的特定知识
  • 大幅减少幻觉现象

二、RAG的理论基础:数学原理与认知机制

2.1 核心数学框架

RAG的数学基础建立在条件概率分布之上。传统的语言模型生成答案的概率可以表示为:

P(y|x) = 模型基于输入x生成输出y的概率

而RAG将这个过程扩展为:

P(y|x) = Σ P(y|x,z) × P(z|x)

这里的关键创新在于引入了变量z,它代表从知识库中检索的相关文档。这个公式的含义是:

  • P(z|x):给定查询x,检索到文档z的概率
  • P(y|x,z):在查询x和检索文档z的条件下,生成答案y的概率
  • 通过对所有可能的文档z求和(边缘化),得到最终的生成概率

2.2 向量空间与语义理解

RAG系统的核心技术之一是向量嵌入(Vector Embedding)。这是一种将文本转换为高维数值向量的技术,使得计算机能够理解和比较文本的语义相似性。

什么是向量嵌入? 想象每个词或句子都被映射到一个多维空间中的点。语义相似的文本在这个空间中距离较近,而语义不同的文本距离较远。例如,"猫"和"狗"的向量会比"猫"和"汽车"的向量更接近。

向量嵌入的数学基础包括:

  1. 分布式假设(Distributional Hypothesis):由语言学家J.R. Firth提出的"词汇的意义由其上下文决定"。在向量空间中,这意味着经常出现在相似上下文中的词应该有相似的向量表示。

  2. 余弦相似度(Cosine Similarity):衡量两个向量相似性的标准方法,计算公式为:

    相似度 = cos(θ) = (A·B)/(||A||×||B||)
    

    其中A和B是两个向量,θ是它们之间的夹角。值越接近1表示越相似。

  3. 降维技术:原始文本可能有数万维的稀疏表示(如词袋模型),通过技术如主成分分析(PCA)或奇异值分解(SVD)压缩到几百到几千维的密集向量。

2.3 信息检索的理论基础

RAG中的检索组件基于几十年的信息检索研究。主要的理论包括:

向量空间模型(Vector Space Model):将文档和查询表示为向量,通过计算向量间的相似度来找到相关文档。

概率检索模型:如BM25算法,考虑词频、逆文档频率等因素,为每个文档计算相关性分数。

神经信息检索:使用深度学习模型(如BERT)直接学习查询和文档的语义表示,实现更准确的语义匹配。


三、RAG系统架构:从简单到复杂的演进

3.1 朴素RAG:基础架构

最初的RAG实现采用简单的线性流程:

  1. 索引阶段

    • 文档分块:将长文档切分成较小的段落(通常512-1024个token)
    • 向量化:使用预训练的编码器(如Sentence-BERT)将每个文本块转换为向量
    • 存储:将向量存储在专门的向量数据库中
  2. 检索阶段

    • 查询编码:将用户查询转换为向量
    • 相似度搜索:在向量数据库中找到最相似的文档块
    • 排序:根据相似度分数排序并选择Top-K个结果
  3. 生成阶段

    • 上下文构建:将检索到的文档与原始查询组合
    • 答案生成:将组合后的上下文输入LLM生成最终答案

这种架构虽然简单,但存在明显问题:

  • 检索质量直接影响最终效果
  • 缺乏对检索结果的验证机制
  • 无法处理需要多跳推理的复杂问题

3.2 高级RAG:优化的艺术

为了解决朴素RAG的局限,研究人员提出了多种优化策略:

检索前优化

  1. 查询改写(Query Rewriting):

    • 使用LLM将用户的口语化查询转换为更适合检索的形式
    • 例如:“最近那个很火的AI技术是啥” → “2024年流行的人工智能技术 大语言模型 GPT”
  2. 假设文档嵌入(HyDE - Hypothetical Document Embeddings):

    • 让LLM先生成一个假设的答案
    • 使用这个假设答案的向量进行检索,往往能找到更相关的文档

检索中优化

  1. 混合检索(Hybrid Search):

    • 结合向量检索(语义相似)和关键词检索(精确匹配)
    • 使用如BM25算法进行关键词匹配,与向量相似度结合
  2. 重排序(Re-ranking):

    • 使用专门的重排序模型(如Cross-Encoder)对初步检索结果进行精细排序
    • 考虑查询和文档的深度交互,而不仅仅是向量相似度

检索后优化

  1. 上下文压缩

    • 识别并保留检索文档中最相关的部分
    • 避免向LLM输入过多无关信息
  2. 结果验证

    • 使用额外的模型检查检索结果的相关性
    • 过滤掉可能导致幻觉的低质量内容

3.3 模块化RAG:灵活的架构设计

最新的RAG系统采用模块化设计,允许灵活组合不同组件:

核心模块

  1. 搜索模块

    • 向量搜索:使用FAISS、Pinecone、Weaviate等向量数据库
    • 关键词搜索:集成Elasticsearch、Solr等传统搜索引擎
    • 图搜索:对于结构化知识,使用Neo4j等图数据库
  2. 记忆模块

    • 短期记忆:维护对话历史和上下文
    • 长期记忆:存储用户偏好和历史交互
  3. 路由模块

    • 根据查询类型动态选择检索策略
    • 决定是否需要检索,以及检索多少文档
  4. 融合模块

    • 整合来自多个数据源的信息
    • 处理冲突和矛盾的信息

高级架构模式

  1. 自适应RAG(Self-RAG):

    • 模型自主决定何时需要检索
    • 通过特殊的"反思令牌"评估检索质量
  2. 纠错RAG(CRAG):

    • 评估检索文档的可信度
    • 在检索质量不佳时触发网络搜索作为补充
  3. 图增强RAG(GraphRAG):

    • 结合知识图谱和向量检索
    • 支持多跳推理和复杂关系查询

四、RAG的技术实现:工具与最佳实践

4.1 向量数据库选择

选择合适的向量数据库是RAG系统成功的关键。主流选择包括:

开源方案

  1. FAISS(Facebook AI Similarity Search):

    • 优点:高性能、支持GPU加速、适合大规模部署
    • 缺点:功能相对基础、需要自行管理持久化
    • 适用场景:对性能要求极高的场景
  2. Chroma

    • 优点:易于使用、与LangChain集成良好、支持元数据过滤
    • 缺点:相对较新、生态系统仍在发展
    • 适用场景:快速原型开发和中小规模应用
  3. Weaviate

    • 优点:功能丰富、支持混合搜索、内置机器学习模型
    • 缺点:学习曲线较陡、资源消耗较大
    • 适用场景:需要高级功能的企业应用

商业方案

  1. Pinecone

    • 优点:全托管服务、高可用性、易于扩展
    • 缺点:成本较高、数据存储在第三方
    • 适用场景:快速上线的商业项目
  2. Qdrant

    • 优点:性能优秀、支持本地和云端部署、功能完善
    • 缺点:相对较新的产品
    • 适用场景:对性能和灵活性都有要求的项目

4.2 嵌入模型选择

嵌入模型(Embedding Model)负责将文本转换为向量,其质量直接影响检索效果:

通用模型

  1. OpenAI Embeddings

    • 模型:text-embedding-ada-002、text-embedding-3-small/large
    • 优点:质量高、使用简单、支持多语言
    • 缺点:需要API调用、有成本、数据隐私考虑
  2. Sentence Transformers

    • 模型:all-MiniLM-L6-v2、all-mpnet-base-v2等
    • 优点:开源免费、本地运行、模型选择多
    • 缺点:需要自行部署和优化

专业模型

  1. BGE系列(BAAI General Embedding):

    • 特点:中文支持优秀、性能均衡
    • 适用:中文为主的应用场景
  2. E5系列(Microsoft):

    • 特点:多语言支持、训练数据质量高
    • 适用:需要多语言支持的国际化应用

4.3 实现框架与工具链

LangChain生态系统

LangChain已成为RAG开发的事实标准框架:

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI

# 初始化组件
embeddings = OpenAIEmbeddings()
vectorstore = Chroma(embedding_function=embeddings)
llm = OpenAI(temperature=0)

# 创建RAG链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(),
    return_source_documents=True
)

LlamaIndex框架

LlamaIndex(原GPT Index)专注于文档索引和检索:

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index.llms import OpenAI

# 加载文档
documents = SimpleDirectoryReader('data').load_data()

# 创建索引
index = VectorStoreIndex.from_documents(documents)

# 查询
query_engine = index.as_query_engine(llm=OpenAI())
response = query_engine.query("你的问题")

评估工具

  1. RAGAS(Retrieval Augmented Generation Assessment):

    • 提供全面的RAG评估指标
    • 支持无参考评估(不需要人工标注)
    • 包括忠实度、答案相关性、上下文精确度等指标
  2. TruLens

    • 提供RAG应用的可观测性
    • 追踪每个组件的性能
    • 帮助识别和调试问题

五、RAG系统评估:如何衡量成功

5.1 评估维度与指标体系

RAG系统的评估需要从多个维度进行:

检索质量指标

  1. 精确率@K(Precision@K):

    • 定义:前K个检索结果中相关文档的比例
    • 计算:相关文档数 / K
    • 意义:衡量检索结果的准确性
  2. 召回率@K(Recall@K):

    • 定义:检索到的相关文档占所有相关文档的比例
    • 计算:检索到的相关文档数 / 总相关文档数
    • 意义:衡量检索的完整性
  3. 平均倒数排名(MRR - Mean Reciprocal Rank):

    • 定义:第一个相关文档排名倒数的平均值
    • 计算:1/rank_first_relevant
    • 意义:衡量相关文档的排序质量

生成质量指标

  1. 答案忠实度(Answer Faithfulness):

    • 评估生成的答案是否基于检索到的文档
    • 防止模型"编造"信息
  2. 答案相关性(Answer Relevance):

    • 评估答案是否真正回答了用户的问题
    • 考虑完整性和准确性
  3. 上下文利用率(Context Utilization):

    • 评估模型是否有效使用了检索到的信息
    • 避免检索了却不使用的情况

端到端指标

  1. 响应时间

    • 包括检索延迟和生成延迟
    • 对用户体验至关重要
  2. 成本效率

    • API调用成本
    • 计算资源消耗
    • 存储成本

5.2 评估方法论

离线评估

使用标注好的测试集进行系统评估:

from ragas import evaluate
from ragas.metrics import (
    answer_relevancy,
    faithfulness,
    context_recall,
    context_precision,
)

# 准备评估数据
eval_dataset = {
    "question": ["问题1", "问题2", ...],
    "answer": ["RAG生成的答案1", "答案2", ...],
    "contexts": [["检索文档1", "文档2"], ...],
    "ground_truth": ["标准答案1", "答案2", ...]
}

# 执行评估
results = evaluate(
    dataset=eval_dataset,
    metrics=[
        answer_relevancy,
        faithfulness,
        context_recall,
        context_precision
    ]
)

在线评估

通过A/B测试和用户反馈持续优化:

  1. 隐式反馈

    • 点击率
    • 停留时间
    • 后续交互
  2. 显式反馈

    • 用户评分
    • 反馈按钮
    • 详细评论

六、前沿发展:RAG的未来方向

6.1 多模态RAG

随着视觉语言模型的发展,RAG正在扩展到多模态领域:

技术架构

  1. 统一嵌入空间

    • 使用CLIP等模型将文本和图像映射到同一向量空间
    • 支持跨模态检索(用文本搜图像,用图像搜文本)
  2. 模态特定处理

    • OCR处理文档图像
    • 图表理解模型处理数据可视化
    • 视频理解模型处理视频内容

应用场景

  • 医疗影像分析:结合病历文本和医学影像
  • 技术文档理解:处理包含图表、公式的技术手册
  • 电商搜索:图文结合的商品检索

6.2 GraphRAG:结构化知识的力量

Microsoft提出的GraphRAG通过引入知识图谱,大幅提升了RAG处理复杂查询的能力:

核心创新

  1. 自动图谱构建

    • 使用LLM从文本中提取实体和关系
    • 构建分层的知识图谱结构
  2. 社区检测与摘要

    • 使用图算法识别知识社区
    • 为每个社区生成摘要,支持不同粒度的查询
  3. 图引导检索

    • 结合图遍历和向量检索
    • 支持多跳推理和复杂关系查询

性能提升

  • 在复杂问答任务上准确率提升40%以上
  • Token使用量减少97%
  • 支持"全局"问题的回答(如"这份报告的主要主题是什么?")

6.3 自适应与自优化RAG

最新的研究方向是让RAG系统具备自我改进能力:

Self-RAG(自反思RAG)

通过引入特殊的反思令牌,模型可以:

  • 判断是否需要检索
  • 评估检索结果的质量
  • 决定是否使用检索结果

CRAG(纠错RAG)

当检索质量不佳时:

  • 自动触发网络搜索
  • 使用知识精炼算法
  • 结合多源信息提高可靠性

持续学习

  • 从用户反馈中学习
  • 自动调整检索策略
  • 优化文档分块和索引方法

七、实践指南:构建生产级RAG系统

7.1 系统设计考虑

数据准备

  1. 文档预处理

    • 格式统一:PDF、Word、HTML转换为纯文本
    • 结构保留:保持标题、列表等结构信息
    • 元数据提取:作者、日期、来源等
  2. 智能分块策略

    • 语义分块:基于内容相关性而非固定长度
    • 重叠分块:保持上下文连续性
    • 自适应大小:根据内容类型调整块大小
  3. 数据更新机制

    • 增量索引:只处理新增或修改的文档
    • 版本控制:追踪文档变化历史
    • 一致性保证:确保检索和原始数据同步

性能优化

  1. 缓存策略

    • 查询缓存:缓存常见查询的检索结果
    • 嵌入缓存:避免重复计算文本嵌入
    • 结果缓存:缓存最终生成的答案
  2. 并行处理

    • 批量嵌入计算
    • 并行检索多个数据源
    • 异步处理长时间任务
  3. 资源管理

    • GPU/CPU负载均衡
    • 内存使用优化
    • 网络带宽管理

安全与隐私

  1. 数据安全

    • 敏感信息脱敏
    • 访问权限控制
    • 审计日志记录
  2. 隐私保护

    • 本地部署选项
    • 数据加密存储
    • 安全的API通信

7.2 常见问题与解决方案

问题1:检索结果不相关

症状:返回的文档与查询主题相差甚远

解决方案

  • 优化查询改写策略
  • 尝试不同的嵌入模型
  • 实施混合检索(向量+关键词)
  • 添加元数据过滤

问题2:答案不够准确

症状:生成的答案包含错误信息或遗漏关键信息

解决方案

  • 增加检索文档数量
  • 优化提示词工程
  • 实施答案验证机制
  • 使用更强大的LLM

问题3:响应时间过长

症状:用户等待时间超过可接受范围

解决方案

  • 实施多级缓存
  • 优化向量索引(如使用HNSW算法)
  • 减少检索文档数量
  • 使用流式响应

问题4:成本控制

症状:API调用和计算成本超出预算

解决方案

  • 使用开源模型替代商业API
  • 实施智能路由(简单问题不检索)
  • 优化文档分块减少token使用
  • 批量处理请求

八、行业应用案例分析

8.1 企业知识管理

场景描述

某大型科技公司拥有海量的技术文档、会议记录、项目报告等内部资料。传统的关键词搜索效果不佳,员工经常找不到需要的信息。

RAG解决方案

  1. 数据整合

    • 统一索引各类文档格式
    • 保留文档结构和元数据
    • 实现跨部门知识共享
  2. 智能问答

    • 自然语言查询支持
    • 上下文理解和多轮对话
    • 答案溯源和引用
  3. 个性化推荐

    • 基于用户角色和历史
    • 主动推送相关知识
    • 知识图谱导航

实施效果

  • 知识查找效率提升70%
  • 新员工培训时间缩短50%
  • 跨团队协作效率显著提升

8.2 医疗辅助诊断

场景描述

医院需要帮助医生快速查阅最新的医学文献、临床指南和病例报告,辅助诊断决策。

RAG解决方案

  1. 多模态检索

    • 整合文本、影像、检验报告
    • 支持症状描述和影像检索
    • 关联相似病例
  2. 证据级别标注

    • 区分不同来源的可信度
    • 优先展示高质量证据
    • 标注最新研究进展
  3. 安全合规

    • 严格的数据脱敏
    • 完整的访问审计
    • 符合医疗法规要求

实施效果

  • 诊断准确率提升15%
  • 文献查阅时间减少80%
  • 支持罕见病诊断

8.3 智能客服系统

场景描述

电商平台需要处理海量的客户咨询,涉及商品信息、订单状态、售后政策等多个方面。

RAG解决方案

  1. 动态知识库

    • 实时同步商品信息
    • 自动更新政策文档
    • 整合用户反馈
  2. 意图理解

    • 准确识别用户需求
    • 智能路由到相关知识
    • 处理模糊和口语化查询
  3. 多渠道支持

    • 文字、语音、图片输入
    • 统一的知识检索后端
    • 个性化回复生成

实施效果

  • 首次解决率提升45%
  • 客服成本降低60%
  • 用户满意度显著提升

九、未来展望:RAG的发展趋势

9.1 技术演进方向

认知架构集成

未来的RAG系统将更接近人类的认知过程:

  • 工作记忆与长期记忆协同
  • 注意力机制的动态调整
  • 元认知能力(知道自己知道什么)

自主学习能力

  • 从交互中持续学习
  • 自动发现和填补知识空白
  • 适应用户偏好和领域特点

多智能体协作

  • 专业化的检索智能体
  • 协作式问题解决
  • 分布式知识整合

9.2 市场前景分析

根据最新市场研究:

市场规模

  • 2024年:12亿美元
  • 2030年预测:110亿美元
  • 年复合增长率:49.1%

主要驱动因素

  1. 企业数字化转型需求
  2. AI应用的可解释性要求
  3. 垂直领域的专业化需求
  4. 数据隐私和安全考虑

关键应用领域

  • 企业知识管理(35%)
  • 智能客服(25%)
  • 医疗健康(20%)
  • 法律金融(15%)
  • 教育科研(5%)

9.3 面临的挑战与机遇

技术挑战

  1. 实时性要求

    • 毫秒级响应的需求
    • 动态数据的即时更新
    • 全球分布式部署
  2. 规模化难题

    • PB级数据的索引和检索
    • 百万级并发的处理能力
    • 成本与性能的平衡
  3. 质量保证

    • 信息准确性验证
    • 偏见和公平性问题
    • 对抗性攻击防护

发展机遇

  1. 标准化进程

    • 行业标准的制定
    • 评估基准的统一
    • 最佳实践的推广
  2. 生态系统建设

    • 开源社区的繁荣
    • 商业解决方案的成熟
    • 人才培养体系的完善
  3. 创新应用场景

    • 科学研究加速
    • 创意内容生成
    • 个性化教育

十、总结与建议

10.1 核心要点回顾

RAG技术代表了AI系统架构的范式转变,其核心价值在于:

  1. 知识的动态性:摆脱了模型参数的知识固化限制
  2. 可解释性:提供清晰的信息来源和推理路径
  3. 专业化能力:轻松适配垂直领域需求
  4. 成本效益:避免频繁的模型重训练

10.2 实施建议

对于技术团队

  1. 从小规模试点开始

    • 选择明确的应用场景
    • 使用成熟的开源工具
    • 快速迭代和验证
  2. 重视数据质量

    • 投入时间进行数据清洗
    • 建立持续的数据管理流程
    • 注重元数据的完整性
  3. 建立评估体系

    • 定义清晰的成功指标
    • 实施持续的监控
    • 基于反馈不断优化

对于决策者

  1. 战略规划

    • 将RAG纳入AI战略
    • 评估对业务的潜在影响
    • 制定分阶段实施计划
  2. 资源投入

    • 技术基础设施建设
    • 专业人才培养
    • 知识资产的数字化
  3. 风险管理

    • 数据安全和隐私保护
    • 合规性要求
    • 技术依赖风险

10.3 展望未来

RAG技术正在从一个研究概念快速演变为产业标准。随着技术的成熟和生态的完善,我们将看到:

  • 更智能的知识系统:不仅能检索信息,还能理解、推理和创造
  • 更自然的人机交互:基于深度理解的对话和协作
  • 更广泛的应用普及:从专业领域扩展到日常生活

作为这个激动人心领域的参与者,我们有机会见证并推动这一技术革命。无论您是开发者、研究者还是业务决策者,现在都是深入了解和应用RAG技术的最佳时机。

RAG不仅仅是一项技术,它代表了我们对智能系统的全新理解——不是让机器记住一切,而是教会它们如何找到和使用知识。这种理念的转变,将深刻影响未来AI系统的设计和应用,开启智能时代的新篇章。


附录:专业术语表

Attention Mechanism(注意力机制):一种让模型能够动态关注输入不同部分的技术,是Transformer架构的核心组件。

BERT(Bidirectional Encoder Representations from Transformers):Google开发的预训练语言模型,能够理解文本的双向上下文。

BM25:一种经典的信息检索算法,基于概率模型计算查询和文档的相关性分数。

Cosine Similarity(余弦相似度):衡量两个向量在方向上的相似程度,值域在-1到1之间,1表示完全相同方向。

Dense Retrieval(密集检索):使用连续向量表示进行检索,相对于基于关键词的稀疏检索。

Embedding(嵌入):将离散的符号(如词、句子)映射到连续向量空间的表示方法。

FAISS(Facebook AI Similarity Search):Facebook开发的高效相似性搜索库,专门用于大规模向量检索。

Fine-tuning(微调):在预训练模型基础上,使用特定任务数据进行进一步训练的过程。

GraphRAG:结合知识图谱和向量检索的高级RAG架构,由Microsoft提出。

Hallucination(幻觉):语言模型生成看似合理但实际错误或虚构信息的现象。

HNSW(Hierarchical Navigable Small World):一种高效的近似最近邻搜索算法,常用于向量数据库。

HyDE(Hypothetical Document Embeddings):通过生成假设文档来改进检索的技术。

In-context Learning(上下文学习):大语言模型通过输入中的示例学习执行任务的能力。

LangChain:流行的LLM应用开发框架,提供了构建RAG系统的工具链。

Latency(延迟):从发送请求到收到响应的时间间隔,是用户体验的关键指标。

LLM(Large Language Model,大语言模型):参数量巨大的神经网络语言模型,如GPT、Claude等。

MRR(Mean Reciprocal Rank,平均倒数排名):评估检索系统排序质量的指标。

Multi-hop Reasoning(多跳推理):需要多个推理步骤才能得出答案的复杂问题解决过程。

NDCG(Normalized Discounted Cumulative Gain):考虑位置权重的排序质量评估指标。

Non-parametric Memory(非参数化记忆):存储在模型参数之外的知识,如外部数据库。

Parametric Memory(参数化记忆):编码在神经网络权重中的知识。

Prompt Engineering(提示工程):设计和优化输入提示以获得更好模型输出的技术。

Query Rewriting(查询改写):将用户的原始查询转换为更适合检索的形式。

RAGAS(Retrieval Augmented Generation Assessment):专门用于评估RAG系统的开源框架。

Re-ranking(重排序):对初步检索结果进行精细排序的过程。

Self-RAG:具有自我反思能力的RAG系统,能够评估自己的检索需求和质量。

Semantic Search(语义搜索):基于意义理解而非关键词匹配的搜索方法。

Token(令牌):文本处理的基本单位,可以是单词、子词或字符。

TTFT(Time To First Token):生成第一个响应令牌所需的时间。

Vector Database(向量数据库):专门用于存储和检索高维向量的数据库系统。

Vector Embedding(向量嵌入):文本在高维连续空间中的数值表示。

Zero-shot Learning(零样本学习):模型在没有特定训练样例的情况下执行新任务的能力。