从 RAG 1.0到RAG 2.0,这次做对了什么?

发布于:2024-04-25 ⋅ 阅读:(12) ⋅ 点赞:(0)

RAG是目前最流行的补充生成式人工智能模型的方式,最近 RAG 的开创者提出了新的上下文语言模型 (CLM) ,他们称之为“ RAG 2.0 ”。

今天让我们一块来从RAG目前的原理和缺点出发,看看他们所提出的RAG2.0是否能够为行业带来新的希望。

LLM的时间有效性

您应该知道,所有独立的大型语言模型 (LLM)(例如 ChatGPT 等)都有知识截止点。

这意味着预训练是一次性的练习(与持续学习方法不同)。换句话说,LLM 掌握的数据是在某个时间点之前的。

例如,在写文章时,ChatGPT 更新至 2023 年 4 月。因此,他们不准备回答该日期之后发生的事实和事件。

而这就是 RAG 发挥作用的地方。

语义相似性

顾名思义,这个想法是从已知的数据库中检索数据,这些数据是LLM以前从未见过的数据,并将其实时输入到模型中,以便它已经更新,在语义上相关的上下文来提供准确的答案。

但这个检索过程是如何进行的呢?

整个架构源于一个原则:检索与请求或 prompt 上下文相关的语义有意义的数据的能力。

这个过程涉及到三个元素的使用:

  1. embedding 模型
  2. 检索器,通常是矢量数据库
  3. 还有生成器,LLM

首先也是最重要的,为了使此检索过程正常进行,您需要对数据进行 embedding ,即数字向量化。

更重要的是,这些嵌入具有相似性原则:相似的概念将具有相似的向量。

完成embedding后,我们将它们插入向量数据库(检索器)。

应用相似性原则

然后,每当用户发送如下请求*“给我与‘黄猫’类似的结果”时,*矢量数据库就会执行“语义查询”。

通俗地说,它提取与用户查询最接近的向量(距离)。

由于这些向量代表基本概念,因此相似的向量将代表相似的概念,在本例中是其他猫。

一旦我们提取了内容,我们就构建 LLM prompt,封装包括:

  • 用户的请求
  • 提取的内容
  • 一般来说,还有一组系统指令

简而言之,这就是 RAG,一个为用户实时查询提供相关内容以增强 LLM 响应的系统。

RAG 系统之所以起作用,首先要归功于LLM的最大超能力:上下文学习,它允许模型使用以前未见过的数据来执行准确的预测,而无需权重训练。

但这个过程听起来好得令人难以置信,当然,事情并不像看起来那么令人惊奇。

RAG的问题:缝合怪

前 RAG 系统做一个形象的比喻,就是下面的裤子:

尽管这些裤子可能适合某些观众,但大多数人永远不会穿它们,因为没有统一性,尽管打补丁的初衷是希望让人接受。

这种类比背后的原因是,标准 RAG 系统组装了三个不同的组件,这些组件分别经过预先训练,并且根据定义,它们从来不应该组合在一起。

而在RAG 2.0系统中从一开始就被定义为“一件事”。

RAG2.0

我们将上下文语言模型 (CLM) 与跨多个轴的冻结 RAG 系统进行了比较:

  • 开放域问答: 我们使用规范的自然问题(NQ)和TriviaQA数据集来测试每个模型正确检索相关知识并准确生成答案的能力。我们还在单步检索设置中评估 HotpotQA (HPQA) 数据集上的模型。所有数据集都使用完全匹配 (EM) 指标。
  • 忠实性: HaluEvalQA 和 TruthfulQA 用于衡量每个模型保持基于检索到的证据和幻觉的能力。
  • 新鲜度: 我们使用网络搜索索引来衡量每个 RAG 系统泛化到快速变化的世界知识的能力,并在最近的 FreshQA 基准测试中显示准确性。

RAG 2.0的核心创新在于它的端到端优化设计,将语言模型和检索器视为一个整体进行训练和微调。这种设计不仅提高了模型在特定任务上的准确性,也提升了其适应新问题的能力,使其在多项标准测试中达到了前所未有的性能水平。

与传统的 RAG 系统相比,RAG 2.0能够更有效地处理知识密集型任务,因为它不受训练期间接触资料的限制。通过动态检索外部资料,如Wikipedia、Google或内部公司文件,RAG 2.0能够获取并利用最新、最相关的信息来增强其回答的准确度和可靠性。

在实践中,整个系统在连接时进行端到端训练,就像假设LLM应该始终有一个与之绑定的矢量数据库以保持更新。

这意味着,在反向传播过程中,训练这些模型的算法,梯度不仅通过整个 LLM 传播,而且还通过检索器传播,以便整个系统作为一个整体从训练中学习数据。

结果也证明了这一点:

尽管使用的独立模型肯定比 GPT-4 差,但这种新方法的性能优于 GPT-4 和其他检索系统之间所有其他的 RAG 1.0 组合。

原因很简单:在 RAG 1.0 中,我们单独训练事物,然后将它们缝合在一起,并希望得到最好的结果。但在 RAG 2.0 中,情况大不相同,因为所有组件从一开始就在一起。

但尽管 RAG 2.0 的优势显而易见,但仍然存在一个大问题。

RAG的未来面临挑战

尽管 RAG 2.0 看起来似乎带来了巨大的好处**,因为它的设计专门针对不愿意与 LLM 提供商共享机密数据的公司,但现实中它的落地面临巨大挑战。**

超长上下文

我相信您非常清楚这样一个事实,即我们今天的前沿模型,例如 Gemini 1.5 或 Claude 3 等模型,拥有巨大的上下文窗口,在其生产发布的模型中多达 100 万个token(75 万个单词),而在实验室中更是达到了1000万token(750 万个单词)

通俗地说,这意味着这些模型可以在每个提示中输入非常长的文本序列。

作为参考,《指环王》书籍总共有 576,459 个单词,而《哈利·波特》的整本书传奇大约有 1,084,170 个单词。因此,一个 750 万字的上下文窗口可以在每个提示中将两个故事组合在一起,五倍。

在这种情况下,我们真的需要一个知识库检索器,而不是仅仅在每个prompt中提供信息

放弃此选项的原因之一可能是准确性。序列越长,模型检索正确的上下文就越困难,对吗?

另一方面,RAG 过程允许仅选择语义相关的数据,而不是在每个 prompt 中提供整个上下文,从而使其整体上成为一个更高效的过程。

然而,的研究正在超长上下文中,LLM的工作也显示出几乎 100% 的准确性。

这些模型无论长度如何都能表现出惊人性能的背后的技术支持是,这些模型的基本操作符——注意力机制——具有绝对的全局上下文,因为注意力机制迫使序列中的每一个单独的令牌(也就是一个单词或子词)去关注序列中每一个其他的之前的单词。

这确保了无论依赖关系有多远,无论信号有多小(关键信息可能存储在一个距离数百万单词的单个单词中),模型应该能够——而且确实能够——检测到它。

因此,在我看来,RAG 最终能否生存并不取决于准确性,而是取决于技术之外的另一个关键因素:

成本。

需要商业落地来验证

如今,由于 Transformer 无法压缩上下文,较长的序列不仅意味着成本的二次增加(序列增加 2 倍意味着计算成本增加 4 倍,或者增加 3 倍意味着计算成本增加 9 倍),而且还意味着由于KV Cache大小的增加而爆炸。简而言之,运行很长的序列是非常昂贵的。

KV缓存是模型的“缓存内存”,避免不得不重新计算大量冗余的注意力数据,否则这个过程在经济上是不可行的。这里是关于KV缓存是什么以及它如何工作的深入回顾。

简而言之,运行非常长的序列是非常昂贵的,以至于对于具有极长序列长度的模态,如DNA,甚至不考虑使用Transformer。

事实上,在像EVO这样的DNA模型中,研究人员使用了海纳(Hyena)操作符而不是注意力来避免前面提到的二次方关系。海纳操作符使用长卷积而不是注意力来以次二次方的成本捕捉长距离依赖。

本质上,虽然你在时间域中计算卷积,但你是作为频率域中的逐点乘积来计算它,这更快、更便宜。其他替代方案寻求一种混合方法,而不是完全放弃注意力,而是找到注意力和其他操作符之间的最佳平衡点,以在保持性能的同时降低成本。

总结

最近的示例包括Jamba,它巧妙地将Transformer与其他更高效的架构(如Mamba)混合在一起。

Mamba、Hyena、Attention……你可能认为我只是为了证明一个观点而随意列举一些花哨的词汇。

所有这些名字背后都归结为同一个原则:它们是揭示语言模式的不同方式,帮助我们的AI模型理解文本。

注意力机制驱动了当今99%的模型,其余的只是在尝试找到尽可能最小的性能降低的更便宜的方式,使大型语言模型(LLM)更加经济。

总而言之,我们很快就能看到极长序列的处理成本仅为目前价格的一小部分,这应该会增加对RAG架构需求的怀疑。

如果RAG可以成为平衡成本的一个好方案,那么未来应该会有更好的发展。