腾讯云向量数据库-RAG介绍2-易微帮

1.chunk拆分对最终效果的影响

嵌入技术是相似性检索的关键，它能够将数据转换为向量表示，并通过比较向量之间的相似性来实现相似性检索；embedding：将整个文本转换成实数向量的技术。将一些离散的词语和句子转换为连续的向量，可以使用数学方法来处理词语或句子，从而捕捉到文本的语义信息，文本和文本的关系信息。

嵌入技术是通过将数据映射到低维空间中的向量表示，以便比较和衡量它们之间的相似性。

嵌入技术在不同领域中都有广泛的应用，例如自然语言处理、计算机视觉和推荐系统等。在相似性检索中，嵌入技术能够将原始数据（如文本、图像或音频）转换为稠密向量表示。

通过使用嵌入技术，可以将数据转换为连续且有意义的向量表示，使得相似的数据在向量空间中更接近，而不相似的数据则更远离。这样，可以通过计算向量之间的距离或相似度来进行相似性检索。

嵌入技术的具体方法包括词嵌入（word embedding）、图像嵌入（image embedding）和音频嵌入（audio embedding）等。常用的嵌入模型包括Word2Vec、BERT和Siamese网络等。

相似性检索的关键是选择合适的嵌入技术，并使用合适的训练数据来训练嵌入模型。此外，还需要选择合适的距离度量方法（如欧氏距离或余弦相似度）来衡量向量之间的相似性。

通过特征提取和嵌入学习的方式，将高维数据样本映射到嵌入空间中，从而实现数据的低维表示和嵌入，应用于各种任务，如分类、聚类和可视化等。

VDB（Variational Deep Boltzmann Machine）垂类embedding模型是一种基于深度学习的数据嵌入方法，用于学习高维数据的低维表示。它通过组合深度学习模型和Boltzmann机的思想，利用变分推断技术进行训练。

基本思路是将数据样本映射到一个嵌入空间中，使得具有相似特征的样本在嵌入空间中的距离更近。两个主要步骤来实现这一目标：特征提取和嵌入学习。

在特征提取步骤中，VDB垂类embedding模型使用深度学习网络（例如，卷积神经网络）对原始数据样本进行特征提取。

在嵌入学习步骤中，VDB垂类embedding模型使用变分推断技术将特征映射到嵌入空间中。它通过最小化嵌入空间中样本之间的距离，来保持具有相似特征的样本在嵌入空间中的邻近性。同时，它还通过最大化嵌入空间中样本之间的距离，来增加具有不同特征的样本之间的差异性。

RAG应用的检索流程图

query预处理：意图识别→生成同义query→query标准化