大语言模型LLM入门篇-EW帮帮网

大模型席卷全球，彷佛得模型者得天下。对于IT行业来说，以后可能没有各种软件了，只有各种各样的智体（Agent）调用各种各样的API。在这种大势下，笔者也阅读了很多大模型相关的资料，和很多新手一样，开始脑子里都是一团乱麻，随着相关文章越读越多，再进行内容梳理，终于理清了一条清晰的脉络。笔者希望通过三篇文章总结（入门篇、原理篇和应用篇）将思路写下来，以便跟我一样的新手读者快速了解大模型的方方面面。在这里，笔者先强调一下，本系列文章的深度有限，只是个人对大模型知识脉络的梳理，同时也会借鉴一下同行的博客内容充实本文，文末将会注明参考来源。

在开始阅读文章之前，有几个问题读者可以先思考一下：

什么是大模型？
大模型最终要解决的问题是什么？

大模型LLM与人工智能AI

提到大模型（全名，大语言模型，LLM，Large Language Model），绕不开人工智能（AI，Artificial Intelligence）这个概念。

目前业界对于AI的定义有很多，但有一个令我印象深刻的说法：让机器像人一样阅读、写作和交流。通过最近几年AGI的高速发展，AI不仅仅能写作了，还能进行各种各样的创作了。所以，笔者认为这个说明可以进一步完善：人工智能就是要让机器像人一样阅读、创作和交流。

阅读：机器能够像人一样接收各种各样的输入，并能够理解这些输入；
创作：机器能够像人一样进行创作输出，不仅仅只是写作，还包括：绘画、视频创作等等；
交流：在上述理解输入和创作输出的基础上，就自然而然可以实现机器像人一样交流，并且在创作输出能力上，可能比自然人更加优势。

要实现上述描述的人工智能，首先就需要让机器理解人类的输入，人类的输入方式比较多，语言和文字首当其冲。要让机器理解语言和文字，就需要进行语言建模，语言建模的输出就是语言模型LM（Language Model）。

机器通过分析学习大量人类语言和文字，最终获得一个语言模型。通过该模型，机器好像听懂了用户输入一样，对用户的输入进行对应的输出。而用户通过得到的机器输出，也感觉机器理解了自己的意思。但实际这里的听懂和理解都是机器的运算。

那么，这么厉害的模型是怎么来的呢？

大模型LLM的发展与定义

和很多有故事的人的名字一样，大模型一开始并不叫大模型。

大模型的发展经历了4个阶段：

统计语言模型
SLM，Statistical Language Model，统计语言模型，基于统计学习方法开发，其基本思想是基于马尔可夫假设建立词预测模型。这种模型常见于我们的全文检索和推荐系统中，通过统计词频等信息来做统计预测，这种模型通常受到维数灾难的困扰。
神经语言模型
NLM，Neutral Language Model，通过神经网络，如循环神经网络（RNN），来描述单词序列的概率。该模型引入了词的分布式表示这一概念，并在聚合上下文特征（即分布式词向量）的条件下构建词预测函数。word2vec提出了构建简化的浅层神经网络来学习分布式单词表示的方法，这些表示在各种NLP任务中被证明非常有效。
预训练语言模型
PLM，Pre-training Language Model，基于自注意力机制的高度并行化Transformer架构，在大规模无标签语料库上使用专门设计的预训练任务。该模型确立了“预训练和微调”学习范式。在这个范式下，通常需要对PLM进行微调以适配不同的下游任务。
大语言模型
LLM，Large Language Model。研究人员发现，扩展PLM（扩展模型大小或数据大小）通常会提高下游任务的模型性能，许多研究通过训练越来越大的PLM来探索性能极限。随后发现，当模型参数达到某一极限之后，模型在解决一系列复杂任务中展示了惊人的能力，这种能力被称为【涌现能力】。
关于涌现能力，业界目前还有很多问题待研究解决。比如：模型参数具体达到多少涌现能力会出现？大模型为什么会突然出现涌现能力等。

通过大模型的发展阶段描述，本节最后总结一下大模型LLM的定义。
大模型是一种采用Transformer架构，模型参数达到百亿或千亿级的预训练模型。

大模型LLM的分类

目前业界涌现了非常多的大模型，也看了网上一些关于对大模型分类归纳的文章，都非常不错，本节主要是对网上的分类信息进行总结。

本节将从以下三个方面来对大模型进行分类：

根据算法原理分类

大模型的架构基本都是Transformer，而Transformer详细的结构在google发布的论文《Attention Is All You Need》中进行了描述，Transformer结构中有两个非常重要的部件：Encoder和Decoder，如下图所示：

在这里插入图片描述

根据对Transformer结构的裁剪，可以将目前的大模型分为三类：

Encoder-Only：裁剪了Decoder部件，代表模型BERT，到了2020年之后，这类技术基本已经不再发展。
Encoder-Decoder：没有裁剪任何部件，代表模型T5。
Decoder-Only：裁剪了Encoder部件，代表模型GPT，目前主导LLM领域的发展。

下面是一张结合了大模型出现时间以及所属架构分类的图片，分别详细阐述了各个分类有哪些代表模型，以及模型出现的时间。

在这里插入图片描述

根据输入内容分类

根据输入内容不同，可以分为以下三类：

语言大模型

指在自然语言处理（Natural Language Processing，NLP）领域中的一类大模型，通常用于处理文本数据和理解自然语言。
这类大模型的主要特点是它们在大规模语料库上进行了训练，以学习自然语言的各种语法、语义和语境规则。
例如：GPT 系列（OpenAI）、Bard（Google）、文心一言（百度）。

视觉大模型

指在计算机视觉（Computer Vision，CV）领域中使用的大模型，通常用于图像处理和分析。
这类模型通过在大规模图像数据上进行训练，可以实现各种视觉任务，如图像分类、目标检测、图像分割、姿态估计、人脸识别等。
例如：VIT 系列（Google）、文心UFO、华为盘古 CV、INTERN（商汤）。

多模态大模型

指能够处理多种不同类型数据的大模型，例如文本、图像、音频等多模态数据。
这类模型结合了 NLP 和 CV 的能力，以实现对多模态信息的综合理解和分析，从而能够更全面地理解和处理复杂的数据。
例如：DingoDB 多模向量数据库（九章云极 DataCanvas）、DALL-E(OpenAI)、悟空画画（华为）、midjourney。

根据应用领域分类

按照应用领域，大模型主要可以分为 L0、L1、L2 三个层级：

通用大模型 L0：
是指可以在多个领域和任务上通用的大模型。
它们利用大算力、使用海量的开放数据与具有巨量参数的深度学习算法，在大规模无标注数据上进行训练，以寻找特征并发现规律，进而形成可“举一反三”的强大泛化能力，可在不进行微调或少量微调的情况下完成多场景任务，相当于 AI 完成了“通识教育”。
行业大模型 L1：
是指那些针对特定行业或领域的大模型。
它们通常使用行业相关的数据进行预训练或微调，以提高在该领域的性能和准确度，相当于 AI 成为“行业专家”。
垂直大模型 L2：
是指那些针对特定任务或场景的大模型。
它们通常使用任务相关的数据进行预训练或微调，以提高在该任务上的性能和效果。

读完本文，文章开篇的两个问题应该都有答案了。感谢各位读者的关注、收藏和点赞，为后续原理篇和应用篇的编写提供动力！

大语言模型LLM入门篇

大模型LLM与人工智能AI

大模型LLM的发展与定义

大模型LLM的分类

根据算法原理分类

根据输入内容分类

根据应用领域分类

参考文献

网站公告

今日签到

热门文章

最新发布