写在前面
我目前也是一名学生,可能有些地方讲的不对,欢迎各位大佬指出来。
“凡事预则立,不预则废”。对大模型发展历史条件的了解,就是在使用和研究大模型之前的“预”,有了扎实的导学基础,才能更好地应对挑战,取得成功。
背景介绍
何为大模型?
一般来说大模型指的是大型语言模型,除非特定情况下指明模态,例如视觉大模型指视觉和语言两个模态的大模型。
维基百科的定义是:大型语言模型(英语:large language model,LLM),也称大语言模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。
大模型的要素
业界公认有三大要素:模型、数据、算力。
就像盖一栋摩天大楼,再精妙的设计也离不开钢筋和混凝土。数据可以看作“钢筋和混凝土”,模型可以看作大楼的设计,算力则是每一个辛勤劳作的工人。缺一不可。
数据决定了大模型能力的上限。试想只用10条数据,就算用1000B的模型也很难得到效果好的效果,deepseek的用蒸馏的技术把数据放到小的模型上也会的接近源模型的效果。
算力和模型其实是密不可分的,也可以看作一个算力要素。有了强大的算力才能说创建一个规模庞大的模型。
得益于其他例如芯片、数据采集等领域的发展,大模型才能诞生,可以说大模型是时代的产物。
人工智能技术发展概括
人工智能处理的任务
决策式:人工智能回答“选择题”,模型主要处理诸如:判别,分类,排序等任务。
生成式:人工智能回答“问答题”,需要模型根据输入,自动生成一些新内容(客观世界可能从未出现)。
NLP发展历程
发展进过四个阶段:传统方法(SVM、BP等),神经网络(LSTM、CNN),大模型预训练(GPT、Bert、T5),提示学习(Prompt工程)
在哪里玩大模型?
主流网址:Huggingface官网、Huggingface镜像网址、ModelScope 魔搭社区、gituhub
上面这些网址都可以下载数据模型,查看相关论坛社区,这里主要介绍下Huggingface镜像网址的使用。由于在大陆无法直接访问Huggingface官网,需要魔法,但是一直用魔法又有点烧钱。所以一般用镜像(感觉镜像维护着),网址里有使用教程,我一般采用方法二,见下图。
下载时,只需要替换模型/数据集名称和保存路径即可,如下Qwen/Qwen3-0.6B就属于一个名称。
大模型的命名
大模型命名规则并没有一个统一的标准,我把主流的几个大模型公司命名列在下表,也许看了下面这些表就能推测见到其他大模型名称有个初步的理解。
模型名称示例 | 特殊后缀 | 后缀含义 |
---|---|---|
Qwen/Qwen3-0.6B | 无特殊后缀 (如0.6B , 30B ) |
通常直接表示模型版本和/或参数量。 |
Qwen2.5-VL-3B-Instruct | VL | Visual Language,表示该模型具备处理视觉信息的能力,是多模态模型。 |
Qwen3-Reranker-4B | Reranker | 重排序模型,专门用于对检索结果进行再次排序以提高相关性。 |
DeepSeek-R1-Distill-Qwen-1.5B | R1 | 通常表示推理模型版本,可能专注于通过逐步思维链来提升推理能力。 |
DeepSeek-R1-Distill-Qwen-1.5B | Distill | 蒸馏模型,表示该模型是通过知识蒸馏技术从一个更大的“教师模型”中学习而来,通常为了减小模型规模。 |
Gemini-2.0-Flash | Flash | 强调其“快速”的特性,通常在保证一定质量的前提下,优化了响应速度和成本效率。 |
Gemini 2.5 Pro | Pro | “专业版”或“增强版”,通常表示在性能、能力、上下文窗口、多模态等方面达到了较高水平的通用模型。 |
ChatGPT-4o | o | Omni(全能),表示这是一个多模态模型,支持文本、语音、图像等多种模态的输入和输出,并且在速度和效率上进行了优化。 |
glm-4-9b-chat | chat | 表示该模型经过了专门的聊天对话优化,更适合进行多轮对话和用户交互。 |
chatglm2-6b-int4 | int4 | 指的是4位整型量化,这是一种用于减少模型内存占用并加速推理的技术,通过以更紧凑的格式存储模型权重来实现。 |
DeepSeek-V3-Base | Base | 表示一个基础模型或基座模型,意味着这是一个预训练模型,尚未针对特定下游任务(如聊天或指令遵循)进行专门的微调。它通常用作进一步微调的起点。 |
主要参考来源
(1)LLM张老师
(2)面向开发者的大模型手册
(3)卢菁老师