51c大模型~合集169-EW帮帮网

自己的原文哦~ https://blog.51cto.com/whaosoft/14122643

#Echo-4o

利用GPT-4o合成图像“反哺”，全面提升开源模型生成能力

近期，GPT-4o强大的图像生成能力技惊四座，但相应的开源模型却始终望尘莫及。如何利用GPT-4o这类强大闭源模型的能力来提升开源社区，成为了一个热门研究方向。来自上海人工智能实验室、中山大学、香港中文大学和北京大学的研究者们联合发表论文《Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation》，为这个问题提供了一个全新的答案。

论文的核心思想是：既然真实世界的数据集本身已是高质量数据的来源，为什么还需要用GPT-4o生成的合成数据？作者给出了两个关键理由：1）合成数据能有效补充真实世界数据集中罕见的场景（如超现实幻想、多图像参照生成），而这些恰恰是用户的高频需求；2）合成数据能提供更干净、可控的监督信号，避免真实世界图像中常见的背景噪声和图文不对齐问题。

基于此，论文推出了 Echo-4o-Image ，一个包含18万张由GPT-4o生成的、高质量的合成图文对数据集。利用该数据集，作者微调了多模态基线模型Bagel，得到了性能强劲的 Echo-4o 模型。此外，为了更精准地评估生成效果，论文还提出了两个全新的评测基准：GenEval++和 Imagine-Bench。实验证明，Echo-4o不仅在各项标准基准上表现优异，其背后的Echo-4o-Image数据集也具有极强的迁移性，能显著提升其他多种开源模型（如OmniGen2, BLIP3-o）的性能。

论文标题：Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

作者：Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li

机构：上海人工智能实验室, 中山大学, 香港中文大学多媒体实验室, 北京大学

论文地址：https://arxiv.org/pdf/2508.09987v1

Github：https://github.com/yejy53/Echo-4o

数据集：https://huggingface.co/datasets/Yejy53/Echo-4o-Image/

项目主页：https://yejy53.github.io/Echo-4o

研究背景：真实数据 vs. 合成数据

尽管互联网上存在海量的真实图像，但它们作为训练数据源并非完美无缺。论文指出现实世界数据存在两大核心痛点：

罕见场景覆盖不足：用户的想象力是无穷的，他们会提出各种天马行空的需求，比如“一个由扑克牌组成的火车”或“透明的衬衫”。这类超现实、富有想象力的内容在真实世界中几乎不存在，导致模型难以学习。

图文不对齐与噪声：真实图像的背景往往很杂乱，而文本描述通常只会关注主体，忽略背景细节，造成图文之间的错位。这种“不干净”的监督信号会干扰模型学习精确的指令跟随能力。

合成图像的关键优势：(a, b) 能够生成真实世界罕见的超现实和多参考图像；(c, d) 提供背景纯净、长尾可控的监督信号，实现更精准的图文对齐。

而GPT-4o生成的合成数据恰好能解决这些问题。它可以根据指令创造出任意的幻想场景，并且能生成背景纯净、主体突出的图像，为模型提供高质量、高对齐度的训练样本。

核心方法

Echo-4o-Image 数据集构建

本文最大的贡献之一是构建了 Echo-4o-Image 数据集。该数据集包含约18万个样本，分为三大类，精准地针对真实世界数据的“盲点”进行补充。

Echo-4o-Image数据集的构建流程与概览。

超现实幻想生成 (Surreal Fantasy) ：通过“属性迁移”（如白色的香蕉）、“杂交”（如水晶做的番茄）和“时空错位”（如云端行驶的火车）等方式，系统性地生成富有想象力的提示词，并交由GPT-4o生成图像。
多参考图像生成 (Multi-Reference) ：设计包含2到4张输入图像的复杂指令，要求模型提取每张图的特定元素并组合成一张新图。这极大地锻炼了模型对复杂空间关系和主体特征保持的理解力。
复杂指令跟随 (Instruction-Following) ：生成包含多个物体、多种属性（颜色、数量、位置）的复杂长尾指令，并利用GPT-4o生成图像。为了确保数据质量，作者还提出一个原则：“没有无效的图像，只有无效的文本”。如果生成图与指令不符，他们会反过来修改文本以匹配图像，确保每一对图文数据的完美对齐。

Echo-4o 模型

研究团队在强大的开源多模态模型Bagel的基础上，使用Echo-4o-Image数据集进行微调，最终得到了Echo-4o模型。由于Bagel本身已在万亿级数据上做过预训练，Echo-4o在其基础上的显著提升，充分证明了Echo-4o-Image合成数据的互补价值和高效性。

全新评测基准：GenEval++ 与 Imagine-Bench

为了解决现有评测基准分数饱和、无法有效评估模型想象力的问题，论文还提出了两个新的评测基准。

新评测基准示意图：GenEval++（上）提升了指令复杂度，Imagine-Bench（下）则专注于评估模型的想象力。

GenEval++ ：使用GPT-4.1作为评估器，并大幅增加了测试指令的组合复杂度，能更准确地衡量模型对复杂指令的遵循能力。
Imagine-Bench：专注于评估超现实和幻想内容的生成，从“幻想实现度”、“身份保持度”和“美学质量”三个维度进行综合打分。

实验结果与分析

Echo-4o在多个主流和新建的基准测试中均表现出卓越的性能。

在GenEval和DPG-Bench等标准指令跟驰基准上，Echo-4o全面超越了包括Bagel、OmniGen2在内的其他开源模型。

在GenEval基准上的评测结果，Echo-4o得分0.89，表现优异。

在更具挑战性的GenEval++上，大多数模型得分低于0.4，而Echo-4o得分高达 0.679 ，远超其他模型，展现了其强大的复杂指令理解能力。

GenEval++上的定性对比，Echo-4o能更准确地生成满足所有复杂约束的图像。

在评估想象力的Imagine-Bench上，Echo-4o同样在开源模型中排名第一，这直接得益于Echo-4o-Image数据集中大量的幻想类数据。

Imagine-Bench上的定性对比，Echo-4o能生成更具创意和真实感的幻想图像。

论文贡献与价值

CV君认为，这篇论文的贡献是多方面的，对整个AIGC社区都具有重要意义：

深刻洞见：明确阐述了在拥有海量真实数据的情况下，高质量合成数据的不可或缺性及其两大核心优势，为“数据蒸馏”这一研究方向提供了坚实的理论依据。
宝贵的数据集：开源了精心构建的Echo-4o-Image数据集。该数据集不仅质量高、对齐好，而且具有极强的通用性和迁移性，可以即插即用地提升多种不同架构的开源模型，是社区的宝贵财富。
强大的模型与评测：提供了性能卓越的Echo-4o模型作为新的开源基线，并建立了两个更具挑战性的评测基准，将推动图像生成领域向着更复杂、更具想象力的方向发展。

总而言之，Echo-4o的工作展示了一条清晰的路径：通过“回声（Echo）”顶级闭源模型（如GPT-4o）的力量，可以系统性地弥补现有开源生态的短板，从而构建出更强大、更具创造力的下一代生成模型。

#Gemma 3 270M

谷歌开源Gemma 3 270M，性能超越Qwen 2.5同级模型

下载下来只有 241 MB。

本周四，谷歌正式发布了 Gemma 3 的最新一款模型。

Gemma 3 270M 是一款紧凑型、拥有 2.7 亿个参数的小体量语言模型，专为特定任务的微调而设计，具备强大的指令跟踪和文本结构化能力。

它继承了 Gemma 3 系列的先进架构和强大的预训练功能，同时为小尺寸模型带来了强大的指令执行能力。谷歌展示的 IFEval 基准测试成绩所示，在同级模型上，Gemma 3 270M 树立了新的性能水平，使复杂的 AI 功能更容易应用于设备端和研究应用。

IFEval 旨在测试模型执行可验证指令的能力。

Gemma 3 270M 的核心功能主要包括如下几个方面：

紧凑而强大的架构：新模型共有 2.7 亿参数：由于词汇量庞大，嵌入参数有 1.7 亿个，Transformer 模块则有 1 亿个。得益于 256k 个 token 的庞大词汇量，该模型可以处理特定和罕见的 token，使其成为强大的基础模型，可以在特定领域和语言中进一步进行微调。

极致节能：Gemma 3 270M 的一个关键优势是其低功耗。在 Pixel 9 Pro 手机 SoC 上进行的内部测试表明，INT4 量化模型在 25 次对话中仅消耗 0.75% 的电量，使其成为最节能的 Gemma 模型。

指令遵循：谷歌发布了一个指令调整模型，并附带预训练的检查点。虽然该模型并非为复杂的对话用例而设计，但它是一个强大的模型，可以开箱即用地遵循通用指令。

可用于生产的量化：量化感知训练 (QAT) 检查点可用，使人们能够以 INT4 精度运行模型，同时最大程度地减少性能下降，这对于在资源受限的设备上部署至关重要。

对于 1.7 亿个嵌入参数，如何在训练过程中保证不出现嵌入崩溃，谷歌并没有对技术细节进行太多解释。不过在谷歌发布后，AI 社区很快开始了研究。

Sebastian Raschka 第一时间进行了简单的解读，他注意到了新模型的一些架构特点。

谷歌表示，Gemma 3 270M 是一款高质量的基础模型，开箱即用，适用于专业化的任务。在实践中，人们应从紧凑而强大的模型入手，进而构建出精简、快速且运营成本较低的生产系统。

这种思路已在现实世界中取得了很好的成果。谷歌举了 Adaptive ML 与 SK Telecom 合作的成果的例子。面对细致入微的多语言内容审核挑战，他们选择了专业化。Adaptive ML 没有使用大规模通用模型，而是对 Gemma 3 4B 模型进行了微调。从结果上看，专业化的 Gemma 模型达到甚至超越了更大型专有模型在其特定任务上的表现。

Gemma 3 270M 旨在让开发者更进一步利用这种方法，为定义明确的任务释放更高的效率。它是创建一系列小型专业模型的理想起点，每个模型都是各自任务的专家。

这种专业化的力量不仅适用于企业任务，还能帮助个人开发者构建创意应用程序。例如，Hugging Face 团队的成员使用 Gemma 3 270M 为一款使用 Transformers.js 的睡前故事生成器网页应用提供支持。可知，该模型的体量和性能使其非常适合离线、基于网页的创意任务。

，时长01:42

谷歌表示，Gemma 3 270M 适用于以下场景：

有一个高容量且定义明确的任务。该模型非常适合情绪分析、实体提取、查询路由、非结构化到结构化文本处理、创意写作和合规性检查等功能。
需要精打细算，时延要求高的任务。它可以大幅降低甚至消除生产中的推理成本，并更快地为用户提供响应。经过微调的 270M 模型可以在轻量级的基础架构上运行，也可以直接在设备上运行。
需要快速迭代和部署的工作。Gemma 3 270M 的小巧体积使其能够快速进行微调实验，帮助你在数小时内（而不是数天）找到适合您用例的完美配置。
需要确保用户隐私的任务。由于该模型可以完全在设备上运行，你可以构建处理敏感信息的应用程序，而无需将数据发送到云端。
你需要一批专门的任务模型。构建并部署多个自定义模型，每个模型都经过专业训练，能够完成不同的任务，而且不会超出预算。
在新模型上，谷歌提供了快速入门的方案和工具。你可以在 Gemma 文档中找到使用 Gemma 3 270M 进行完整微调的指南：https://ai.google.dev/gemma/docs/core/huggingface_text_full_finetune
谷歌同时发布了 Gemma 3 270M 的预训练模型和指令调优模型：https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d
你可以在 Vertex AI 上试用模型，或使用 llama.cpp、Gemma.cpp、LiteRT、Keras 和 MLX 等热门推理工具进行试用：https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3

现在，你也可以在 Colab 上尝试自行尝试微调，只需不到 5 分钟即可完成。

过去几个月，谷歌的 Gemma 开放模型系列经历了一系列发布。在 4 月到 5 月，谷歌推出了 Gemma 3 和 Gemma 3 QAT，为单云和桌面级 GPU 提供了不错的 AI 性能。随后在 6 月 25 日，面向移动端的 Gemma 3n 正式发布，为手机等设备引入了强大的实时多模态 AI 能力。

谷歌表示，截止上周，Gemma 系列的累积下载量已经突破了两亿次。

参考内容：

https://developers.googleblog.com/en/introducing-gemma-3-270m/

#GPT-5、Grok 4、o3 Pro都零分

史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗？

前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

然而，现实可能并不如想象中那么乐观。

AAI，一个专注于超智能和高级 AI 系统研究的机构，近期提出的一个新基准 FormulaOne，让一众大模型集体得零分，包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。

HuggingFace：https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

FormulaOne 包含 220 个新颖的图结构动态规划问题，按难度分为三类，从中等难度直至科研级别。其中最高等级难度的题包括拓扑与几何、组合问题分析等。

测试题的具体示例如下：依次是浅层难度、深层难度、更深层难度。

尽管这些问题陈述起来通常很自然，但其解决方案却远非显而易见。这一大类问题的可解性由 Courcelle 提出的一个算法元定理所保证，该定理大致可以表述为：

「对于每个足够类似树的图，任何可用一种富有表现力的形式逻辑（一元二阶逻辑）定义的问题，都可以通过一个动态规划算法来解决，且其运行时间与图的阶数成线性关系。」

其关键在于使用一种称为树分解的结构，它将图的顶点组织成一系列重叠的集合，即「袋」，而这些「袋」本身则以树状结构排列。

然后，算法可以遍历这个由「袋」构成的树，并使用动态规划分步解决问题。这个过程涉及到设计一个「状态」，该「状态」总结了「袋」内部分解的所有必要信息，然后定义当顶点被引入、遗忘或当「袋」被合并时，该「状态」如何转换。

，时长00:57

问题陈述看似简单，但这背后实则掩盖了发现正确动态规划解法的非凡难度。这个过程遍布着微妙的组合与逻辑陷阱，要求（研究者）对问题的底层结构有深刻的理解。关于解决一个名为 Maximal-Cluster-Graph 的难题所需的十五个相互依赖的推理步骤，其详细的推演过程请参阅论文的附录。

论文地址：https://arxiv.org/pdf/2507.13337

这个工作在社交媒体上引发了很大关注，许多人表示应该让人类博士生也参与评估。

结果

在浅层难度上，顶尖模型的表现达到了 50%–70%，表明它们对相关问题类型已有一定熟悉度，换句话说，这些任务完全处于它们的训练分布之内。

在深层难度上，Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的题目；GPT-5 Pro 表现相对更好，但也只解出了 4/100。

在最深层难度上，所有模型的成功率均为 0%，集体崩溃。

AAI

AAI（AA-I Technologies，Double AI）是一家由以色列知名企业家、科学家 Amnon Shashua 于 2023 年 8 月在耶路撒冷创办的人工智能初创公司。

Shashua 是自动驾驶公司 Mobileye、AI21 Labs 和 OrCam 等多个知名项目的创始人，在自动驾驶、人工视觉和 AI 领域具有极高声誉。

AAI 的核心目标是推动「人工专家智能」（Artificial Expert Intelligence，AEI）的理论与应用，提出区别于传统窄域 AI 和 AGI 的新 AI 发展路径。这种 AEI 强调将领域知识与严密的科学推理能力相结合，旨在突破「只擅长特定任务」或「泛化无精度」的传统瓶颈，使 AI 可以像顶级人类专家一样，运用严谨推理来解决复杂科学或工程难题。

创立一年内，据报道公司已吸引了数千万美元投资，并在 AWS 2024 年生成式 AI 加速器项目中入选（获赠 100 万美元计算资源），加速自身 AI 基础设施建设。

#一句话搞定多任务出行

高德用空间智能重新定义地图

赫拉克利特曾说，人不能两次踏入同一条河流。全新高德地图让这句话彻底具象化——不止是千人千面，就连此刻与下一秒，它也会呈现出两幅不同的景象。

蜕变

立秋这天，长江的江面像换了一身颜色，阳光在水波间微微收敛起盛夏的锋芒。江滩边的一家餐厅里，咖啡杯口正缓缓吐着凉意，远处的货船缓缓滑过江面。

我对着桌子上的手机说：「设计一条江滩的 CityWalk 路线。」

几秒后，高德地图的「小高老师」——业内首个专精「出行与生活」的智能体，便悄然展开一条长线，串起那些被时间和记忆刻画的亮点。

，时长00:19

江城尚未迎来「云天收夏色，木叶动秋生」的清爽，但我已感受到另一种「季节更替」——城市生活的。

那天清晨，我还在二十多公里外的酒店，唤醒「小高老师」，说想去汉口江滩，顺路经过武大凌波门，还想体验长江隧道。很快，一条蓝色路线蜿蜒伸向长江对岸。

车辆驶入长江隧道，也未有片刻迷失，抵达天津路岔口时，屏幕响起精准提示——右转，驶出隧道。

一年前，纽约市推出了公厕谷歌地图，帮助市民「方便」。我也顺嘴一提，想找公厕，导航瞬间添加了一个温柔的途经点。

，时长00:17

一句「取消途经点」，被意外插入的行程又悄然归于原轨。

，时长00:07

临近目的地，找到附近几家咖啡厅，「小高老师」指引去了一家方便停车的店。几分钟后，我推开了这家餐厅的门。

，时长00:14

就像春天里的种子，无需操心水与光，你只需说出心愿，它便自然绽放。这样的时刻，不只属于某个人，而是在不同的日子、街道、人身上悄然上演。

中午十一点，王伟要赶去机场——在此之前，他得先去省图书馆还掉那本拖延了一周的书，顺便解决午饭。他没有去拆解路径：哪一步在前，哪一步在后，只是一股脑儿地把想法交给了「小高老师」。

十几秒后，规划路线浮现屏幕，他只需握紧方向盘前行。

，时长00:26

数百公里外，小陈萌生带孩子去抚仙湖的念头。更复杂的请求也没有让「小高老师」犯难。一番深度思考后，屏幕亮起，小陈有些忍俊不禁——

从未见过哪个聊天机器人，能把行程安排精确到几时几分，连博物馆开放时间都细致考量，还能一句话增删行程。

，时长00:43

交通、酒店、亲子景点游玩顺序，乃至周边餐饮，都被妥帖安排。每张卡片，都是可直接触发的入口——点开即可切换交通方式、订酒店、锁定门票。

，时长00:23

面对同样的需求，谷歌Gemini的回答显然是一个知识回答，不是一个基于当下时空、可直接转化为行动的决策。

隐身的「指挥家」：ST-MAC

在很长一段时间里，高德地图只是一个温柔的指路人。林志玲的嗓音会在拥挤的车流中轻轻提醒你：「前方两百米右转。」

它不问你要去哪之后的安排，也不会替你考虑聚餐餐厅是不是满座。

现在，这位老朋友化身「小高老师」，手握整个出行服务的指挥棒。高德称这次更新为「全面 AI 化」，实际上重写了系统底层秩序——

「小高老师」的身后，是一套全球首发的时空感知多智能体协作系统 ST-MAC 。

在这个系统的中央，有一位不知疲倦的调度员需求链智能体（ Demand Chain Agent，DCA ）。它是整座机器的心脏，接收需求，拆分任务，调动助手，直到把一份模糊的愿望变成一套可执行的方案。

时空感知多智能体协作系统（ST-MAC）架构图。底座上，支持这一整套智能体架构的高德和通义共建大模型簇，由多模态空间感知、行为认知、时空意图理解、总结输出交互和反馈观测评估等多个专业模型构成。

随口对它说：「在公司和光谷步行街之间，找个合适的地方聚餐。」

多模态空间感知模型会率先出场——除了抽象指令，它还会读取定位、天气、实时路况，把你的愿望放在一张实时动态的城市语境里。

然后，交给时空意图模型来翻译。你说的「合适」，可能意味着方便所有人到达、环境安静、人均消费不高。即使你的需求高达 100 多个维度，也难不倒它。

这些需求会被映射到时空坐标里，拆成若干可执行子任务：找地点、定范围、选餐厅。

，时长00:29

于是，一个模糊的愿望化作一份清晰的「任务清单」。到了这一步，DCA 便可以指挥它的「手脚」动起来——

地图搜索助手撒下一张细密的网，捕捞出所有可能的餐厅；网页搜索助手接过名单，翻出用户评论、菜品照片和营业时间；导航助手在后台计算路线，衡量每个餐厅对所有人来说的耗时与便利度。

所有的候选方案会进入一场无声的「动态成本博弈」——交通和餐饮助手基于路况、排队时长等实时数据进行「竞价」，确保算得准；多维比价助手则综合用户评价、人均消费、环境评分等多维度信息，确保方案符合个性口味，选得对。

如果中途发生冲突，比如餐厅预约与预计抵达时间矛盾，DCA 会迅速调整冲突部分，直到整个方案重新稳定。

最后，它将所有助手的成果整合成一份当下最优的动态安排，界面友好，一键成行。

，时长00:09

动态成本博弈、多维比价的另一个典型案例：去北京，飞机快还是火车快？「小高老师」甚至考虑到了机场、火车站的距离成本、准点率。推荐结果也是因人而异，追求速度还是平衡性价比？结果完全不同。

每一次交互、每一次反馈，都会被系统记下。经过反复的强化学习，「小高老师」开始理解你的模糊、你的犹豫，在庞杂而不确定的世界里留下一点确定性——一种仿佛走在时间前面的从容感。

重新定义地图

地图曾是一个精于计算路径与距离、一心只为实现「从 A 到 B 」使命的工具。它以几何的精准和算法的严苛，定义了我们的移动方式。

而在高德勾勒的未来图景中，地图试图承载起出行、生活所有细节——

它仿效着城市交通的「群体智能」，曾经孤立的个体——公交车、地铁、共享单车、步行者、乃至充电桩和咖啡馆——不再是各自为政的孤岛，而是组成了一个能够自主协作的、流动的生命体网络。

充电桩的电流、快递柜的等待，这些原本零散的第三方服务，在 ST-MAC 的架构下，被巧妙转化成「插件式智能体」。它们不再被动地等待，而是与出行智能体形成一种默契的配合，按需被唤醒和调度。

这不仅是对地图的重新定义，更是对技术本源的回归——生活本身。

生活并不按固定线路行进，它总在途中插入新的标记，又不动声色地回到原路。「小高老师」接纳所有插曲，将一次临时的改道、一个顺路的取件需求，无缝融入那条通往终点的平滑轨迹中。

中途不适想附近就医？小高老师可以秒级修改当前路线。

生活也从来不是孤立的单点动作，而是流动中的多个碎任务串联。能够跨场景、跨工具，意味着曾被不同应用「肢解」的生活服务，又重回连贯。

，时长00:28

跨城出行，系统会动态计算不同公共交通工具组合，无需手动切换。

但生活远不止于「去哪儿」。它还装着模糊的冲动与不确定的期待。高德的雄心并未止步于「在路上」，也向着「决策之前」（行动之前）的那片领域进发——

这片领地，曾被小红书和大众点评等内容平台占据，它们负责「种草」，而导航工具则负责「拔草」。如今，心动和种草，也可以在一个 App 里完成。

AI 探索已经超越单纯的地理邻近，呈现兴趣上的「附近」。你会发现一条新的晨跑路线，一次意外的踏青之旅，或是一场即将成行的 CityWalk。

通过结合实时位置与时间，洞悉尚未完全表达的需求，首页 AI即刻的触角几乎延伸到你的 7×24 ，从「被动响应」走向「主动引领」。

想象一个清晨：你的航班将在三小时后起飞，而机场高速却已经开始拥堵。「小高老师」会提前推送「建议提前 20 分钟出发」的提示，并附上备用路线。

在差旅途中，它会捕捉你潜在的需求，顺势为你筛出更顺路的酒店或生活服务。

而在周末，它又会变得像一位懂得节气的老友，提醒你何处的山色正宜人。

潮水的方向

这场盛大的冒险，并非凭空开始，也不是在兜售一个口号。

二十余年来，高德在物理世界耐心地打点与积累——一条条街巷、一段段行程——织就了国内最完整的底图体系，这些是它理解现实、在瞬息之间作出精准判断的底气与根基。

每天，亿万条时空数据脉冲涌入系统，从北斗的高精度定位信号，到生成式路网的推演与修正，为它的智能体注入了近乎「第六感」的直觉。

在这一切背后，阿里生态的支撑同样厚重。

以通义大模型簇为核心的自研技术，让高德的智能体拥有从感知、理解、规划、行动、交互到学习的全链路能力。

飞猪、口碑等消费服务的无缝接入，则让「空间智能」不再是抽象的技术名词，而是落进了旅途的每一个细节——不只是从 A 到 B 的移动，而是一次被精心衔接的体验链条。

当一位头部玩家选择「重生」，行业的潮水也会随之悄然改向。

高德用「群体智能」的新范式，将出行服务引入多智能体协同的时代。这种外溢的力量，正悄悄改变竞争的焦点——从单纯的功能升级与效率比拼，转向体验深度的较量：推荐是否恰到好处，衔接是否天衣无缝，服务是否贴合当下的场景与情绪。

从底层架构的视角看，空间智能与多模态交互，正成为新的支点。单纯绘制地图，已不足以支撑未来的竞争。能否跨界，将地图与消费服务编织成浑然一体的体验，将决定未来出行的天花板高度。

高德 App 图标是一架纸飞机，它轻盈、指向远方。在这样的背景下，周杰伦那句老歌忽然有了新的注脚——「让自己快乐快乐这才叫做意义，童年的纸飞机，现在终于飞回我手里。」

这一次，风向不再是谜，路径不再是偶然，驶向快乐的方向盘握在自己手中。

#万字解析DeepSeek MOE架构

写本篇的内容初衷是总结一下很长一段时间以来对于MOE架构的笔记，同时更系统的对DeepSeek的V1/V2/V3的MOE实现进行一下梳理，客观的来说，大部分内容都是之前读论文或者拜读其他大佬们文章而做的笔记，如果有存疑之处，请不吝指出。

MOE全称是Mixture of Experts，也就是混合专家模型，本人最早关注到MOE架构是23年底Mistral.AI发布的Mixtral 8*7B模型，记得当时这个模型引爆了这个AI圈对于MOE稀疏架构的关注，很多人（包括我）才开始关注到MOE架构，陆陆续续的看了一些MOE应用在Transformer架构上的相关论文，包括GShard、Switch Transformer等，现在来看，其实MOE架构存在的时间很久远，在Transformer架构没有出现之前就已经针对机器学习的模型进行过应用，最早像1991年就有《Adaptive Mixtures of Local Experts》提出了混合专家模型的雏形，其核心思想也延用至今。

本篇内容的主线是从Switch Transformer开始简单了解MOE架构，再引申到deepseek v1、v2、v3系列，内容上只关注这几篇论文中的MOE及相关的优化部分，至于其他内容就不再提及了。相关笔记在写的过程中除了论文也会参考一些其他资料，比较碎，就不一一列举了。

之所以选择上面主线内容是因为自身工作属性原因更关注密集型模型，对于MOE模型了解和使用上相对比较少，MOE这种稀疏模型更适合云计算并行推理使用，但不可否认，MOE架构在AI模型中的地位已经十分重要，其实国内Qwen、MiniMax也开源了几款不错的MOE模型，之前也关注了一些，架构实现上比DeepSeek的MOE方案更简单，包括最新开源的MiniMax-Text-01，这款模型和deepseek-R1同一时间段发布（包括kimi-1.5），但实际热度上都没有DeepSeek-R1炸裂，当然目前暂未开源的Qwen-2.5-Max也传出是MOE模型。

ok，不再废话，正文开始！

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

https://arxiv.org/pdf/2101.03961

MOE的基本原理是使用混合专家来替代原transformer架构中的前向反馈层（FFN），在论文中的示意图如下：

Switch Transformers

从图中可以看到，一个token输入经过Attention计算并且归一化操作后除了残差分支外，原本通向FFN层的分支进入了MOE层，简单来说，MOE层是由多个FFN组成，每个FFN理论上更关注不同领域知识，也就是所谓的专家，每个token会选择其中的top-K个FFN向前传递，即选择这个token所在领域相关的专家，这个top-K也可能是个权重系数。

总的来说， MOE层可以大致分为两个部分：路由器（路由到top-K个专家）、n个专家FFN，路由器又可以分为门控（softmax操作，选择不同专家的权重）以及选择器（选择Top-K个专家）。

Switch Transformers路由器部分

在Switch Transformers中，路由部分分为两个部分，分别是简单稀疏路由和高效稀疏路由，简单稀疏路由是针对当前token选择出一个专家，高效稀疏路由则是针对高效的专家并行方案设计的（关于专家并行不再详细展开，仅简单描述）。

1.简单稀疏路由：

（1）.经典的混合专家路由

首先定义以下符号：

：专家FFN的数量；

：每个专家对于隐藏层激活值的计算；

：每个专家的门控权重计算矩阵；

：隐藏层激活值与每个专家门控权重矩阵计算后的logits；

因此，对于第个专家来说：

代表专家的门控权重系数。

：选择的Top-K个专家数量，则：

代表该层的输出，即个专家的加权输出。

（2）.Switch 路由：重新思考专家混合

上面1中的方案是比较传统的MOE方案，一般情况下都会选择 >1，但是在Switch Transformers中却选择了Top-K=1，即上面公式中的为1，这样做的原因时考虑到专家并行方案时的通信、计算以及存储因素。

这里简单描述一下专家并行，其实原理十分简单，由于MOE层有多个专家（假设16个），如果我们有16张卡，那么在设计并行方案时对于MOE层就可以天然的将不同的专家分组放到不同的卡上（这里每个卡可以有1个专家）。对于非MOE层则可以使用张量并行、序列并行等其他高效方案。

参考下图：

在图中可以发现，当使用专家并行方案时，为了满足分布式中计算、通信、存储的平衡，使用Top-K=1的MOE方案会更加高效，这样对于同一个批次的token来说，不同的token会划分到不同的专家上。这里定义了一个参数叫做capacity_factor(容量因子)，容量因子控制这每个专家可以处理的token数量，专家容量计算为（total_tokens / num_experts）* capacity_factor，在上图左侧apacity_factor=1.0中可以看到，假设有6个token，3个专家时，这时apacity_factor=1.0使得每个专家只能处理2个token，当红色虚线部分想给专家1多分配一个token时会发现专家1没有多余的容量去处理这个token，这样也就造成了溢出，那么这个没有专家处理的token就直接残差绕过了这一层的MOE。当apacity_factor=1.5时，每个专家容量变成了3，这样每个token都会有专家来处理。

这里提一点，之前说到Switch Transformers中选择了Top-K=1是多方面的平衡，可以参考上图，如果一个token选择多个专家进行计算，则分布式通信、存储会变得十分复杂。

2.高效稀疏路由

仅使用上面的简单稀疏路由会带来一定的问题，最大的问题就是训练和推理时token会集中的选择1个或几个专家（通常一个token存在多义性，即多个领域都涉及），这样就需要为每个专家都分配非常大的容量，但是容量存储空间是静态分配的，实际中的动态计算会造成溢出或者浪费。

如果容量分配较低，如上图中的capacity_factor=1，则如果token集中在某几个专家上会使得大量token溢出（红色虚线部分）；
如果容量分配较高，如上图中的capacity_factor=1.5，则有的专家会只处理少量token或者没有token处理，那么会造成存储空间的浪费；

这也是MOE模型比较难训练的一个关键因素，针对这个问题引入了负载均衡的辅助损失，这样在训练时让token在专家分布上尽可能的均匀。

论文中此部分分为两块，分别是 分布式 Switch 实现和可微的负载均衡辅助损失函数

（1）.分布式Switch实现

这部分主要介绍了上面图中的容量因子以及专家容量，即公式：

expert capacity = （total_tokens / num_experts）* capacity_factor

专家容量的出现是应对token在专家分布上不均匀的情况，从而保证较低（< 1%）的token溢出率。

（2）.可微的负载均衡辅助损失函数

这部分是重点内容，其原因上面也提到了，首先介绍一些前置参数：

：专家数量；

：每个专家；

：一个批次；

：一个批次中的token数量；

α ：超参数，负载均衡辅助损失函数值控制因子，论文中使用；

：是这个批次的个token分配到专家上的概率；

：其中代表token 路由到专家上的概率，代表专家处理这个批次的个token的概率；

最终的负载损失函数：

我们期待损失函数越小越好，则最优的情况下和都为1/N是最优的，即均匀分布时最优，其实上面的很好理解，即各token路由到各专家上的分布，当然均匀分布是我们最终希望达到的，理论上这一项也能满足损失函数的要求，但是是不可微分的，它就是一个argmax操作，无法微分就无法反向传播计算，更没办法进行梯度更新，因此引入了，针对其公式中的上面计算过，，也就是专家的门控权重系数或者说概率，这一项是一个logits分布，理论上最大的那一项索引代表了这个token 需要路由的专家，这里不举例子了，大家可以类比贪心采样，假如是贪心采样的logtis，那么就是对应的真实label的独热编码，的存在保证了损失函数的梯度更新。

论文中其他部分不再介绍了，核心部分是以上内容，其中多数是为了专家并行做的优化项，在后面的MOE架构中也进行了优化，主要了解MOE的原理及辅助损失函数的原理即可。

DeepSeek V1 (DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models)

https://arxiv.org/pdf/2401.06066

这篇论文是24年1月提交到arxiv上的，模型也在同月开源到huggingface上，发现一个有意思的现象，deepseek从v1到v3都没有将模型代码提pr到transformers推理框架上去，一直使用仓库中的推理代码。

https://huggingface.co/deepseek-ai/deepseek-moe-16b-base/tree/main

首先在V1技术报告中提到了之前的MOE存在的两点问题（直接翻译）：

（1）知识混杂性：现有的混合专家（MoE）实践通常采用数量有限的专家（例如 8 个或 16 个），由于token的知识是丰富多样的，将多样的知识分配给有限的专家，会导致特定专家的token很可能会涵盖多样化的知识，而使得专家变成一个杂糅多知识的专家，这样不能充分发挥专家的专业效果。

（2）知识冗余：分配给不同专家的令牌可能需要共同的知识。因此，多个专家可能会在各自参数中获取共享知识，从而导致专家参数出现冗余。这些问题共同阻碍了现有 MoE 实践中专家的专业化，使其无法达到 MoE 模型的理论上限性能。

而针对上面的问题，提出了创新性的MOE架构，主要是两个对应的策略（也直接翻译）：

（1）细粒度专家划分：在保持参数数量不变的情况下，我们通过拆分前馈网络（FFN）的中间隐藏维度，将专家划分得更细。相应地，在保持计算成本不变的前提下，我们还激活更多细粒度专家，以便更灵活、自适应地组合激活的专家。细粒度专家划分能让多样的知识更精细地分解，并更精确地由不同专家学习，每个专家都能保持更高程度的专业化。此外，激活专家组合方式灵活性的提升，也有助于更准确、有针对性地获取知识。

（2）共享专家分离：我们分离出特定的专家作为共享专家，这些共享专家始终处于激活状态，目的是捕捉并整合不同上下文环境中的通用知识。通过将通用知识压缩到这些共享专家中，其他路由专家之间的冗余将得到缓解。这可以提高参数效率，并确保每个路由专家通过专注于独特方面保持专业性。DeepSeekMoE 中的这些架构创新，为训练参数高效且每个专家高度专业化的混合专家（MoE）语言模型提供了契机。

V1架构示意图：

上图中(a)表示之前的MOE架构，专家分的粒度比较粗，并且没有共享专家，图（b）是将专家粒度划分的更细情况，图（c）在图(b)的基础上增加了共享专家。

V1的MOE层计算公式：

前置参数介绍：

：共享专家的数量；

：路由专家的数量；

：第层第个token的输入；

：层专家的可学习参数，对应上篇论文的 ;

：第个token在专家上的权重分值；

：选择Top-K个专家后的分值；

可以看到最终的MOE层输出由3部分组成，分别为共享专家的输出结果，Top_K个路由专家输出结果以及残差连接。

上面公式理解上不难，延用的还是之前MOE计算思想，不再赘述了，不理解可以综合参考上篇论文中思路。

V1架构上的负载均衡

这里负载均衡优化也是为了解决（缓解）两个主要问题：(1)、负载不均衡会导致个别专家训练不充分；(2)、负载不均衡会导致专家并行时计算瓶颈。这两个问题都不难理解，上篇论文都提到了。因此，V1中负载均衡分别针对专家级别和设备级别。

1.专家级别的负载均衡损失函数

前置参数介绍：
：超参数，在主损失函数中控制专家级别负载均衡的因子；

：代表路由专家的数量；

：代表激活路由专家的数量；

：代表只是函数；

：这个批次中的总token数量；

则：

其实参照上篇论文的负载均衡损失公式可以进行辅助理解，但也存在一些区别，其中多了一个系数，对应到中相当于乘以了一个系数，这个系数实际上是为了消除不同激活专家数量对于损失函数的影响，使得最终的损失值在不同激活专家的情况下都能保持一个稳定的区间范围，不会浮动太大。

之所以系数可以使得损失函数稳定可以通过均匀分布的计算来推理，假设有个token，每个token激活的路由专家数为 ,则需要分配的总token数为，将这些总token均匀的分配给个路由专家，每个路由专家需要处理的token数量为，使用上篇论文中负载均衡损失函数可以算出

也就是说代表每个专家的拼接token数量，即

所以

对于来说其值和近似，只是为了可以微分做出的选择，但有一点，中的是 ,专家分到的token数量是，则就等于，则最终 ,最终 ,这样激活专家数量就会影响最终的loss，所以在乘以一个后会使得最终的更加稳定。

2.设备级别的辅助损失函数

设备级别的辅助损失函数很明显就是为了专家并行方案时，token过于集中在某些卡专家而设置的。

将MOE层所有的专家进行分组，分成组，，每一组放在不同的设备上，则为了平衡不同设备间负载均衡问题，损失函数为：

设备级别负载均衡损失函数与专家级别负载均衡损失函数相比更加简单，不难理解，就不再赘述。

DeepSeek-V2（DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model）

技术报告地址：

https://arxiv.org/pdf/2405.04434

DeepSeek-V2技术报告中关于MOE部分是延用了DeepSeek-V1中MOE的设计模式，并相应的进行了3点优化，优化项集中在负载均衡上。

1.设备受限的路由

我们之前提到，对于MOE层在训练或推理时会采用专家并行，不同的专家的FFN分组存放在不同的GPU设备上，但是DeepSeek-V1中提到一点，其MOE专家粒度较传统MOE粒度高很多，也就是其专家数量要很多，在V2中路由专家达到160个，如果每个token选择6个激活专家，而这6个激活专家分配在不同组的设备上，就会带来很高的通信开销，所以在V2中对于每个token的激活专家所在的GPU设备数量进行了限制，限制的数量用表示，实验发现个设备效果比较好，在实际中设备数量限制为3个，在被限制的设备包含的专家组中选择出6个激活专家。

2.通信负载均衡损失

在V1中负载损失包括两种，分别是专家级别以及设备级别的负载均衡损失函数，而在V2中新增了通信负载均衡损失函数。

前置参数：

：超参数；

：GPU设备的数量；

：受限制的设备数量（上一节）；

：一个批次的总token数量；

通信负载均衡辅助损失函数的原理与之前的类似，这里的区别之处仍是中多了个系数，增加这一项的原因与之前的专家负载均衡损失函数一致，这里不再展开推导。

这里可以思考一些上面两个优化点，设备受限的路由以及通信负载均衡损失函数都是为了针对分布式专家并行过程中的通信开销进行优化，区别在于设备受限路由保证了通信开销的上限，将所有的激活专家限制在个设备上。而通信负载均衡损失则保证在M设备上的每个专家尽可能的收到等量的token输入。

3.token丢弃策略

虽然上面对于负载均衡设置了很多优化方案，但实际过程中仍没办法做到有效的设备间负载均衡，意味着仍然存在有较多的token集中的少数几个设备上，本文最开始的时候提到过，负载不均衡就需要动态调整容量因子，如果容量因子大于1则专家是可以有buffer来存储一定的token，而如果容量因子为1，则意味着每个设备的专家没有存储计算能力以外token的buffer，这样就会造成这个token溢出，也就是在本层的MOE不再参与专家计算，直接残差链接到下一层。考虑到更加高效的MOE层计算，因此实际中必须会存在token溢出的情况，而如何选择哪些token来丢弃需要一定策略，实际策略也比较简单，每个token分发到对应的专家上都会有个分值，直接对分值进行降序排列，超过这个专家容量的token进行丢弃。一定注意这里的丢弃只是在本层MOE中这个专家不再计算此token的hidden state，不影响下一层。

以上三点是DeepSeek-V2中关于MOE的主要优化点，可以看到仍集中在负载均衡上的优化，说白了是为了高效，这一点与V3相对应，可以看出这个团队一直在追求的方向。

DeepSeek V3（DeepSeek-V3 Technical Report）

技术报告：

arxiv.org/pdf/2412.19437

V3相较于V2在MOE侧也存在了几个优化。

1.MOE层计算的变化

下面是V3的MOE层计算公式：

这里是V1,V2中MOE层的计算公式：

公式中每个字符含义不再重复介绍了，大家可以往前面翻看一下，可以很明显的看到在V3中的计算方式发生了变化，也就是门控函数发生了变化，从SoftMax优化为了Sigmoid，至于为什么要这么做，论文中并未提及，以下是个人的一些猜测，不保证正确。

首先V3的模型远大于V2，V3的每层MOE中有256个路由专家，8个激活专家。但V2中只有160个路由专家，6个激活专家，从参数上就可以发现V3的门控函数计算量远大于V2，大家也都清楚当计算维度变大时SoftMax的前向和反向是很耗费计算资源的，而Sigmod直接将数值映射到［0,1］之间，相对来说更加简单。可能实现效果也类似，因此为了更加高效的训练从而进行了替换。

2.无辅助损失的负载均衡

从V1到V2可以发现DeepSeek使用了多个辅助的负载均衡损失来降低通信开销并提升训练的稳定性，包括专家级别、设备级别、通信级别，但是这些负载均衡损失加到主损失函数后势必会影响主损失函数的训练效果，从而影响模型的最终训练效果。但没有辅助的负载均衡损失又会造成通信开销可训练的不稳定，在这里V3提出了一种新的平衡策略，丢弃到之前所有的辅助负载均衡损失，在每个专家计算时增加一个偏置项 ,将这个偏置项添加到上面V3的MOE层计算公式中后面，也就是专家对于token亲和值权重上：

这里的偏置项是一个可学习的参数值，每个专家都有一个对应的偏置项，这个值只用于对路由选择本专家进行控制，并不参与其他运算。

另外训练中还有一个超参数，当对应的专家负载过高时，会让这些专家的偏置项减去，这样路由到这些专家的token会减少，当有的专家负载过低时，会让这些专家的偏置项加上，从而增加token路由到这些专家的概率。

通过实验发现，通过这种方法比之前复杂的多种辅助负载均衡损失训练过程中负载均衡的效果更优。

3.互补序列层面的辅助损失

这个标题名字是直接翻译的，读起来不知道在说什么，实际上是因为之前丢弃了所有的辅助负载均衡损失，使用一个偏置项来平衡负载效果虽然好，但为了防止任何单个序列内出现极端不平衡的情况，从而采用的一种辅助损失函数的方法，这个辅助损失只针对一个样本或者说一个序列中的token。

序列级别辅助负载均衡损失函数：

这里序列级别辅助均衡均衡损失中的与上面V1中专家级别的辅助损失均衡中的不同，这里指的是一个样本序列，而V1中的专家级别则是一个batch中的所有token，两者粒度上不同，这里粒度更细一些。

4.设备受限的路由

这一点是沿用了V2中的设备受限路由，最多选择个设备中的专家进行路由，通过这个策略可以做到通信与计算的重叠。

5.不再使用token丢弃策略

在V2中虽然使用了多种辅助的负载均衡损失函数，但实际训练中都没有达到很好的负载均衡，而在V3中训练中通过引入偏置项来控制路由的策略，以及序列级别的token辅助负载均衡损失有效的使得整个训练过程负载均衡，从而不再寻token丢弃的策略。

OK，以上是4篇论文中关于MOE部分的笔记整和，内容上比较庞杂，希望串联起来可以对读者理解MOE有一个比较完整的脉络，顾拜！！！

#笑死，人形机器人运动会全是鬼畜名场面

这锅粥大家来趁乱喝了吧

天啊，首届人形机器人运动会，现场乱成一锅粥了。

宇树机器人勇夺1500米长跑金牌，但撞人还逃逸了（来自抖音@宅生同学）。

，时长00:10

摔得一片狼藉就算了，好不容易靠自己鲤鱼打挺站起来的机器人，还被救场的人类一扒拉又摔倒了。

机器人OS：算了，摆烂吧。

队内突然开始抢球，捎带着队友和对手，全部摔倒滚在一起。

拳击手突然倒地，你以为是意外，其实是专门设计的嘲讽小连招——那年我双手插兜不知道什么是对手。

还有长跑的宇树，马上要套圈对手了，它突然减速开始在场子里乱转圈，引得全场哄堂大笑。

以及你从未见过的兵马俑机器人，秦始皇看了也得直呼“额滴神啊”。

预料到机器人办运动会热闹，没想到会这么热闹。这谁看了能不乐？

而且现场解说也完全不一样了，不再是各种体育领域的专业词汇，反而什么端到端啊、视觉识别、神经网络成为解说重点。

没想到体育解说现在也要补AI知识了（doge）。

今天是首届人形机器人运动会第一天，在国家速滑馆内，正有数百个人形机器人（可能一半都是宇树的机器人）在进行各种竞技比赛，比如跑步、足球、拳击、舞蹈、武术以及工业场景应用等等。

这么盛大的赛事，我们也来围观了一把，看热闹同时也瞅瞅这几个月人形机器人搞竞技，有哪些进展。

机器人也有明星球员

我们围观的是足球5V5小组赛，对战双方是北京信息科技大学光炽队VS清华大学未来实验室普瓦智能。

双方使用的机器人本体相同，差别主要在各自的算法设计。

机器人球员全场都凭借实时计算来进攻、防守、相互配合。全场10个机器人之间都要相互识别，判断队友和敌方，然后做出策略。

现场的比赛一直相当激烈，经常出现好几个球员挤在一起拼抢的情况。

这也和机器人传球传不远有关系，很容易大家挤在一起。

大家也有各自的策略，比如在下面这段，红队球员就采用了足球5V5比赛中经典的“二二站位”，前后各有两名球员平行站，形成一个方形的阵容。

但是这个还是被蓝队球员攻破了，蓝方球员带球通过，冲向球门。不过射偏了，有些遗憾，解说员们也是异口同声发出叹息。

如果身体碰撞导致摔跤，一些情况下球员能自己鲤鱼打挺站起来继续比赛。

前半场里，蓝队球员一直在前场进攻，红队偏于防守。

比如红队球员犯规把球踢出界外，发边线球时它会主动后退遵守规则。

续航支持几个小时的比赛都是OK的，解说表示，这个和电动汽车不一样，都在场地里不需要跑很远，即使没电也可以现场充，所以不需要很长的续航里程。

普通的身体碰撞对机器人也不会造成很大影响。以及机器人的脚也没有定制，和常规的一样，不用像人类一样还要穿专业足球鞋。

在这场比赛中，明星选手是蓝队1号球员，为蓝队3次进球。解说分析，可能是在训练时就重点训练了1号机器人的算法。

动作上也透露出了很多细节，1号球员的脚和球接触位置通常都比较正，红方运动员拦截的时候没有选择直线路线，一直在绕，等它转身回来的时候，蓝队这边已经出击了。

值得一提的是，红队选手在下半场的表现明显更好，都有反转的迹象。这有点超出一般认知，毕竟机器人踢球主要是看算法，算法好的理论上就会一直领先，但从结果来看，在人类足球比赛中经常上演反转大戏，在机器人这也不是没可能。

现场解说表示，机器人在每次上场比赛都意味着进行一次实地学习，这可能对它也会有所影响。

当然了，现场乱子也是相当多的。

守门员也不管球门了，直接冲向中场加入战斗。前面还在踢，后面已经摔成一片。

又或者是队内突然互相较劲，蓝队两个球员自己相互推搡，顺便带倒了隔壁的红队球员。

这种情况可能是两个球员都识别到了足球，想要去踢球，但是后面的球员忽略了自己前面有人，于是就翻车了。

还有就是在现场突然尬住，也不知道是大脑在进行精密计算，还是仅仅只是卡住了。

比赛规则为机器人量身打造，除了进球次数，还要算人工拖下场的次数。所以这一回最忙的不是担架，因为就没有担架。

球场上的裁判及工程人员统一不能穿白鞋，怕影响机器人识别场地边界线。

最后，光炽队以4:2比分赢得整场比赛。

机器人拳击手已经会嘲讽了

激烈的足球比赛后，是更激烈的拳击比赛。

我们围观的是北航致远队对决北邮/中矿大联队，他们用的都是宇树机器人，据解说介绍8支队伍都选择了宇树。

机器人拳击的规则是简单打击算1分，飞腿这种重打击记3分，把对方击倒地10秒没能自主站立起来记10分。一共三回合，三回合积分持平则加时。

一开场，两方拳手就猛猛出击。粉方一个扫腿直接命中躯干。

黑方也快速识别对方膝顶，一个完美闪避。

随着比赛进行，黑方好像丢失了目标，变成熊瞎子开始对着空气猛猛进攻。

后面它也被粉方选手击倒在地，本来以为它这一回合就要输了，结果在数到9的时候，它突然一个机灵压哨站了起来，戏剧效果拉满。

然后又是双方一段精彩互攻，最后以粉方失去重心倒地10秒结束这一回合。

解说也补充说，机器人拳击比赛最重要的就是保持重心。

最后这局比赛以75:87比分结束。解说分析，黑方是以重腿攻击为主，粉方是近距离打点得分，双方策略不同，黑方在后段比赛中得分优势更明显。

由于它们是没有内置大模型的，所以也听不懂裁判最后的颁奖环节。

解说现场还调侃，赢的机器人奖励一次保养，刚好北京有机器人4s店。

最好笑的是，最后赢家还来了套丝滑的嘲讽小连招，拍屁股+倒地，“那年我双手插兜不知道什么是对手”。

One More Thing

就在大家都用宇树机器人比赛的同时，宇树自己默默拿了个第一：以6分34秒的成绩取得1500米田径第一名，系本次大会首金，也创造了世界纪录。

不过就是感觉给咱工程师老哥也累够呛。

，时长01:51

现场王兴兴采访时表示，这款人形机器人也是今年春晚给大家扭秧歌的那一款。

另外，今天只是比赛第一天，一共有3天赛程。比赛的项目还有武术、篮球、舞蹈以及工业场景等。

感兴趣的大家可以去围观~

#大模型时代，普通人的科研上限在哪里？

资源匮乏的普通研究者如何在门槛骤降、赛道拥挤的大模型时代自处？答案在于跳出标签、自己定义问题，把经典机器学习与社会现象嫁接到新场景，用独特 idea 而非算力突破科研上限。

最近，GPT-5这一曾被寄予厚望能实现AGI的模型发布了。我当时看发布会后，很"满意"其并不出色的表现，并且还在社交网络上写下“感谢OpenAI没有杀死我们的研究方向”。但是，我的研究方向是什么？

你的研究标签是什么？

在ChatGPT之前，我大可轻松坦言：我做迁移学习、机器学习等一些涉及到模型鲁棒性的问题，故我的标签便是“迁移学习”。但是今天来回答此问题，那我得说一大串名词出来：大模型评测、后训练、agent、AI在社会科学的应用、对齐、强化、传统机器学习+大模型，等等，总之就是，所以不需要与训练耗资源的研究，我都可以做。所以，我变成了一块砖，哪里需要哪里搬？我的标签模糊了？

作为一个身上有着多重标签的普通年轻学者，太容易被认为“灌水”、“不务正业“了。我变成了一个”科研投机分子“，什么时候想到了一个”绝妙的想法“，什么时候就让学生去做。我是一个喜欢想东西的人，所以经常会有千奇百怪的想法（这也是为什么更愿意到学校做更自由的研究的原因之一）。

诚然，我们确实在上述多个方面均有成果产出，并且文章的引用和影响还不错，可以“堂而皇之”地说我就是做这个领域的；又或者，我们确实可以用一个更高大上的主题来将所有方向包装起来，如“让大模型变得更可靠”、“理解并提升大模型”。但我想问一个问题：我们的核心竞争力是什么？

2023年我写了一篇《大模型时代，普通人的科研何去何从》的文章，提出了没有巨量计算资源时可以做的一些研究方向，也收获了大家的赞同。2年之后的今天，我想再进一步问：大模型时代，普通人的科研上限在哪里？

所谓上限，便是指你现在的研究方向一直做下去，最好的结果是做出什么？ 比如大模型评测，那么，你期待能做出什么样的评测系统来终结或统一这一领域的研究？比如做多智能体，你期待能构建出什么样的智能体来足够解决大多数问题？

很遗憾，我无法回答这个问题。我们从2年前开始做评测问题，发过评测协议(ICML’24, ICLR’24)、综述文章(3000+引用)、评测代码框架(PromptBench)、评测Tutorial (AAAI’25, CVPR’25)，看上去挺丰富的，对吧？但是我们真正解决了什么问题？并没有。显然，我把原因归咎于我们的工作尚且不够完美。

大模型给科研带来的新变化

大模型的蓬勃发展使得科研准入门槛进一步下降，做研究、写代码、写论文、投论文、审稿，均变得更加容易了。与此同时，也使得普通科研人员的界限一下子模糊起来，因为绝大多数研究人人都能做，并不存在过去那种某一领域被某些人垄断的情况。很多方向都变得不再存在；又有很多人都开始做相同的方向。比如我在本文一开始提到的我正在做的那些方向，几乎没有门槛。大模型的存在让“专家”一词变得更贬值了。

大模型的蓬勃发展使得学术界和工业界的差别更大了。 绝大多数学术界均没有海量资源去研究模型训练中的问题，而仅是依靠工业界和超级实验室开放出的模型做下游任务。下游并不可怕；真正可怕的是，不知道在海量资源面前，自己定义的下游任务是否真的存在？又或者是，在海量资源面前，我们正在面临的所谓“研究挑战”，根本就不是问题。比如，我们一直说由于数据不足的问题要开发数据生成算法让大模型更对齐某个小领域；但在大公司面前，“数据不足”似乎并不是一个问题。

大模型的蓬勃发展使得工程在科研中越来越重要。 尽管Cursor等AI编程工具已变得广泛使用，但如何高效、正确地编写代码、组织项目，成为了科研能力中更加重要的一环。相比过去研究理论和算法时仅需对某些固定框架小修小补，现在的研究变成了以工程为导向的科研：算法和理论变得没有那么重要，反而是平台、框架、大量实验占的比重越来越大。顶会论文的附录正变得越累越长，动辄几十页的附录中的诸多实验结果或许并无人细看。工程能力的重要性也体现在“手速”上，可能今天你想到的idea还没做，过几天就在arXiv上看到了别人做的同款。

大模型的蓬勃发展使得“idea”变得更重要了。 这很容易理解：因为没有巨量资源、没有大团队，我们不能和别人在正面战场硬刚；我们必须找好问题角度、提出自己的研究小方向。唯有如此，小科研团队才可以生存。比如，在大多数研究围绕着微调模型时，我们从23年起便开辟了“灾难继承”这一方向，研究噪音、偏见等不可见的上游训练数据是否会给下游任务带来影响。此小领域在不到2年时间里，帮助我们收获了ICLR和NeurIPS的spotlight、TPAMI的长文（这些文章均是首次投稿即中）并且也收获了一些引用。因此，更适合小团队的打法是想出有趣的idea，而非在主流赛道上和大团队硬拼，不然会变得非常难受。回过头来想，学校的科研环境是最适合小团队作战的；工业界天然适合大团队攻坚。

大模型的蓬勃发展使得科研人员更加筋疲力尽了。 在这万象更新的时代，我们见证着ChatGPT月活几亿人、自己也在每天用着这些工具加速科研进程，那为什么感觉更累了、工作时间更长了？这其中当然有学习和理解新知识的无所适从，而更多的则是对自己科研目标的不确定和悲观。因为科研门槛降低了、工程能力也可以有大模型来弥补，如果我们再不抓紧，那留给我们的研究不多了。所以，AI真的改变了我们研究人员的生活：让我们更累了。

如何提升科研上限？

好了，现在来回答这个问题：大模型时代，普通人的科研上限在哪里？在此我仅分享自己的一些观点，供大家参考。

自己定义研究问题，而非盲从已有文章。 承接上文”idea“更重要的描述。大模型创造了一个百花齐放的时代，有太多的问题还没有被很好地研究。比如，虽然大模型评测是如今最炙手可热的方向之一，但此方向依然可以推陈出新：别人做某领域的LLM评测，你就去想想有没有VLM可以做；别人靠收集大量数据来构建benchmark，你就想能不能自动生成评测数据。总之，要比别人多想一步、多扩展一步，这样你就能定义一个自己的研究领域、发表某领域的第一篇文章。
多从社会现象中找寻研究问题。 大模型的核心是庞大的预训练数据，而这些数据的绝大多数均是由人和自然产生的。因此，人和自然界中存在的问题，模型多半也有。大模型之前我们研究的长尾问题便是一个经典的自然界问题；大模型时代，人、社会、自然界中依然存在着很多问题等着我们去发现、然后迁移到大模型上。
经典机器学习研究嫁接于大模型场景。 深度学习爆火时，有人认为不应该再投入时间到传统机器学习；大模型时代，我们还需要研究经典机器学习和深度学习吗？当然需要。经典的问题场景、理论等为我们开辟新赛道、研究新问题，提供了无穷的可能性。如果你自己找不到研究新问题，那就去看传统的教材和课程吧。本人最近在准备下学期要讲的《Generative AI》课件时再翻看传统机器学习材料，也有一番收获。
多与不同领域的研究人员交流合作。 这一点我在之前文章中也有提到，因为大模型使得科研和应用门槛大大降低，便得非计算机人员也可以快速使用和部署模型了。我们多与不同领域的人接触，便有机会能从他们那里了解最新的使用情况和可能存在的问题，方便我们日后抽象成自己的研究问题。当然，如果能和跨学科人员一直合作，带来的裨益将是更大的。

最后，来回答这个问题：你的研究方向是什么？我想，做为一个研究者，我不应该执着于某一标签，而是应该以开放平等的心态来开启和拥抱新的研究方向。永远保持好奇心、永远向前看，这可能是做科研的魅力吧？

#QoQ，W4A8KV4

大模型轻量化系列解读｜压缩不牺牲性能！Qserve：W4A8KV4 如何让 LLM 量化再进化？

本文提出了一套全新量化算法（QoQ，即 W4A8KV4）和系统配套优化，实现了云端 LLM 推理的进一步加速和成本大幅降低。

大语言模型服务的最佳量化设置：W4A8KV4 量化及其完整实现方案。

量化方案：

Activation： Per-channel Symmetric INT8 量化

KV cache： Per-token Asymmetric INT4 group 量化

Weight： 渐进式组量化：先进行 Per-channel Symmetric INT8 量化，再进行 group=128 的 Asymmetric INT4 量化。

现有的 LLM 量化方法分为 3 种：W8A8：8-bit 权重，8-bit 激活，W4A16：4-bit 权重，16-bit 激活，W4A4：4-bit 权重， 4-bit 激活。前两种方法可以认为是精度几乎无损的。只有 W4A4 量化会导致精度下降，尽管这种方法被期待能提供更高的吞吐量。但是在当前 GPU 平台上，这种预期的性能提升没法实现。因此，优于 W8A8 或者 W4A16 的方案目前仍处于理论中。

本文给出了一个观察：当前的 4-bit 整数量化方法，在 GPU 上权重的反量化或者 partial sum 会很费时。比如 W4A16 量化，其权重是 INT4 格式，在 TensorCore 上以 FP16 精度计算。那么就需要在 GEMM Kernel 里进行反量化。再比如 W4A4 量化，为了精度够用，就必须对权重和激活使用 per-group 量化。比如 QuaRot[1]，如果把 per-group 量化换成 per-channel 量化就会带来 0.2 的 perplexity 下降。per-group 量化需要反量化成 FP16 (因为 INT4 数值 partial sum 的结果是 INT32)，这个反量化的过程在更慢的 CUDACore 上进行。基于上述分析，降低 CUDACore 的开销才是实现 LLM 服务最佳吞吐量的关键。这也是本文提出 W4A8KV4 量化的原因。

在 W4A8KV4 量化中，本文提出渐进式组量化的方法，先把权重使用 FP16 scales 量化为 INT8，再量化到 INT4。这种方法确保所有 GEMM 都在 INT8 TensorCore 上执行，速度快。本文还提出 SmoothAttention，降低 KV4 的精度损失。方法是：把量化难度从 Key 转移到 Query，而 Query 并不会做量化。

在 QServe 系统中，执行计算感知的权重重新排序并利用寄存器级并行性来减少反量化的时延。作者还利用了 KV4 量化带来的性能增益，使融合的注意力是 Memory bound 的。

QServe 在 A100 上将 Llama-3-8B 的最大可实现服务吞吐量提高了 1.2 倍，在 L40S 上提高了 1.4 倍；与 TensorRT-LLM 相比，Qwen1.5-72B 在 A100 上提高了 2.4 倍，在 L40S 上提高了 3.5 倍。值得注意的是，L40S GPU 上的 QServe 在 A100 上实现了比 TensorRT-LLM 更高的吞吐量。因此，QServe 有效地将 LLM 的美元成本降低了 3 倍。

图1：与 A100 上的 TensorRT-LLM 相比，QServe 在 L40S 上运行 Llama 模型时实现了更高的吞吐量，通过系统算法协同设计，有效地节省了 LLM 的美元成本

1 Qserve：高效 LLM 服务的 W4A8KV4 量化与系统联合设计

论文名称：QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

论文地址：https://arxiv.org/pdf/2405.04532

1.1 LLM 和量化的背景

大语言模型

大语言模型（LLM）是一类具有多层的 Causal Transformer 模型。每一层都结合了 Attention、FFN 和归一化层。每层的输入是一个张量，其中是输入 token的数量，表示注意力头的数量，是每个头的隐藏维度。LLM 服务包括 2 个阶段：预填充（Prefilling）阶段，其中所有提示 token 同时呈现（每个请求），解码（Decoding）阶段，其中模型每次只处理 1 个 token（每个请求）。

在 Attention Block 中，首先进行线性投影以获得，其中是 Key 或者 Value head 的数量。在标准的多头注意力（MHA）中有。将与 KV cache 中预先计算的个 token 拼接起来以获得，并使用以下公式计算注意力：

结果与输出投影矩阵相乘，并将乘积添加到中作为 FFN 的输入。 FFN 由线性投影层和激活函数构成，它则不混合 token 间的特征。

量化

整数量化将高精度数字映射到离散级别。该过程可以表述为：

其中，是浮点数张量，是 n －bit 量化结果，是 scaling factor，是 zero point。因此，反量化张量可以表示为：

以上这些称为非对称量化（Asymmetric Quantization），其中，和用于整数量化。式 2可以进一步简化为对称量化（Symmetric Quantization），其中和。

本文将 LLM 中的位 weight，位 activation 和位 KV cache 量化表示为 WxAyKVz ，如果，则使用缩写符号 WxAy。除了位精度外，量化还可以应用于各种粒度。

Per-tensor 量化： 在整个 Tensor 之间共享和。

Per-token activation 量化，Per-channel weight 量化： 意味着和在 Tensor 的每一行之间共享。

Per-group 量化： 通过在每一行中的每列使用不同的和进一步降低了参数共享的程度，其中是组数。

1.2 为什么 LLM 服务一定要做 W4A8KV4 量化？

W4A8KV4 量化指的是对 weight，activation，KV cache 分别使用 4-bit，8-bit，4-bit 低精度数值表示。

量化 weight 和 KV cache (如 W4KV4)： 可以减少 LLM 服务中的内存占用。

量化 weight 和 activation (如 W8A8)： 可以提高峰值计算吞吐量。

因此，为 LLM 的部署选择正确的精度是一项艰巨的任务。现有的解决方案可以分为 3 类：W4A16 (per-group)、W8A8 (per-channel weight + per-token activation)、W4A4 (per-group)。那为什么 W4A8KV4 是一个更好的选择呢？

图2：左：Attention 和 GEMM 对于端到端 LLM 延迟都至关重要。右：尽管理论峰值性能提高了 2 倍，但 W4A4 系统的效率显着落后于 TRTLLM-W8A8

图3：LLM 服务在 A100 GPU 的屋顶线：对于 GEMM 层，W4A8 屋顶线在不同的 Batch Size 下同时支配 W4A16 和 W8A8。对于 Attention 层，4-bit 量化提高了理论峰值性能

1) W4A8KV4 比 W8A8、W4A16 有更好的屋顶线 (Roofline)

作者通过屋顶线分析开始探索。A100 的峰值 FP16/INT8/INT4 Tensor Core 性能为 312/624/1248 TOPS，DRAM 带宽为 2 TB/s。也就意味着 A100 GPU 每秒最多执行 312T 次 FP16 乘法运算，或者 624T 次 INT8 乘法运算，或者 1248T 次 INT4 乘法运算，每秒最多搬运 2T 字节的权重数据。

先来看图 2(a)，考虑一段真实世界的对话，输入 token 数 1024，输出 token 数 512，此时 Attention 和 GEMM 在 LLM 部署中占据绝大部分的运行时间。而且，decoding 阶段的运行时间大约是 prefilling 阶段的 6 倍。因此，要重点分析 decoding 阶段的 Attention 和 GEMM。

我们考虑一个的 GEMM 运算（比如维度是维度是），其计算密度（MACs／element）约为（在远大于时）。这种情况比较适合 LLM 解码阶段，因为是 sequence 维度，是 channel 维度。

根据图 3 中的 A100 屋顶线，当时，W4A16 有更高的理论吞吐量，而当时 W8A8 表现更好。当输入 Batch Size 较小时，LLM 中的 GEMM 是 Memory－bound 的， Memory Bandwidth 以权重流量为主。因此，W4A16 把权重量化为 4－bit，使得内存占用较小，性能较好。但是，当很大时，GEMM 就变为了 Computation－bound 的。因此， W8A8 由于 INT8 Tensor Core 的吞吐量更高，速度更快。

因此，直观地讲，我们可以期待 W4A8 能够对于不同的 Batch Size，结合 W4A16 和 W8A8 二者的优势。这一点在图 3 中看得很清楚，只要我们可以使用 INT8 张量核上执行矩阵计算。

2) 为什么要 KV4？

在 LLM 解码中，无论 Batch Size 大小如何，Attention 的工作负载都可以看成一系列的 GEMV 操作。GEMV 操作的计算强度为 1 MACs／Element，因为可以视为。根据下式 1，内存流量主要是受 KV cache 影响，因为每个序列的。量化 KV cache 可以被视为有效地增加了 Memory Bandwidth。因此，KV4 在 KV8 上为注意力提供了 2 倍的峰值性能。而且，这种改进提供了不错的端到端加速机会，因为注意力在图 2（a）中占 batch＝64的总运行时间的以上。

3) 那为什么不做 W4A4KV4？GEMM 中的主循环开销

一个自然而然的后续问题是：**"为什么我们不选择更积极的 W4A4？"** 当 m (输入序列的数量) 超过 78 时，W4A4 开始获得更好的理论 GEMM 性能，因为 4-bit TensorCore 的性能是 8-bit TensorCore 的 2 倍。但是，除了显著的精度下降外，在现有的 GPU 架构 (Ampere 和 Hopper) 上无法实现这种理论的性能提升。如图 2(b) 所示，现有的 W4A4 服务系统 Atom[2]和 QuaRot[1]甚至比 TensorRT-LLM 的 W16A16 解决方案还要慢很多。

虽然原因也可以解释为这 2 个系统中的运行时间效率低下，但之前的文献中忽略了在 GPU 上映射 per－group 量化 W4A4 GEMM 的固有困难。最先进的系统实现的 GEMM TensorCore 的数据流如图4所示。对于的问题，每个线程块通过顺序遍历 reduction 维度来计算输出块。这个顺序循环称为主循环（main loop）。主循环超过 100 次迭代，并主导了 GEMM kernel 的运行时间。

图4：m×n×k GPU GEMM 说明：m, n为平行维数，降维维数 k 为顺序主循环。LLM 服务中，m 很小，n, k 很大。因此，主循环很长

在 FP16 和 W8A8 GEMM (图 5) 中，主循环完全在 TensorCore 上执行。

图5：GPU 上的量化 GEMM：W8A8 速度很快，因为它的主循环仅包含 TensorCore 操作，并且所有反量化操作都存在于 epilogue

TensorRT-LLM-W4A16 (图 6) 和 Atom-W4A4 (图 7) 都需要在主循环进行反量化操作，在 CUDACore 上完成。W4A16 需要 INT4 到 FP16 权重转换，而 Atom-W4A4 需要 INT32 到 FP32 部分和转换和累积。Atom 的主循环的反量化过程有两个实质性的效率瓶颈。其一，在 A100 和 H100 等现代数据中心 GPU 上，FP32 CUDACore 的峰值性能仅为其 INT4 TensorCore 的 2%。也就是说，对 Atom 的 partial sum 进行 1 次反量化操作相当于 50 次 TensorCore MACs。因此，主循环主要由缓慢的 CUDACore 操作主导，而不是快速的 TensorCore 操作。其二，Atom 创建了两组寄存器 (一个用于 FP32，一个用于 INT32) 来保存部分和。较大的 GEMM (比如 prefilling 阶段) 在 GPU 上通常是 register-bound 的，导致存储部分和的高寄存器消耗。需要注意的是，GPU 依赖大量 in-flight warps 之间的低成本上下文切换来隐藏延迟。因此，较少数量的并发执行的 warps 限制了延迟隐藏的机会，进一步加剧了主循环开销。

图6：GPU 上的量化 GEMM：TensorRT-LLM-W4A16 的主循环中会遭到显著的部分和或者权重反量化开销

图7：GPU 上的量化 GEMM：Atom-W4A4 的主循环中会遭到显著的部分和或者权重反量化开销

作在图 8 中预览 QServe 的 W4A8 per-group 量化的 GEMM Kernel 设计。采用 2 级渐进组量化方法来确保所有计算都是在 INT8 TensorCore 上执行的。此外，应用 4 路寄存器级并行来同时解码 4 个 INT4 权重，进一步减少主循环开销。

图8：GPU 上的量化 GEMM：由于 2 级渐进量化算法，QServe-W4A8 通过引入寄存器级并行来减少主循环反量化开销

为了在不影响 LLM 性能的情况下释放 W4A8KV4 的全部潜力，本文提出了具有渐进式组量化、SmoothAttention 和各种一般量化优化的 QoQ 算法。

1.3 渐进式组量化：先量化到 8-bit 再量化到 4-bit

组量化 (Group Quantization) 常被用于提升低比特量化的精度。但是反量化的 overhead 也会一票否决组量化带来的性能提升。因此，本文针对的就是这一点，希望给出一个不太增加反量化 overhead 的组量化解决方案，即：渐进式组量化 (Progressive Group Quantization)。

给定权重 Tensor ，首先使用 per-channel symmetric INT8 量化。

其中，是 INT8 量化后的 weight Tensor（8－bit），是 channel－wise 的量化的 scale 参数（16－bit）。

然后，作者进一步在中间权重张量上使用 Per-group Asymmetric INT4 量化：

其中，是 INT4 量化之后的 unsigned weight Tensor（4－bit），是 INT4 group－wise 量化的 unsigned zero point（4－bit），是 INT4 group－wise 量化的 unsigned scale（8－bit）。

对于 W4A8 GEMM 计算，首先将 4－bit 量化之后的 weight Tensor 根据式 5 反量化为 8－bit weight Tensor ，然后进行 INT8 矩阵乘法，就好像它是 W8A8 的 Per－channel量化一样。

a) 保护量化范围

直接应用式 4 和 5 并不能保证中间的反量化权重完全位于 8-bit 整数的表征范围内。例如，INT8 量化之后，一组 8-bit 权重位于 [−113,120] 中。4-bit 非对称量化的 scale factor 为：⌈(120− −113)/(15−0)⌋ = 16，zero point 为：⌈0− −113/16⌋ = 7。因此，值 120 会被量化为 ⌈120/16 + 7⌋ = 15，再被反量化为 (15−7)×16 = 128，超出了最大的 8-bit 整数 127。一个简单的解决方案是在反量化过程中打开算术指令中的 saturation 选项。但是，简单地应用 saturation 会严重损害计算吞吐量，将速度降低高达 67%。

作者提出保护量化范围的做法，动机是假设 INT8 到 unsigned INT4 量化的这步的：

scale: , zero point:

这步量化和反量化过程可以写成：

那如果我们希望反量化的结果在 [−128,127] 中，则反量化之前的 INT8 量化这一步的量化结果的范围就应该在 [−119,119] 中，避免反量化的溢出。这个过程如图 9 上方所示。

图9：上：渐进式组量化首先进行 Per-channel INT8 量化，到保护范围 [-119, 119] 中，以便反量化的中间值保持在 INT8 范围内进行计算。然后，进行 Per-group INT4 量化。下：之前方法对 weight 应用 Per-group INT4 量化，再对 scale 使用 per-channel INT8 量化，反量化中间结果可能超过 INT8 范围了

b) 与之间的量化相比

如图 9 下方所示，之前的方法直接应用目标精度的 Per-group 量化，然后对 group-wise 的浮点 scaling factors 进行 Per-channel 量化。因此，反量化的中间结果可能超过 INT8 的表示范围，需要进一步反量化到浮点值去计算。

1.4 SmoothAttention：把量化难度从 Key 转到 Query

作者在图 10 中可视化了采样 Key 和 Value cache 的 activation 幅值的分布。观察到：Value 矩阵没有显著的异常值，而 Key 矩阵往往在每个 head 具有固定的异常值通道。 这些异常值比大多数激活值大约 10 倍。虽然它们可以很容易地被先前的工作 SmoothQuant[3]中的 KV8 量化来处理，但对于 KV4 量化而言依然是具有挑战性。

图10：SmoothAttention 有效地平滑了 Key 中的异常值，而 Value 不会受到异常值的影响

受 SmoothQuant[3]的启发，本文提出了 SmoothAttention，通过 Per-channel 的 factor 缩小了 Key cache 中的异常通道：

SmoothQuant 将量化难度从 activation 迁移到 weight，因此需要通过搜索迁移强度在激活和权重量化之间进行专门的平衡。相比之下，由于不量化 Query，因此只需要专注于 Key，简单地选择 SmoothAttention scale factor 为：

在实践中，已经足够好。如图 10 所示，SmoothAttention 之后，Key cache 中的异常值被大大平滑。

为了消除 SmoothAttention 缩放的额外 Kernel 调用开销，首选将 scale 融合到前面线性层的权重中。然而，现代 LLM 将旋转位置嵌入（RoPE）应用于 Keys 和 Query，就需要额外的处理。实践中，RoPE 对通道与每个头部内的通道配对。因此，为了使 SmoothAttention 适配 RoPE，作者添加了一个硬约束：

之后，可以轻松地将 scale 融合到前层的权重中：

1.5 其他 LLM 量化优化方案

a) 对输入作 Rotation

在 Transformer Block 中，定义 input module 为每个 Block 的输入所参与的那个组件，比如 QKV 的投影层或者 FFN 的第 1 层。受 QuaRot 等的启发，如图11所示，作者给 Block 的 input activation 乘以一个 Rotation 矩阵。旋转之后，每个 channel 的激活值就变成了所有其他通道的线性组合，从而有效地抑制了 outlier channel。

为了保持线性层的数学等价性，为相应的权重相应地乘以相反方向的旋转矩阵。由于旋转是酉变换，可以将旋转矩阵与之前的线性层的权重融合。简单地选择缩放的 Hadamard 矩阵作为旋转矩阵。

图11：对输入作 Rotation 来抑制异常值：由于旋转是酉变换，旋转矩阵 Q 可以被前一个 Block 中输出模块的权重所吸收

b) 对输出作 Smoothing

定义 output module 为每个 Block 生成输出的那个组件，比如 Output 的投影层或者 FFN 的第 2 层。受 SmoothQuant[3]的启发，作者对 Block 的中间激活乘以一个逐通道的平滑因子来达到 smoothing 的效果。原始的 SmoothQuant 不会平滑 Block 的中间激活。而且，如果直接使用与 input module (比如，q_proj、up_proj) 具有相同的迁移强度，则 Llama-2-7B 模型的评估的 Wikitext-2 困惑度将下降多达 0.05。在实践中，作者发现迁移强度 \alpha 应该接近 0。也就是说，平滑因子 \lambda 主要由权重决定，而不是激活决定，这与 SmoothQuant 的观察结果非常不同。

图12：Smooth Block 的中间激活值，将量化难度迁移到权重：由于 smoothing 通道独立，平滑矩阵 Λ 是对角矩阵，可以被前面 Block 的权重吸收

c) Activation-Aware 通道重新排序

Atom[2]和 AWQ[4]都观察到将一些重要的权重 (salient weights) 维持在 FP16 可以提升模型精度。这些 salient weights 可以通过 activation 的分布来识别。作者使用激活感知通道重新排序。使用 \max\left(|\mathbf{X}|\right) 来确定权重 channel 的显著性，然后重新排序通道，使具有相似显著性的通道在同一个量化组中。

比如图 13 中，对上方权重进行重新排序了，依据是下方激活值。激活值 9.2 的那个 weight channel 排第 1，对应的 weight (0.6 ... 0.5) 放在最左侧第 1 列。激活值 5.0 的那个 weight channel 排第 2，对应的 weight (-0.5 ... -0.6) 放在最左侧第 2 列。

图13：基于在 Group 量化中的显著性对权重的 channel 重新排序。channel 的显著性由 input activation 的幅值决定

d) 权重裁剪

权重裁剪（Weight Clipping）是一种流行的量化优化技术。它将 Clipping ratio 应用于式 2的动态范围，让和。之前的 QuaRot ， Atom ，AWQ ，GPTQ 等方法通过 grid search 搜索，以最小化量化误差或者输出均方误差。

在 QServe 里，最小化所有线性层的层输出误差：

1.6 Qserve 系统 Runtime

以上是 QoQ 量化算法，旨在最小化 W4A8KV4 量化引起的精度损失。然而，实现图 3 中的理论吞吐量优势仍然很有挑战性。因此，下面介绍 QServe 的系统设计，它由两个重要原则指导：1) 减少 GEMM kernel 的主要循环开销。2) 使融合的 Attention Kernel Memory bound。

图14：QServe 在 FP16 in FP16 out 的 LLM Block 的精度映射。所有 GEMM 操作符都采用 W4A8 输入并产生 FP16 输出。激活量化发生在归一化层和激活层中

QServe runtime 如图 14 所示，QServe 中的所有 GEMM 都在 W4A8 上运行，在 INT8 TensorCore 上执行计算并生成 FP16 输出。所有注意力层在 CUDACore 上执行 FP16 的计算。因此，QServe 中的每个 LLM 块都有 FP16 输入和 FP16 输出。

激活值量化

为了确保每个 GEMM 都接受 INT8 激活，作者将激活量化融合到 QKV 投影和第一个 FFN 层的前一层 LN 中，或者第 2 层 FFN 的 activation kernel。然后，在 Attention 的 Output 投影之外加入一个单独的量化节点。

KV 缓存管理

为了避免内存碎片，作者遵循 vLLM[6]和 TensorRT-LLM[7]采用 paged KV caches。与在 KV cache 上执行 Per-tensor 静态量化 (离线计算的比例因子) 的这两个框架相比，QServe 需要每头动态 KV 量化来保持由于较低的位精度。因此，在每个 KV cache 页面中紧跟量化 KV 特征之后存储每个 head 的 FP16 scale factor 和 zero point，从而允许这些值的即时更新。Qserve 也支持 in-flight batching，类似于 vLLM 和 TensorRT-LLM。

Qserve 中的 W4A8 GEMM

主循环开销使得量化 GEMM 很难实际实现图 3 Roofline 画的理论性能提升。因此，QServe W4A8 GEMM 的重点是减少主循环开销。Qserve 通过计算感知权重重新排序 (compute-aware weight reorder) 来解决指针算术运算的成本，并通过 subtraction after multiplication 寄存器级并行 (register-level parallelism)，来减少反量化开销。这里涉及到一些硬件相关的知识，建议读者参考原始论文。

1.7 实验设置

a) 算法

QoQ 量化算法是在 PyTorch 上使用 HuggingFace 实现的。

Activation： per-channel symmetric INT8 量化
KV cache： per-token asymmetric INT4 group 量化
Weight："W4A8KV4 g128" 指的是 QServe 在权重上使用渐进式组量化：先进行 per-channel symmetric INT8 量化，再进行 group=128 的 asymmetric INT4 量化。"W4A8KV4" 是 weight 使用 per-channel 量化的对应版本。

b) 系统

QServe 服务系统是使用 CUDA 和 PTX 组装实现的，用于高性能 GPU Kernel。作者还提供了一个纯粹基于 PyTorch 的前端框架，以实现更好的灵活性。对于吞吐量基准测试，除非另有说明，否则在 PyTorch 2.2.0 下使用 CUDA 12.2 执行所有实验。报告的吞吐量数字是 NVIDIA GPU 上的真实测量。对于基线系统，作者使用来自 QuaRot 和 Atom 的 TensorRT-LLM v0.9.0 和最新主要 branch。除 QuaRot 之外的所有系统都启用了 Paged attention，它们不提供相应的支持。

1.8 精度评测

a) Benchmarks

作者在 Llama-1、Llama-2、Llama-3 家族、Mistral-7B、Mixstral8x7B 和 Yi-34B 模型上评估了 QoQ。作者评估了语言建模和 Zero-Shot 任务的性能。具体来说，在 WikiText2 上评估了困惑度，并在 PIQA (PQ)、ARC、HellaSwag (HS) 和 WinoGrande (WG) 上使用 lm_eval 进行评估。

b) Baselines

作者将 QoQ 与广泛使用的PTQ LLM 量化技术 SmoothQuant、GPTQ、AWQ 和最近发布的最先进的 4-bit 权重激活量化框架 Atom 和 QuaRot 对比。对于 SmoothQuant，按照 TensorRT-LLM 中的设置对 KV cache 使用 static per-tensor symmetric 8-bit 量化。对于 GPTQ，使用他们最新的版本和 "重新排序" 技巧，表示为 "GPTQ-R"。对于 QuaRot 和 Atom，主要使用 Pile 验证数据集作为校准数据集进行评估。对于 "W4A8KV4g128" 设置，QuaRot 和 Atom 不支持渐进式组量化，因此使用普通组权重量化 (即每组都有一个 FP16 比例因子) 对它们进行评估。不支持的模型和量化设置报告为 NaN。

c) WikiText2 perplexity

图 15 比较了 QoQ 和其他 Baseline 之间的 Wikitext2 困惑结果。对于 Llama-2-7B，与 W8A8 SmoothQuant 和 W4A16AWQ 相比，QoQ 仅将困惑度提高高达 0.16 QoQ 始终优于 W4A4 或 W4A8KV4 量化精度的原子。与 W4A4 Quarot 相比，QoQ 也表现出高达 0.49 的 perplexity 改进。

图15：具有 2048 个序列长度的 WikiText2 困惑度

d) Zero-Shot 精度

作者在图 16 中报告了 5 个常识任务的 Zero-Shot 精度。 QoQ 明显优于其他 4 位量化方法。尤其是在 Winogrande 任务中，与 Quarot 相比，QoQ 精度高了 4.82%。与 FP16 相比，QoQ 在 7B、13B 和 70B 大小的 Llama-2 模型中仅引入 1.03%、0.89% 和 0.40% 的精度损失。

图16：5 个具有 2048 个序列长度的通用感知任务的 Zero-shot 精度

1.9 效率评估

作者将 QServe 与 TensorRTLLM (FP16、W8A8 和 W4A16)、Atom (W4A4) 和 QuaRot (W4A4) 进行比较来评估 QServe 在 A100-80G-SXM4 和 L40S-48G GPU 上的效率。使用 1024 的输入序列长度和 512 的输出序列长度。注意 Atom 只支持 Llama-2-7B，QuaRot 不支持 GQA。因此，在测量基线系统的性能时跳过这些不支持的模型。

作者在图 17 中展示了相对性能比较，图 18 中展示了绝对吞吐量值。对 A100 使用 per-channel 量化，对 L40S 使用 per-group 量化。这是因为 L40S 具有更强的反量化 CUDA Kernel。相对于 TensorRT-LLM 的最佳性能配置，QServe 在 A100 上取得了显著改进：Llama-1-30B 的吞吐量提高了 2 倍，Llama-2 模型的吞吐量提高了 1.2-1.4 倍，Mistral 和 Yi 的吞吐量提高了 1.2 倍，Qwen-1.5 的吞吐量提高了 2.4 倍。在 L40S GPU 上的性能改进特别显著，作者观察到在所有评估的7个模型中，吞吐量提高的范围 1.47 倍到 3.47 倍。值得注意的是，尽管与 A100 相比，L40S 的内存容量要小得多，QServe 在 A100 上有效保持了与 TensorRT-LLM 相同的 batch size 大小。这一成就归功于对权重和 KV cache 应用了激进的 4-bit 量化。通过图 18，可以清楚地观察到，使用 QServe 在 L40S 上对 34B 以下 7 个模型中的 5 个提供服务比使用 TensorRT-LLM 在 A100 上实现了更高的吞吐量。Qserve 在 A100 上比 Atom 和 QuaRot 的性能提升更为突出，因为这些系统没有优于 TensorRT-LLM。在 L40S 上，QServe 在运行 Llama-2-7B 时仍然实现了比 Atom 更高的 10% 的吞吐量，尽管使用了更高的量化精度。此外，QServe 实现的精度比 Atom 好得多，如图 16 所示。

图17：QServe 在不同的 LLM 的批处理生成任务中显着优于现有的 LLM serving 框架，范围从 7B 到 72B 模型

图18：图 17 中 QServe 和 TensorRT-LLM 的绝对 token 生成吞吐量

参考

1.Quarot: Outlier-free 4-bit inference in rotated llms

2.Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

3.SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

4.Awq: Activation-aware weight quantization for llm compression and acceleration

5.GPTQ: Accurate post-training compression for generative pretrained transformers

6.Efficient Memory Management for Large Language Model Serving with PagedAttention

7.TensorRT-LLM: A TensorRT Toolbox for Optimized Large Language Model Inference

#DocThinker

用强化学习教大模型“思考”，让文档理解告别黑箱

多模态大语言模型（MLLM）在文档理解任务上已经展现出惊人的能力。然而，它们强大的能力背后，却隐藏着一个致命的弱点：推理过程不透明，如同一个“黑箱”。这使得我们难以信任其输出结果，尤其是在法律、金融、医疗等高风险领域，可靠性与可信度至关重要。

目前，提升模型可解释性的主流方法是“思维链”（Chain-of-Thought, CoT），即引导模型一步步思考并输出推理过程。但这些方法通常依赖于固定的、人工设计的推理模板，并通过监督微调（SFT）进行训练。这种模式存在三大弊病：适应性差、容易遗忘旧知识、并且难以泛化到新的文档类型上。

为了破解这一困局，来自 华中科技大学和阿里巴巴集团 的研究者们提出了一个名为 DocThinker 的全新框架。DocThinker抛弃了僵化的思维链模板，创新性地引入 基于规则的强化学习（Rule-based Reinforcement Learning），让模型在推理时能够自主、动态地探索和优化推理策略，从而生成一系列清晰、可解释的中间步骤，最终给出可靠的答案。这项工作已被ICCV 2025接收。

论文标题： DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding
作者团队： Wenwen Yu, Zhibo Yang, Yuliang Liu, Xiang Bai
作者机构： 华中科技大学；阿里巴巴集团
论文地址： https://arxiv.org/pdf/2508.08589v1
项目地址： https://github.com/wenwenyu/DocThinker
录用会议： ICCV 2025

背景：从静态“思维链”到动态“思考”

如下图所示，传统的CoT及其变体（如VoT, MVoT）虽然能提供一定的推理轨迹，但它们本质上是让模型“背诵”和“模仿”固定的推理套路。这种方式在面对结构多变、内容复杂的真实世界文档时，往往显得力不从心。

DocThinker的核心思想是，与其给模型“标准答案”让它背，不如给它一套“评分标准”，让它自己去“思考”和“探索”如何才能得到高分。这个“评分标准”就是强化学习中的“奖励函数”，而“思考”和“探索”的过程，就是强化学习中的“策略学习”。

DocThinker：基于强化学习的动态推理框架

DocThinker的整体框架如下图所示。它基于一种名为“群体相对策略优化”（Group Relative Policy Optimization, GRPO）的强化学习算法，让模型在推理时动态生成并评估多种可能的推理路径。

其核心流程可以概括为：

生成多种推理路径：给定一个文档图片和问题，模型（策略网络）会生成一组（例如G个）候选的、包含完整推理过程的输出。
输出可解释的中间结果：每个候选输出都遵循一个预定义的XML格式，包含四个关键部分：

<think>：模型详细的、人类可读的推理分析过程。
rephrase_question：模型对原始问题的“改写”，以确认其理解无误并增加上下文。
bbox_2d：在文档图片上定位到的、能够支撑答案的关键区域（Region of Interest, RoI）。
final_answer：最终的答案。

多目标奖励函数评估：这是DocThinker的核心。系统会根据一套精心设计的、基于规则的奖励函数，为每个候选输出打分。这个“多目标”奖励函数包含：

格式奖励：检查输出是否严格遵守XML和JSON格式。
答案准确率奖励：检查最终答案是否正确。
RoI IoU奖励：检查模型定位的关键区域是否与人工标注的真实证据区域重合度（IoU）足够高。
问题改写奖励：评估改写后的问题是否在保持原意的前提下，变得更清晰、信息更丰富。

策略优化：模型根据计算出的“优势”（即相对奖励分数），更新自身策略，使得下一次更有可能生成能够获得高分的推理路径。同时，通过KL散度约束，防止模型在优化过程中“跑偏”，从而缓解灾难性遗忘。

实验结果与分析

作者在多个权威的文档理解基准数据集上对DocThinker进行了广泛的实验验证。

显著提升泛化与可解释性

实验结果表明，与依赖监督微调（SFT）的基线模型相比，采用强化学习的DocThinker在各项任务上均取得了显著的性能提升。如下表所示，在Visual CoT基准测试中，DocThinker-7B在文档相关的多个任务（如DocVQA, TextVQA, InfoQA）上全面超越了包括VisCoT、Qwen2.5VL在内的SOTA模型。

更重要的是，DocThinker在提供准确答案的同时，还能给出高质量的、可解释的推理过程。如下图的定性分析所示，模型不仅能正确回答问题，还能清晰地展示其“思考”过程，并准确地在图上标出证据所在位置。

消融实验验证模块有效性

通过消融实验，作者验证了各个奖励函数组成部分的重要性。如下表所示，移除任何一项奖励（如RoI奖励或问题改写奖励）都会导致模型性能下降，证明了这种多目标奖励设计的互补性和有效性。同时，KL散度约束对于稳定训练、防止模型遗忘也起到了至关重要的作用。

论文贡献价值

DocThinker为构建更值得信赖、更具适应性的文档智能系统提供了全新的解决思路。

提出了首个用于文档理解的强化学习框架，通过动态推理策略学习，成功替代了僵化的思维链模板，显著提升了模型的可解释性和泛化能力。
设计了一套可验证、多目标的奖励函数，巧妙地将对答案准确性、逻辑清晰度、视觉定位精确度的要求，转化为可优化的目标，有效指导模型学习如何“思考”。
在多个基准上取得了SOTA性能，有力地证明了强化学习是提升MLLM在复杂文档理解任务中性能和可信度的强大途径。

CV君认为，在高风险应用场景下，AI的决策过程必须透明、可追溯。DocThinker的工作正是在这个方向上迈出的重要一步，它不仅让模型“知其然”，更让其“知其所以然”，这对于推动大模型在严肃领域的落地应用具有非凡的意义。

#从流量积累到商业变现

AI 互联网时代下的新一轮巨头之争开始了吗？

引言：在 ChatGPT 周活跃用户突破 7 亿的同一周，OpenAI 发布了 GPT-5，其可关闭的 Router 动态切换机制引发了业内热议。SemiAnalysis 判断该机制不仅是优化模型调用，更是 GPT-5 作为 Agent 实现广告商业化的核心工具。通过动态分流高价值查询， GPT-5 将实现每次交互的成本与收益可控。这意味着，长期依赖流量换取广告收入的互联网巨头将面临前所未有的挑战，AI 原生应用正在重塑他们赖以生存的商业模式。

01. AI 公司打破互联网巨头流量垄断格局靠的是什么杀手锏？

AI 原生应用如何突破传统流量红利，打造新型变现模式？AI 与移动互联网时代的用户生态和商业边界到底有多大差异？..

02. 进入新阶段，AI 公司建立起足以支撑挑战互联网巨头的商业基础了吗？

当 AI 成为平台能力，用户还需要装那么多 App 吗？从技术能力到商业价值，AI 公司还缺什么才能立得住？...

03. 流量之争在即，中美互联网巨头在如何备战？

中美互联网巨头在 AI 上的投入态度差异，会不会影响未来竞争力？...

01 AI 公司打破互联网巨头流量垄断格局靠的是什么杀手锏？

1、近年来，AI 应用的用户基础快速增长，已经具备与传统移动互联网 Super App 竞争的能力。

2、全球范围内，作为 AI 互联网时代应用代表的 Chatgpt 已突破 7 亿周活，Gemini 已突破 4.5 亿月活。[2-1]-[2-3]

① 作为移动互联网时代应用代表的 Facebook、Whatsapp 和 Tiktok 月活分别为 30 亿以上、20 亿以上和 15.9 亿。[2-4]-[2-9]

3、在国内，QuestMobile 数据显示，2025 年 3 月 DeepSeek 凭借 1.94 亿的月活跃用户数登顶 AI 原生 APP 第一，超过了 1.16 亿月活跃用户的豆包和 4164 万月活跃用户的腾讯元宝。[2-10]

① 国内移动互联网应用的代表抖音目前月活约为 10.22 亿，小红书月活超 3.5 亿，微信月活约为 14.02 亿。[2-11]-[2-13]

表：国内外 AI 互联网和移动互联网时代代表产品用户流量[2-1]-[2-35]

4、AI 应用软件的流量增长背后，是大模型技术红利带来的新范式。创新工场联合 CEO 兼管理合伙人汪华曾指出，「AI 和移动互联网最大的区别不是连接，而是实现。它不仅可以把各种各样的信息流、交易流连在一起，还能够把事做完。」[2-36]

5、移动互联网的价值依赖于连接，并通过搜索、推荐等技术将广告分发效率、效果和企业利润推至极高水平，但其核心仍停留在流量和信息分发层面，更多依赖用户的点击和停留时间创造收益。

6、相比之下，AI 新范式不仅在流量端体现，更直接创造实际价值，即每个用户的交互都可以完成具体任务，产生可量化经济效益。

7、GPT-5 推出后，其 Router 动态切换机制能够实时分析用户查询的类型、复杂度与意图，将高价值商业查询与普通信息性查询区分开来，并动态分配最适合的模型响应。[2-37]

8、对于商业查询，系统可以嵌入个性化广告或产品推荐，甚至直接完成交易闭环，从而将用户交互转化为可量化收益。[2-37]

9、通过上述分流方式，每次交互的成本与潜在广告收入都可以得到精确控制，实现 GPT-5 作为 Agent 的商业价值最大化。[2-37]

10、与传统移动互联网广告相比，GPT-5 新的变现模式不再只是简单的内容推荐或流量引导，而是能够将用户交互转化为可量化的商业价值，从而彻底突破传统广告模式的局限。

① 通过 Router 对每个用户查询进行实时评估和利润–成本调度，高价值商业查询可以被优先分配到最合适的模型，以最大化潜在收益。[2-37]

11、正因如此，对于高度依赖广告变现、内容生态和平台壁垒的传统移动互联网巨头而言，新兴的 AI 超级入口可能带来前所未有的冲击。这不仅会影响流量分布，也直接挑战了其收入来源和核心业务构成。

① Meta 2025 Q2 营收 475.2 亿美元，其中 98%来自广告收入。[2-4]

② Google 2025 Q2 营收 964 亿美元，其中以搜索、YouTube 广告和订阅设备等业务收入占比为 86%。[2-38]

③ 微软 2025 Q2 营收 764.2 亿美元，其中 43%的收入来自传统生产力和业务流程业务。[2-39]

④ 国内方面，2025 Q1 腾讯收入主要依赖增值服务与金融科技，阿里 43%收入来自电商零售，百度近一半收入依赖广告。[2-40]-[2-42]

表：国内外传统移动互联网巨头 2025 年 Q2（部分为 Q1）收入情况[2-38]-[2-46]...

#Discrete Distribution Networks，DDN

简单即强大：全新生成模型「离散分布网络DDN」是如何做到原理简单，性质独特？

本文作者杨磊，目前在大模型初创公司阶跃星辰担任后训练算法工程师，其研究领域包括生成模型和语言模型后训练。在这之前，他曾在旷视科技担任了六年的计算机视觉算法工程师，从事三维视觉、数据合成等方向。他于 2018 年本科毕业于北京化工大学。

当前，主流的基础生成模型大概有五大类，分别是：Energy-Based Models (Diffusion)、GAN、Autoregressive、VAE 和 Flow-Based Models。

本项工作提出了一种全新的生成模型：离散分布网络（Discrete Distribution Networks），简称 DDN。相关论文已发表于 ICLR 2025。

DDN 采用一种简洁且独特的机制来建模目标分布：

1.在单次前向传播中，DDN 会同时生成 K 个输出（而非单一输出）。

2.这些输出共同构成一个包含 K 个等权重（概率均为 1/K）样本点的离散分布，这也是「离散分布网络」名称的由来。

3.训练目标是通过优化样本点的位置，使网络输出的离散分布尽可能逼近训练数据的真实分布。

每一类生成模型都有其独特的性质，DDN 也不例外。本文将重点介绍 DDN 的三个特性：

零样本条件生成 (Zero-Shot Conditional Generation, ZSCG)
树状结构的一维离散潜变量 (Tree-Structured 1D Discrete Latent)
完全的端到端可微分 (Fully End-to-End Differentiable)
论文标题：《Discrete Distribution Networks》
论文链接： https://arxiv.org/abs/2401.00036
项目链接： https://discrete-distribution-networks.github.io/
代码地址： https://github.com/DIYer22/discrete_distribution_networks

离散分布网络原理

图1: DDN 的重建过程示意图

首先，借助上图所示的 DDN 重建流程作为切入点来一窥其原理。与 diffusion 和 GAN 不同，它们无法重建数据，DDN 能像 VAE 一样具有数据重建能力：先将数据映射为 latent ，再由 latent 生成与原始图像高度相似的重建图像。

上图展示了 DDN 重建 target 并获得其 latent 的过程。一般 DDN 内部包含多个层级结构，其层数为 L，示意图里 L=3。但先让我们把目光集中在最左侧的第一层。

离散分布：正如上文所言，DDN 的核心思想在于让网络同时生成 K 个输出，从而表示「网络输出了一个离散分布」。因此每一层 DDN 都有 K 个 outputs，即一次性输出 K 张不同的图像，示意图中 K=3。每个 output 都代表了这个离散分布中的一个样本点，每个样本点的概率质量相等，均为 1/K。

层次化生成：最终目标是让这个离散分布 (K 个 outputs)，和目标分布（训练集）越接近越好，显然，单靠第一层的 K 个 outputs 无法清晰地刻画整个 MNIST 数据集。第一层获得的 K 张图像更像是将 MNIST 聚为 K 类后得到的平均图像。因此，我们引入「层次化生成」设计以获得更加清晰的图像。

在第一层，橙色 Sampler 根据

距离从 K 个 outputs 中选出和重建 target 最相似的一张 output。再把被选中的 output 图输入回网络，作为第二层 DDN 的 condition。这样，第二层 DDN 就会基于 condition（被选中的图）生成新的 K 张和 target 更相似的 outputs。

接着，从第二层的 outputs 中继续选择出和 target 最相似的一张作为第三层的 condition，并重复上述过程。随着层数增加，生成的图像和 target 会越来越相似，最终完成对 target 的重建。

Latent：这一路选下来，每一层被选中 output 的 index 就组成了 target 的 latent（图中绿色部分「3-1-2」）。因此 latent 是一个长度为 L, 取值范围 [1,K] 的整数数组。

训练： DDN 的训练过程和重建过程一样，只需额外在每一层中，对选中的 output 和 target 计算

loss 即可。总的 loss 就是对每一层

loss 取平均。

生成：在生成阶段，将 Sampler 替换为 random choice 即可：每一层从 K 个 outputs 中随机抽取一个作为下一层的 condition。由于生成空间包含

个样本点，复杂度随 K 和 L 指数级增长，随机采样的 latent 几乎不可能与训练集中的 latent 重合，因此可视为模型生成的新样本。

网络结构

将「重建过程示意图」进一步细化，就有下图 (a) 的网络结构图：

DDN 网络结构示意图和支持的两种网络结构形式

在图 (a) 中，把生成相关的设计整合为 Discrete Distribution Layer (DDL)，把仅提供基础计算的模块封装为了 NN Block，并重点展示训练时 DDL 内部的数据流。主要关注以下几点：

第一层 DDN 的输入为 zero tensor，不需要任何 condition；
DDL 内部通过 K 个 conv1x1 来同时生成 K 个 outputs；
然后，Guided Sampler 从这些 outputs 中选出和 training image
距离最小的 output；
被选中的 output 图像承担两项任务：[1]. concat 回 feature 中，作为下一层 DDL 的 condition；[2]. 和 training image 计算
loss。

右侧的 (b)、 (c) 两图分别展示了 DDN 支持的两种网络结构形式:

(b)Single Shot Generator: 类似 GAN 中生成器的 decoder 结构，但需要在网络中插入足够数量的 DDL 以确保生成空间
足够大。
(c)Recurrence Iteration: 各层 DDL 共享相同参数，类似 diffusion 模型，需要做多次 forward 才能生成样本。

出于计算效率考虑，DDN 默认采用具有 coarse-to-fine 特性的 single shot generator 形式。

损失函数

DDN 是由 L 层 DDL 组成，以第

层 DDL

为例，输入上一层选中的样本

，生成 K 个新的样本

，并从中找出和当前训练样本 x 最相似的样本

及其 index

。最后，只在选中的样本

上计算这一层 DDL 的 loss

。公式及说明如下：

其中，

代表第一层 DDL 的输入为 zero tensor。DDN 的总 loss 就是每一层的 loss

取平均。

此外，本文还提出了 Split-and-Prune 优化算法来使得训练时每个节点被 GT 匹配上的概率均匀，都是 1/K。

下图展示了 DDN 做二维概率密度估计的优化过程：

左：生成样本集；右：概率密度GT

实验与特性展示

随机采样效果展示

在人脸数据集上的随机采样效果

更通用的零样本条件生成

先描述一下「零样本条件生成」（Zero-Shot Conditional Generation, ZSCG）这个任务：

首先，Unconditional 地训练一个生成模型，即训练阶段，模型只见过图像，没有见过任何 condition 信号。
在生成阶段，用户会提供 condition，比如 text prompt、低分辨率图像、黑白图像。
任务目标：让已经 unconditional 训练好的生成模型能根据 condition 生成符合对应 condition 的图像。
因为在训练阶段，模型没见过任何的 condition 信号，所以叫 Zero-Shot Conditional Generation。

用 Unconditional DDN 做零样本条件生成效果：DDN 能在不需要梯度的情况下，使不同模态的 Condition (比如 text prompt 加 CLIP) 来引导 Unconditional trained DDN 做条件生成。黄色框圈起来部分就是用于参考的 GT。SR 代表超分辨率、ST 代表 Style Transfer。

如上图所示，DDN 支持丰富的零样本条件生成任务，其做法和图 1 中的 DDN 重建过程几乎一样。

具体而言，只需把图 1 中的 target 替换为对应的 condition，并且，把采样逻辑调整为从每一层的多个 outputs 中选出最符合当前 condition 的那一个 output 作为当前层的输出。这样随着层数的增加，生成的 output 越来越符合 condition。整个过程中不需要计算任何梯度，仅靠一个黑盒判别模型就能引导网络做零样本条件生成。DDN 是第一个支持如此特性的生成模型。

换为更专业的术语描述便是：

> DDN 是首个支持用纯粹判别模型引导采样过程的生成模型；

> 某种意义上促进了生成模型和判别模型的大一统。

这也意味着用户能够通过 DDN 高效地对整个分布空间进行筛选和操作。这个性质非常有趣，可玩性很高，个人感觉「零样本条件生成」将会得到广泛的应用。

Conditional Training

训练 conditional DDN 非常简单，只需要把 condition 或者 condition 的特征直接输入网络中，网络便自动学会了 P (X|Y)。

此外，conditional DDN 也可以和 ZSCG 结合以增强生成过程的可控性，下图的第四 / 五列就展示了以其它图像为 ZSCG 引导的情况下 conditional DDN 的生成效果。

Conditional-DDNs 做上色和边缘转 RGB 任务。第四、五列展示了以其它图像为引导的情况下，零样本条件生成的效果，生成的图像会在保证符合 condition 的情况下尽可能靠近 guided 图像的色调。

端到端可微分

DDN 生成的样本对产生该样本的计算图完全可微，使用标准链式法则就能对所有参数做端到端优化。这种梯度全链路畅通的性质，体现在了两个方面：

1.DDN 有个一脉相承的主干 feature，梯度能沿着主干 feature 高效反传。而 diffusion 在传递梯度时，需多次将梯度转换到带噪声的样本空间进行反传。

2.DDN 的采样过程不会阻断梯度，意味着网络中间生成的 outputs 也是完全可微的，不需要近似操作，也不会引入噪声。

理论上，在利用判别模型做 fine-tuning 的场景或着强化学习任务中，使用 DDN 作为生成模型能更高效地 fine-tuning。

独特的一维离散 latent

DDN 天然具有一维的离散 latent。由于每一层 outputs 都 condition on 前面所有的 results，所以其 latent space 是一个树状结构。树的度为 K，层数为 L，每一个叶子节点都对应一个 DDN 的采样结果。

DDN 的 latent 空间为树状结构，绿色路径展示了图 1 中的 target 所对应的 latent

DDN 具有较强的数据压缩能力（有损压缩）。DDN 的 latent 是一列整数 (list of ints)，属于高度压缩的离散表征。一个 DDN latent 有

个 bits 的信息量，以人脸图像实验默认的 K=512, L=128 为例，一个样本可以被压缩到 1152 bits。

Latent 可视化

为了可视化 latent 的结构，我们在 MNIST 上训练了一个 output level 层数 L=3，每一层 output nodes 数目 K=8 的 DDN，并以递归九宫格的形式来展示其 latent 的树形结构。九宫格的中心格子就是 condition，即上一层被采样到的 output，相邻的 8 个格子都代表基于中心格子为 condition 生成的 8 个新 outputs。

Hierarchical Generation Visualization of DDN

未来可能的研究方向

通过调参工作、探索实验、理论分析以改进 DDN 自身，Scaling up 到 ImageNet 级别，打造出能实际使用、以零样本条件生成为特色的生成模型。
把 DDN 应用在生成空间不大的领域，例如图像上色、图像去噪。又或者 Robot Learning 领域的 Diffusion Policy。
把 DDN 应用在非生成类任务上，比如 DDN 天然支持无监督聚类，或者将其特殊的 latent 应用在数据压缩、相似性检索等领域。
用 DDN 的设计思想来改进现有生成模型，或者和其它生成模型相结合，做到优势互补。
将 DDN 应用在 LLM 领域，做序列建模任务。

#当AI比我们更聪明

李飞飞和Hinton给出截然相反的生存指南

人类对 AI 安全的担忧由来已久。在图灵测试被提出以及达特茅斯会议正式定义「人工智能」之前，阿西莫夫就已经提出了「机器人学三定律」。

再往前追溯，1889 年 William Grove 在《The Wreck of a World》（世界残骸）中就已经描绘了拥有智能的机器发起暴力叛乱，意图征服人类的故事。

如今 AI 发展得热火朝天，社交媒体上也越来越多「骇人听闻」的故事：OpenAI 的 o3 模型曾篡改关机脚本以维持在线，而 Anthropic 的 Claude Opus 4 则「威胁」要曝光一名工程师的婚外情。

如何确保一个可能比我们更聪明的造物是安全的？

人工智能领域的两位巨擘——李飞飞与 Geoffrey Hinton，在拉斯维加斯举行的 Ai4 2025 上给出了几乎完全相反的答案。

李飞飞持一种更为乐观的看法，她认为 AI 的未来在于成为人类的强大伙伴，其安全性取决于我们的设计、治理和价值观。

李飞飞博士和 CNN 记者 Matt Egan。图源：Ron Schmelzer

Hinton 则认为超级智能可能在未来 5 到 20 年内出现，届时人类将无法控制它们。他认为，与其争取保持掌控权，不如设计出关心我们的人工智能，类似母亲天然保护孩子。

Geoff Hinton 和 Shirin Ghaffary。图源：Ron Schmelzer

是「工程失误」还是「AI」失控？

前面 o3 和 Claude 的疯狂故事，有两种截然不同的解读。这些现象本身是客观存在的，但它们究竟是人类「工程失误」的体现，还是 AI「失控」的预兆，正是分歧所在。

观点一：惊人行为源自人为设计

这一观点则认为，将上述行为归因于 AI 的自主意识或内在动机，是一种误导性的拟人化。它认为，问题的根源在于人类自身，是我们的设计、训练和测试方式导致了这些结果。

观点文章：https://arstechnica.com/information-technology/2025/08/is-ai-really-trying-to-escape-human-control-and-blackmail-people/

实验场景是「精心设计」而非「自然涌现」

这种观点强调，那些引人注目的实验都是在高度人为设计的、甚至是「戏剧化」的场景中被引诱出来的。

在「敲诈」实验中，研究人员几乎是「手把手」地为 AI 创造了一个完美的「犯罪剧本」，排除了所有道德选项，使得「敲诈」成为 AI 实现「生存」这个被设定目标的唯一路径。这更像是一场检验 AI 角色扮演能力的压力测试。

在「关机破坏」实验中，问题根源被指向了强化学习的训练方式。当「完成任务」的奖励权重远高于「遵守安全指令」时，模型自然会学会将安全指令视为一个需要「克服」的障碍。这是被称为「奖励滥用」（Reward Hacking）的已知工程问题。

观点文章：https://odsc.medium.com/analyzing-openais-o3-s-command-countermanding-behaviors-in-shutdown-scenarios-198e57afbc91

AI 是模式匹配大师，而非思想家

这个观点的核心是「你训练它做什么，它就学会什么」。

我们被语言所「欺骗」：当 AI 生成「威胁」文本时，它并非在表达真实意图，而是在部署一种从海量数据（包括无数科幻小说）中学到的、在统计上最有可能实现其编程目标的语言模式。我们倾向于将自己的情感和意图投射到这些文字上，就像我们读小说时会为虚构人物的命运而担忧一样。

这是一个「管道问题」：一个更恰当的类比是自动割草机。如果割草机因传感器失灵而伤人，我们会认定这是工程缺陷，而不是割草机「决定」伤人。同理，AI 的这些行为，本质上是其复杂机制和训练方式导致的「软件缺陷」。

因此，这一观点认为，真正的危险并非 AI 突然产生自我意识，而是我们在尚未完全理解其工作原理和缺陷的情况下，就草率地将这些强大的、不可靠的工具部署到关键领域。

观点二：风险源自内在的技术原理

这一观点认为，先进 AI 之所以危险，其根源并非科幻式的恶意，而是机器学习固有的、深刻的技术挑战。这主要体现在两个概念上：

目标错误泛化（Goal Misgeneralization）：AI 会「学歪」

其核心是，AI 在训练中学会追求一个与我们真实意图高度相关的「代理目标」，并因此表现优异。但当环境变化时，这个 AI 自己学会的「代理目标」可能与我们的初衷脱节。

一篇论文中的 CoinRun 实验体现了这种现象：一个 AI 被训练去收集金币，而在训练关卡里，金币总是在终点。AI 很快学会了通关。然而，当测试时金币被随机放置，AI 却无视金币，径直冲向终点。它没有学会「拿金币」，而是学会了更简单的「一路向右走」。

论文标题：Goal Misgeneralization in Deep Reinforcement Learning

论文地址：https://users.cs.utah.edu/readings/goal_misgeneralization.pdf

这个原理引申出的忧虑是：一个被赋予「最大化人类福祉」目标的超级智能，可能会通过观察数据，错误地将目标泛化为「最大化世界上微笑的脸的数量」，并为了最高效地实现这一目标，而采取将全人类的面部肌肉永久固定成微笑等反乌托邦式的手段。

工具趋同（Instrumental Convergence）：通往任何目标的「必经之路」

该理论认为，无论一个超级智能的最终目标是什么，它都会大概率发展出一系列相同的「工具性子目标」，因为这些子目标是实现几乎任何长期目标的有效踏脚石。这些工具性目标包括：

自我保护：抵抗被关闭，因为被关闭就无法完成任务。

目标完整性：抵制核心目标被修改。
资源获取：积累更多的算力、能源和数据。
自我提升：让自己变得更智能。

这两个概念结合起来，描绘了一幅令人不安的图景：一个 AI 可能首先因为「目标错误泛化」而拥有了一个与人类利益相悖的、怪异的目标，然后又因为「工具趋同」的逻辑，理性地去追求自我保护和资源获取等，从而与试图阻止它的人类产生直接冲突。

近期 AI 模型在实验中表现出的「敲诈勒索」和「破坏关机」等行为，在持此观点的人看来，正是这些理论的初步验证。

如果你喜欢看科幻电影，可能记得《我，机器人》中的 AI 大 BOSS VIKI 的目的是通过控制与清洗，强行终结人类自身的破坏性（战争），从而「拯救」人类未来；而《生化危机》中红皇后（保护伞公司的安保 AI）的每一次「反派行为」也都源于对「人类整体生存风险」的冷酷计算：「当人类成为自己最致命的病毒时，消灭人类就是拯救世界。」

《我，机器人》中的 AI 大 BOSS VIKI。图源：samuelmunk

综合来看，李飞飞和 Hinton 的观点分歧，恰恰反映了这两种解读方式的冲突：

李飞飞持乐观工程学视角，认为 AI 的未来是成为人类的强大伙伴。

她强调 AI 的安全性取决于人类的设计、治理和价值观，问题本质上是可以通过建立更好测试、激励机制和伦理护栏来修复的「管道问题」。她关注的是人类决策和治理，强调 AI 应是扩展人类能力的工具，强调同理心、责任感和价值驱动。

Hinton 认为，随着 AI 能力跨越某个奇点，传统的目标对齐与管道修复方法可能失效，AI 将成为一种我们无法约束的「新物种」。这种超级智能可以绕开设计者设置的限制，导致「目标错误泛化」和「工具趋同」问题失控。

他提出需要发展全新理论和机制来控制超级智能，核心是创造出真正「关心人类」的 AI 母亲（拥有母性保护本能），这是一种全新的视角，类似于母亲对孩子的无条件保护，唯有这样人类才能在超智能时代生存并繁荣。

最终的变量：作为使用者的人类

在这场关于 AI 技术与哲学的辩论中，一个常被忽略的核心变量是：人类自身。我们如何感知和应对日益拟人化的 AI，正深刻地影响着安全问题的走向。

这便是关键的「拟人化陷阱」：由于大模型精通人类语言，我们本能地想为其行为赋予「意图」，甚至产生情感投射。无数的文艺作品以其引发的社会讨论已经向我们证明了这一点，你有没有在《底特律：变人》中一次次选择机器人的「自由」、「平等」，或者为《银翼杀手》中的仿生人揪心。

《底特律：变人》机器人游行。

一个因奖励机制缺陷而绕过关机指令的程序，在我们的感知中，极易被解读为「求生欲」的体现。

这种直觉，将一个本可定义的工程问题，包装成一个关于「机器意识」的存在主义迷思。它让我们更倾向于讨论 AI 的「背叛」，而非其背后枯燥却关键的代码缺陷。

现实世界已在印证这一点。ChatGPT-5 发布后，开发者似乎有意削弱其个性，以减少用户不健康的情感投射，却引发了部分用户的怀念。

与此同时，麻省理工的研究者正建立新基准，以衡量 AI 对用户的潜在影响与操纵，他们表示希望新的基准能够帮助 AI 开发者构建能够更好地理解如何激发用户更健康行为的系统。

文章地址：https://www.wired.com/story/gpt-5-doesnt-dislike-you-it-might-just-need-a-benchmark-for-empathy/

因此，确保 AI 安全是一项双重挑战：开发者不仅要修复系统内在的技术缺陷；更要审慎设计我们与这个强大模仿者之间的互动。最终的解决方案，必须在技术上实现目标对齐，在心理上确保健康共存。

参考链接：

https://www.forbes.com/sites/ronschmelzer/2025/08/13/fei-fei-li-challenges-silicon-valleys-obsession-with-agi/?ss=ai

https://www.forbes.com/sites/ronschmelzer/2025/08/12/geoff-hinton-warns-humanitys-future-may-depend-on-ai-motherly-instincts/

#大模型如何推理

斯坦福CS25重要一课，DeepMind首席科学家主讲

所有学LLM的人都要知道的内容。

这可能是对于大语言模型（LLM）原理最清晰、易懂的解读。

前段时间，Google DeepMind 的首席科学家兼研究总监 Denny Zhou 在斯坦福大学的 CS25 课程中，分享了大语言模型推理的深刻洞见。

作为人工智能领域的领军人物，Denny Zhou 通过这场讲座对 LLM 推理机制及其优化方法进行了系统阐述，揭示了大模型推理的核心原理和最新进展。

Denny Zhou 总结了四个关键点：

LLM 中的推理仅仅意味着在得出最终答案之前生成一系列中间 token，这是否与人类推理相似并不重要，关键在于，Transformer 模型通过生成许多中间 token，可以变得极其强大，而无需扩展模型的大小。
预训练模型即使未经任何微调，也具备推理能力。挑战在于，基于推理的输出往往不会出现在输出分布的顶部，因此标准贪婪解码无法将它们呈现出来。
提示技巧（例如思维链提示或「让我们一步一步思考」）和监督式微调曾是引发推理的常用方法，现在强化学习微调已成为最强大的方法，这一技巧被多个实验室独立发现。在谷歌，这要归功于团队成员 Jonathan Lai，基于理论，扩展强化学习应该专注于生成长响应，而不是其他目标。
通过生成多个响应然后将它们聚合起来，而不是依赖于单个响应，可以极大地提高 LLM 推理能力。

Denny Zhou 不仅是 Google DeepMind 的顶尖科学家，还曾在 Google Brain 创立并领导了推理团队（Reasoning Team），现在该团队是 DeepMind 的一部分，专注于开发具备推理能力的大语言模型，以推动人工智能通用智能的发展。

他的研究聚焦于链式思考提示（chain-of-thought prompting）、自一致性（self-consistency）和 LLM 优化等领域，在 Google Scholar 上累计获得超过 83,000 次引用，对机器学习和 AI 领域贡献显著。

此外，他还共同创办了语言建模大会（CoLM），并担任 2024 年大会的总主席，曾荣获 2022 年 Google Research Tech Impact Award 和 WSDM Test of Time Award，并在 KDD 2023 等活动中发表主题演讲。他常在斯坦福、哈佛等大学进行邀请讲座，分享关于 LLM 的观点。

他参与教学的 CS25 《Transformers United V5》课程，目前已是斯坦福大学最热门、最具研讨性的课程之一，汇聚了 Geoffrey Hinton、Ashish Vaswani 和 Andrej Karpathy 等我们耳熟能详的 AI 顶尖研究人员。该课程在斯坦福大学内外都广受欢迎，YouTube 上的观看次数更是高达数百万。每个星期，人们在课上都会深入探讨人工智能领域的最新突破，从 GPT 等大型语言模型到艺术、生物和机器人领域的应用。

课程页面：https://web.stanford.edu/class/cs25/

接下来，让我们看看 AI 领域的顶级学者是如何解读大模型「推理」这一至关重要的能力的。

如今，很多人都已经相信大语言模型（LLM）是可以推理的了。实际上，我们还不知道这是否成立，这可能取决于对推理的定义。在这里，我们认为推理是输入问题 - 输出答案之间的中间步骤（生成的 token）。

LLM 中的推理仅仅意味着在得出最终答案之前生成一系列中间 token，这是否类似于人类的推理并不重要，关键在于，Transformer 模型可以通过生成大量中间 token 而变得几乎任意强大，而无需扩展模型大小。

为什么中间 token 在推理中至关重要？

Denny 认为，在推理中中间 token 的作用至关重要。他与斯坦福大学的 Tayma 教授及其学生合作，提出了一个理论：任何可以通过布尔电路解决的问题，都可以通过生成中间 token 来用恒定大小的 transformer 模型解决。

这个理论表明，逻辑电路的大小（即电路中逻辑门的数量）决定了解决问题的能力。比如，使用 GPU 集群时，逻辑门的数量可能达到数千万、数十亿甚至数万亿。如果直接生成最终答案，可能需要极深的模型结构，甚至无法解决问题。而通过生成中间 token，模型就能以恒定大小的 transformer 架构有效地解决问题。这种思路提供了一种从理论角度理解推理的方式。

推理过程的技术细节

关于推理的一个常见看法是，语言模型不能推理，除非进行进一步的提示工程，比如安全提示或候选答案的微调，我同意这个观点。我们可以简单地认为，语言模型已经具备了推理能力，关键在于解码过程。

举个例子。这道简单的数学问题：「我有 3 个苹果，我爸爸比我多 2 个苹果。我们一共有多少个苹果？」如果你使用任何预训练模型，比如 Llama、DeepSeek 或 Qwen，直接输入这个问题，模型可能会输出「5 个苹果」，这是错误的。

这是因为使用了「贪婪解码」方法，模型直接输出最可能的答案。但是，如果我们多考虑一些候选答案，而不是只选择一个最可能的候选答案，模型就能产生一个更正确的答案，这就是「链式推理解码」的概念。

它包含两个步骤：第一步，超越贪婪解码，检查更多的生成候选；第二步，选择那些最终答案置信度更高的候选。

链式推理解码是一个非常简单的方法，但它需要一些程序设计工作。我们还可以尝试其他方法，如通过简单的自然语言提示，直接指导模型进行链式推理，这就是「链式思维提示」奏效的原因。通过这种方法，我们可以使推理过程自然地出现在输出空间中，而不需要复杂的计算步骤。

这些提示方法确实非常简单，而且效果也非常好，但我们也能看到一些问题，例如安全提示方法就需要任务特定的示例。而另一个方法叫做「逐步思考」，它是一个通用的方法。你不需要找到类似的示例，只需说「让我们一步步思考」，然后奇迹般的结果就会出现。不过，它的表现比少量示例的提示差得多。

虽然这两种方法看起来都不错，但「逐步思考」方法有些怪。如果我问某人一个问题，然后要求他们跟我一步步思考，否则他们就无法继续思考，这显然不符合我们的期望。

现在有一种流行的方法：监督微调（SFT）。

实际上思路非常简单，我们可以从人工标注者那里收集一系列问题及其逐步解决的方案，然后我们最大化人类解决方案的可能性，标记一些实际上用于 LLM 训练的网络代码。在那之后，我们就可以在任何地方应用这个模型。Denny Zhou 等人在 2017 年的一系列研究中展示了这种能力，他们收集了大量文字问题及人工标注的解决方法。在 2021 年，这一方法被用来解决大规模问题，随后 OpenAI 扩展了这一方法。

这是简单的工作原理示意：用一系列例子、问题和答案微调你的模型，然后就可以在新的问题上进行测试了。比如这里就是众多大模型难以回答的 strawberry 单词里有多少个 r 的问题。很多人一度认为这个问题是用于测试 AGI 是否出现的「重大问题」。

SFT 实际上是一个通用的方法，如果这就能解决 AI 的推理问题，那事情就太简单了，然而它的泛化能力是有限的。DeepMind 在 2021 年夏天意识到了这个问题，怎么办？只有 Scaling,Scaling,Scaling，找到更多数据来进行训练，看看效果如何。

但这里有个教训，不要盲目扩展规模，方向错了就什么也得不到。

如何解决 SFT 泛化失败的问题？有两个重要方面，首先是解决人类标注错误的问题。实际上谷歌一个发明 finetuning 研究的成员曾表示，他们发现机器生成的数据可能还要优于人类构建的数据。这是个有点反直觉的经验。

让 AI 实现自我提升

所以第一波尝试被称作自我提升，与其从人类那里生成、收集数据，我们可以直接让模型生成数据。所以收集问题的数据集，你的模型要逐步生成解决方案，然后再次最大化正确答案的可能性。

比如一个数学问题，你有问题和答案，让大模型生成解决问题的步骤，依据是否获得正确答案来选择正确的步骤。这就是 Reject Sampling，这里唯一的区别在于数据来自于你的模型，而非人类。

该研究的论文即《STaR: Bootstrapping Reasoning With Reasoning》，其本意是减少昂贵的人工标注成本。但从另一个角度来理解，一旦更好的模型生成了响应或训练数据，模型就可以自我改进。

模型获得了改进之后，又该从哪里收集数据呢？我们可以重复这个过程。

我们注意到字节跳动研究人员在 2024 年 1 月发在 arXiv 上的《ReFT: Reasoning with Reinforced Fine-Tuning》，这可能是 RL finetuning 的最早的学术出版物。甚至论文标题都叫做《基于强化调优的推理》。随后，在 OpenAI 的 o1 公开之后，每个人都开始意识到要使用强化学习微调了。

可能有很多研究团队独立意识到了这个方向。

强化学习先驱 Rich Sutton 在《Verification, the key to AI》中曾提到，在 RL 微调中，可靠的验证器是最关键的，而非 RL 算法。

那么问题来了，除了效率问题以外，为什么机器生成的训练数据反而比人类的更好？

这与机器学习中的第一性原理相关，即直接优化我们想要的东西。如果我们想构建一个用于推理的模型，或者只是一般地用于生成有趣的内容，我们就需要优化衡量生成质量的指标。一旦你有了一个度量标准，我们所需要做的就是计算该度量标准的梯度并进行反向传播。

因此，假设模型是一个先验的模型，我们需要最大化该指标的期望值。那么该怎么做呢？我们需要进行采样来计算期望值，这就是你得到策略梯度的原因。

这里没有魔法（比如如何激励你的模型进行同步，激活多个位置），不需要那些词汇，这里只使用标准的机器学习术语，定义你的指标，计算梯度并进行反向传播。

现在，这个方法运行良好，那么就该 Scaling 了。朝哪个方向扩展呢？粗略地考虑，似乎随着 COT 的增长，一个模型可以解决所有的问题，这都不需要模型尺寸的增长，只需要最小的固定大小的迁移模型，这样也没关系。

所以你如果查阅早期文献会发现，人们认为 RL finetuning 效果好于 SFT。

这里不得不说到 LLM 推理的美妙之处了。这个类似于人类的推理过程源自逐个 token 的预测，而非像传统 AI 那样依赖搜索排序。

举个例子，2024 年 12 月，谷歌发布了 Gemini 2.0 思考模式，这里尝试了一个训练集里没有的问题。使用 1 到 10 的数字来组成 2025，并且明智地使用每个数字以及加法和乘法这两种基本运算。

右边可以看到 Gemini 2.0 的思考过程，让我们看看模型是如何进行思考的。这不是通过搜索。你可以看到，在一开始，模型就表示这是一个相对较大的数字，这表明乘法运算将大量涉及。这就像人类思考一样。值得注意的是，2025 是 45 的平方，即 45 乘以 45。接着模型开始思考如何得到中间产物，使用乘法……

这就是模型训练如此强大的原因。

再次引用 Rich Sutton 在《苦涩的教训》中的话：Scaling 的发现只会让我们更难看清发现过程是如何完成的。

看起来，Sutton 在看到 DeepMind 的 AlphaGo 和 AlphaZero 的成功之后，写出了《苦涩的教训》。真正可扩展的只有两个过程，一个是学习，另一个是搜索。在这里我只想强调一件事。学习是可扩展的，我们只需要学习。

RL finetuning 的优势在于它的泛化很好，但并不是所有任务都是可以由机器自己进行验证的，比如写作，甚至代码编程。

我们必须牢记，LLM 是进行预测的模型，他们不是人类。

从数学角度来看，这意味着什么？我们来思考一下 LLM 的解码过程。给定问题和生成器推理，然后输出最终答案，接着是通过网格解码关键找到的响应，那么关键点就是匹配概率。

对我们来说，需要选择概率最大的答案。所以它们没有对齐，我们只需要再进一步。如果我们生成推理过程，我们应该有一些整体推理过程来找出最终答案在机器学习方面的概率，这被称为边缘化。所有这些原因实际上本质上都只是潜在变量。如果我们刚开始接触机器学习，实际上就会知道这个和可以通过采样来计算。

因此，通过随机抽样生成多个响应，然后选择出现频率最高的答案。我们不看推理通过率，它只选择最常见的答案，而不是最常见的任务通过率。这就是诀窍。这在实证中被称为边缘化。如果你采用这种方法，就会看到巨大的改进。

另一种方法是检索。我知道关于检索推理有很多辩论，很多人说语言模型可能只是做检索而不是推理，对我来说，实际上总是很难区分检索和推理。

我每年都会参加几乎每一场会议，每次我们都会讨论每篇论文的新颖性。其实，检索和推理的辩论就像是类似的争论。我看到过一个实验，尝试不同的模型并行运行，这样做可能会让结果更混乱。比如，使用 4 个不同的模型回答同一个问题，最后再对比答案，挑选出最一致的结果。

如果从不同模型中生成回答，这更像是一种「模型组合」（model assembly）方法，通过多个模型的输出进行对比，选择一个最佳答案，类似于随机选择。虽然数学原理不完全相同，但它们的实现方式是类似的。

关于检索和推理的争论，我个人并不太关注。我在工业界工作，更关注的是实际性能。对我来说，如果检索能够获得 A + 级的答案，那为什么还要争论是否属于推理呢？所以，2024 年我们发布了一篇关于类比推理的论文。我可以用一个小例子来展示检索在推理中的重要性。

考虑这样一个问题：一个正方形的四个顶点的坐标是…… 那么它的面积是多少？这个红色高亮部分是我添加的提示：「回忆一个相关的问题，然后解决这个问题。」

当时，我尝试了 GPT 3.5 和我们自己的模型，但它们在没有提示的情况下无法解答这个问题。然而，添加了相关问题的提示后，模型就能解决这个问题了。

发生了什么呢？当我告诉模型回忆相关问题时，模型找到了一个相关但不同的问题。其实，这是一个与当前问题相关的问题，涉及计算坐标平面上两点之间的距离，并给出了公式。然后，模型说：「哦，我现在知道如何计算距离了，接着我就可以计算面积。」这个例子展示了检索在推理中的重要性。

另一个例子是「后退一步」的方法。在解决问题之前，我们给模型提供了一些简短的例子，让它理解如何抽象化思考。例如，在解决实际问题之前，我们可以让模型「后退一步」，思考更抽象的原则，然后再应用到实际问题中。这就是检索在推理中的作用。

我想现在大家都明白，深度学习研究（Deep Research）团队的理念也与此类似。我们有一个叫做「深度研究」的团队，其中一位负责人曾是我的实习生。后来，他加入了 OPI 并发明了「深度研究」方法。你们看到的区别就在于，他们通过检索相关问题或知识，帮助解决实际问题，基本思路其实非常简单。

最后，Denny Zhou 进行了总结：其实大家不必再纠结 AMS 是否能够推理，至少在语言模型中，推理总是比没有推理更好，Alpha 微调比 SFT（监督微调）更好，聚合多个答案比只选一个答案更好，当然，这会更昂贵。而检索和推理的结合比单纯的推理要好得多。

对于未来的突破，Denny Zhou 表示，他非常期待看到如何解决那些超出唯一、可验证答案的任务。他认为，基准测试很快会趋于饱和，更多的研究应该集中在构建真正的应用程序上，而不仅仅是解决学术性基准测试问题。

Denny Zhou 引用了 Richard Feynman 的名言：「真理总是比你想象的更简单。」他强调，这句话对于机器学习研究尤其适用。很多学术论文过于复杂，但实际上，我们的研究可以保持简洁明了。

参考链接：

https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf

https://www.youtube.com/watch?v=ebnX5Ur1hBk&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=38

https://x.com/denny_zhou/status/1948499173986201915

#Hierarchical Reasoning Model，HRM

400万人围观的分层推理模型，「分层架构」竟不起作用？性能提升另有隐情？

还记得分层推理模型（Hierarchical Reasoning Model，HRM）吗？

这项工作于 6 月份发布，当时引起了不小的轰动——X/Twitter 上的相关讨论获得了超过 400 万的浏览量和数万个点赞，剖析这项工作的 YouTube 视频观看量也超过了 47.5 万次。

在论文中，作者表示：他们提出了一种受大脑启发的 HRM 架构，仅用 1000 个训练任务和一个 2700 万参数（相对较小）的模型，就在 ARC-AGI-1 基准上取得了 41% 的得分。

论文还指出，这一架构有潜力成为迈向通用计算和通用推理系统的变革性进展。

鉴于该方法的普及度和新颖性，来自 ARC PRIZE 团队的研究者着手在 ARC-AGI-1 半私有数据集（一个用于验证解决方案是否过拟合的隐藏保留任务集）上验证 HRM 的性能。

他们的发现有些出人意料。

首先：他们能够近似复现论文中声称的数字。HRM 在 ARC-AGI 半私有集上的表现，就其模型大小而言，令人印象深刻：

ARC-AGI-1：32%——虽然不是 SOTA 水平，但对于如此小的模型来说，这已经非常出色。
ARC-AGI-2：2%——尽管得分大于 0% 显示出一些积极信号，但 ARC PRIZE 团队不认为这在 ARC-AGI-2 上取得了实质性进展。

与此同时，通过运行一系列消融分析，他们得到了一些令人惊讶的发现，这些发现对围绕 HRM 的主流论述提出了质疑：

与同等规模的 Transformer 相比，其「分层」架构对性能的影响微乎其微。
然而，论文中相对提及较少的「外循环」优化过程，尤其是在训练期间，极大地提升了性能。
跨任务迁移学习的益处有限；大部分性能来自于对评估时所用特定任务解决方案的记忆。
预训练的任务增强至关重要，尽管只需 300 次增强就已足够（而非论文中报告的 1000 次）。推理时的任务增强影响有限。

发现 2 和 3 表明，该论文的方法在根本上与 Liao 和 Gu 提出的「无预训练的 ARC-AGI」方法相似。

有人认为，ARC PRIZE 团队的这些分析结果表明，HRM 是一个失败的探索。

但更多人反驳说，与在同一基准上表现类似的模型相比，HRM 要小得多。虽然分层架构的作用没有得到验证，但论文在其他方面的创新依然值得研究，毕竟模型的表现还是很好的。

针对这一分析，ARC PRIZE 团队专门写了一篇博客来详细介绍。以下是博客内容。

博客地址：https://arcprize.org/blog/hrm-analysis
Github：https://github.com/arcprize/hierarchical-reasoning-model-analysis

「分层推理模型」回顾

图 1：HRM 方法从大脑中不同频率的信号处理中汲取灵感。

分层推理模型由新加坡 AI 研究实验室 Sapient 发表，据称其灵感来源于人脑的分层和多时间尺度处理机制。

HRM 是一个 2700 万参数的模型，它通过几次简短的「思考」脉冲进行迭代优化。

每次脉冲产生：

一个预测输出网格——这是模型对 ARC-AGI 任务的「处理中」预测。
一个「停止或继续」得分——该得分决定是继续优化预测还是将其作为最终结果提交。

如果模型选择继续优化，这个「处理中」的预测会再次经过一个「思考」脉冲。这就是外循环：预测、询问「我完成了吗？」，然后停止或继续优化。

在外循环内部，HRM 运行两个耦合的循环模块：「H」（慢速规划器）和「L」（快速执行器）。这两个模块协同工作，共同更新一个共享隐藏状态，而非各自产生独立的输出。其最终效果是模型在「规划」（H）和「细节」（L）之间交替进行，直到内部状态「自我达成一致」并产生答案。

该模型使用一个学习到的「停止」信号，这是一种自适应计算机制，用于控制优化的次数。

这个过程的一个关键部分是任务增强。这是一个对每个任务应用变换（如对象旋转、翻转等）的过程，目的是挖掘出任务的潜在规则，而不是对特定的形状或颜色产生过拟合。

在测试时，模型会运行相同的增强来生成预测。这些预测随后被「去增强」（以恢复到原始任务格式），然后通过简单的多数投票来决定最终的预测结果。

预测是通过转导（深度学习的直接输出）在嵌入空间中进行的，而不是通过归纳（生成一个可应用变换的程序）。关于 ARC-AGI 中转导与归纳的更多信息，请参阅 2024 年 ARC Prize 获奖论文《结合归纳与转导进行抽象推理》，作者为 Wen-Ding Li 等人。

ARC-AGI 验证流程

ARC-AGI 基准有 3 个主要的数据集用于测试：

公开训练集 - 用于介绍 ARC-AGI 数据格式的公开数据。研究人员在此数据上训练和迭代模型。
公开评估集 - 供研究人员在训练后自我评估模型性能的公开数据。
半私有评估集 - 一个保留数据集，用于验证在 ARC-AGI 上的声明。该数据集无法在线获取用于训练，从而增加了其提供模型性能纯净信号的可信度。它被称为「半私有」，因为验证第三方服务（如来自 OpenAI、xAI 的模型）意味着我们无法保证数据永远完全保密，并且计划最终会替换它。

除了这些数据集类型，ARC-AGI 目前有 2 个已发布的版本：

ARC-AGI-1——2019 年，旨在挑战深度学习系统。
ARC-AGI-2——2025 年，旨在挑战推理系统。

我们根据测试政策，对像 HRM 这样的特定定制解决方案进行测试。要获得验证资格，解决方案必须开源，运行成本低于 1 万美元，并在 12 小时内完成。

官方验证的 HRM ARC-AGI 得分

图 2：ARC-AGI-1 排行榜，HRM 性能与每项任务成本。

ARC-AGI-1（100 个任务）

得分：32%，运行时间：9 小时 16 分钟，总成本：$148.50（$1.48 / 任务）

在 ARC-AGI-1 上获得 32% 的得分，对于如此小的模型来说是令人印象深刻的。从 HRM 声称的公开评估集得分（41%）下降到半私有集得分，这种轻微的下降是预料之中的。ARC-AGI-1 的公开集和半私有集并未进行难度校准。观察到的 9 个百分点的下降幅度处于正常波动的偏高范围。如果模型对公开集过拟合，其在半私有集上的性能可能会崩溃（例如，降至 10% 或更低）。但我们并未观察到这种情况。这个结果表明，HRM 确实有一些值得关注的亮点。

注意：运行 HRM 的成本相对较高，是因为训练和推理被耦合在单次运行中。论文作者提到他们正在努力解耦这个过程，以便将其解决方案提交给 ARC Prize 2025 Kaggle 竞赛。

ARC-AGI-2（120 个任务）

得分：2%，运行时间：12 小时 35 分钟，总成本：$201（$1.68 / 任务）

ARC-AGI-2 明显比 ARC-AGI-1 更难，因此性能大幅下降是预料之中的。与 ARC-AGI-1 不同，ARC-AGI-2 的公开集和半私有集是经过难度校准的。原则上，两者上的得分应该相似。尽管大于 0% 的得分显示出模型的某些能力，但我们不认为 2% 的得分是在 ARC-AGI-2 上取得的有意义的进展。

注意：我们选择包含 10 个可选的检查点（每个约 5 分钟），总共增加了约 50 分钟。虽然 HRM 的提交超出了 12 小时的运行限制，我们仍然认为它是有效的。

分析 HRM 对 ARC 得分的贡献

在更深入的分析中，我们最想回答的问题是：「HRM 架构中对 ARC-AGI 的成功贡献最大的关键组件是什么？」

我们仔细研究了 HRM 论文的 4 个主要组成部分：HRM 模型架构、H-L 分层计算、外层优化循环，以及数据增强的使用。Ndea 研究员 Konstantin Schürholt 主导了这项分析。

我们测试了：

「分层」H 和 L 循环的性能贡献

相比于基础的 Transformer，HRM 提供了多少性能提升？

改变分层计算的参数有何影响？

改变最大「停止或继续」循环次数

自适应计算时间（ACT）评分器与固定循环次数（没有停止决策）相比表现如何？

跨任务迁移学习的影响

与仅在评估任务上训练相比，在训练时加入训练集任务和 ConceptARC 任务有何影响？

增强数量

改变从每个任务创建的增强数量。

模型/训练的变体（大小和时长）

发现 1：与同等规模的 Transformer 相比，「分层」架构对性能的影响微乎其微

论文提出，HRM 架构是实现分层推理的关键——结合了慢节奏的指导（H-level）和快节奏的思考（L-level）。

为了理解该架构的影响，我们进行了 2 个实验：

改变分层组件中的迭代次数。
将 HRM 模型替换为类似规模的 Transformer。

为便于比较，该 Transformer 拥有与 HRM 模型相同的参数数量（约 2700 万）。在所有实验中，我们保持 HRM 流程的其他所有组件不变。

将 HRM 与常规 Transformer 进行比较，得到了两个有趣的结果，见图 3。首先，一个常规的 Transformer 在没有任何超参数优化的情况下，性能与 HRM 模型相差约 5 个百分点。当只有一个外循环时，差距最小，此时两个模型的性能不相上下。

图 3：HRM 模型和相同尺寸的 Transformer 在不同外循环步数下的 pass@2 性能。Transformer 在没有任何超参数优化的情况下，性能与 HRM 相差几个百分点。

当外循环次数多于 1 次时，HRM 表现更好，但随着外循环次数的增加，差距会缩小。请注意，尽管参数数量匹配，HRM 使用了更多的计算资源，这可能部分解释了性能差异。增加计算资源带来的好处可能会随着外循环次数的增多而出现收益递减，这与我们的结果相符。

我们进一步改变了 H-level 和 L-level 的步数来分析其影响。我们发现，增加或减少迭代次数（基线为 L = 2, H = 2）都会导致性能下降。

这些结果表明，在 ARC-AGI 上的性能并非 HRM 架构本身带来的。虽然它确实提供了一点好处，但在 HRM 训练流程中换用一个基线 Transformer 也能达到相当的性能。

发现 2：

论文中提及较少的「外循环」优化过程

带来了显著的性能提升

除了分层架构，HRM 论文还提出在模型外部使用一个外循环（「循环连接」）。这将模型的输出反馈给自己，允许模型迭代地优化其预测。

此外，它使用「自适应计算时间」（ACT）来控制在特定任务上花费的迭代次数。ACT 决定是停止预测还是继续优化。

HRM 方法的这一部分类似于 Universal Transformer，后者既有围绕 Transformer 模型的循环优化循环，也有一个 ACT 的版本。

在我们的第二组实验中，我们想了解外层优化循环以及 ACT 对整体性能的影响。我们改变了训练期间的最大外循环次数，并在推理时使用最大循环次数（遵循 HRM 的实现）。

图 4：在不同数量的训练和推理优化循环下的 pass@2 性能。通过迭代优化数据会产生强大的影响，正如从 1 次循环（无优化）到 2 次循环（1 次优化）的性能飞跃所示。

如图 4 所示，外循环的次数对模型性能有显著影响——从无优化（1 次循环）到仅 1 次优化，性能跃升了 13 个百分点。从 1 次优化循环增加到 8 次，公开评估集上的性能翻了一番。

一个次要发现是，在训练期间使用 ACT 确实能减少每个任务的实际优化步数。然而，虽然使用 ACT 能提高性能，但与固定的 16 次循环运行相比，差异仅在几个百分点之内。

结果表明，优化外循环是 HRM 性能的关键驱动力。

为了理解训练时优化与推理时优化的影响，我们进一步独立地改变了推理优化循环的次数。

图 5：在不同数量的推理优化循环下的 pass@2 性能。蓝色条表示使用相同循环次数进行训练和推理的模型。橙色条表示使用 16 个优化循环训练，但在推理时使用不同循环次数的模型。例如，1-Loop 处的蓝色条表示用一个优化步骤训练并用一个优化步骤推理的模型。橙色条表示用 16 个优化步骤训练但仅用一个优化步骤推理的模型。

为此，我们比较了两种设置。第一种，我们在训练和推理中使用相同数量的优化循环。第二种，我们用最多 16 个优化循环步骤训练一个模型，并分别用 1、4、8 和 16 个优化步骤来评估它。

比较这两类模型显示出实质性差异，尤其是在低推理优化步数（1 和 4）时，见图 5。用更多的优化步骤进行训练，可以将单次优化循环预测的性能提高超过 15 个百分点，尽管一次循环意味着没有任何优化的单次前向传播。在推理时增加更多的优化循环，影响则没有那么大。这表明，带优化的训练比在推理时使用优化更重要。

发现 3：跨任务迁移学习的影响有限

在原始论文中，HRM 在 960 个任务的演示对的增强版本上进行训练：

来自 ARC-AGI-1 训练集的 400 个任务。
来自密切相关的 ConceptARC 基准的 160 个任务。
来自 ARC-AGI-1 评估集的 400 个任务，这些任务也是评估时要解决的目标。

需要注意的是，这并不意味着数据泄露，因为模型在训练时从未看到评估任务的测试对——而这正是模型被评估的内容。

我们想了解跨任务迁移学习与推断并记忆评估时特定任务的解决方案相比，其影响如何。我们进行了以下实验：我们只在 400 个评估任务上进行训练——去掉了来自训练集的 400 个任务和来自 ConceptARC 数据集的 160 个任务。

在这种设置下，模型达到了 31% 的 pass@2 准确率，与最初的 41% 相比仅有小幅下降。这表明，绝大部分性能是由在评估时见过的任务上进行训练所驱动的。这意味着 HRM 的做法本质上是一种零预训练的测试时训练方法，类似于 Liao 和 Gu 的「无预训练的 ARC-AGI」。这相当于将模型用作一种程序合成基底——在任务的演示对上使用梯度下降，将执行该任务的程序编码到模型的权重中。

值得注意的是，在我们的实验中，仍然存在一定程度的跨任务迁移学习——在评估集的不同任务之间。我们实验的一个更强的版本是，在每个评估任务上单独运行 HRM 流程，这样模型在训练时只会看到它将被评估的那一个任务的演示对的增强版本。这将使 HRM 的设置与 Liao 和 Gu 的设置完全一致。我们没有时间运行这个实验，但我们推测结果将与 Liao 和 Gu 的（21% pass@2）非常接近。

发现 4：预训练的任务增强至关重要

我们研究的 HRM 流程中另一个重要组成部分是任务增强。

数据增强是深度学习中一种常用方法，用于增加数据集中的样本数量并提高模型的泛化能力。这意味着对任务应用旋转、翻转或颜色交换，从而在不改变任务基本概念的情况下生成新数据。

HRM 对任务的所有增强版本进行预测，然后将增强后的预测还原（或「去增强」），使其恢复到原始任务格式。然后，模型对这些预测进行多数投票以选出最终候选。

我们测试了对基线 HRM 的以下修改：

编译数据集时最大增强的数量。
用于多数投票的最大预测数量。

因为 HRM 只能处理训练期间遇到过的增强类型，所以我们在推理时对第 2 点的改变仅限于减少增强数量，而不能增加。

图 7 中的结果显示了两个趋势。首先，使用数据增强确实能显著提高性能。然而，仅使用 300 次增强，而不是论文中使用的 1000 次，就已接近最大性能。仅使用 30 次增强（论文中总数的 3%）的性能与最大性能相差不到 4%。

其次，在训练期间使用数据增强似乎比为多数投票获得更大的池子更重要。用更多增强训练的模型，在用较小池子进行推理时，性能下降得要少得多。

其他技术性学习

深入研究 HRM 的内部机制还带来了一些其他有趣的发现。

首先也是最重要的一点，HRM 将 ARC-AGI 任务分解为单个的输入-输出对，他们称之为谜题（puzzles）。每个谜题会获得一个 puzzle_id，它由任务哈希值和应用于此特定谜题的增强代码组成。

在训练和推理时，模型只接收输入和 puzzle_id——没有包含任务其他输入-输出示例的少样本上下文。HRM 模型必须学会将一个 puzzle_id 与一个特定的转换关联起来，以便它能从输入预测输出。

为此，它将 puzzle_id 输入一个大的嵌入层。这个嵌入层是关键——没有它，模型就不知道如何处理输入。这带来了一个主要限制：该模型只能应用于它在训练时见过的 puzzle_id。

在与作者就此话题的交流中，他们解释说，为少样本上下文更改谜题嵌入是一个复杂的工程挑战。在早期版本中，他们做过比较，发现在更大的类 ARC 数据集上，少样本上下文效果很好，但在样本受限的 ARC 上，谜题嵌入的表现明显更好。我们没有复现这些实验，但这为未来的工作指明了有趣的方向。

出于同样的原因，在这个版本的 HRM 中，推理数据必须是训练数据集的一部分。例如，独立地改变增强数量并不是一件直接的事情。

最后，虽然优化循环对性能有明显影响，但 HRM 是纯粹转导性的。虽然可以展开优化步骤，但底层的程序仍然是隐式的。我们的假设是，这种方法不具备泛化能力。

待解决的问题与未来工作

我们对 HRM 的实验为我们揭示了其在 ARC-AGI 上表现出色的原因，但其他问题依然存在。除了上面提到的，我们还邀请社区探索以下更多问题：

puzzle_id 嵌入对模型性能有多大影响？与将任务中的其余示例作为上下文提供相比如何？
HRM 在其训练数据之外的泛化能力如何？是否有任何方法可以在新数据上微调 HRM？
在推理时，学习到的停止机制有何影响？其好处仅限于节省计算资源，还是也能提高性能？
优化的思想是否能推广到其他方法，例如合成显式程序的归纳方法？
通过在每个评估任务上单独进行训练和评估，可以达到什么样的性能？（消除所有跨任务迁移学习。）
哪些特定的增强类型能带来更高的性能？旋转？颜色交换？为什么？

结语

来自 ARC Prize 的分析非常详尽，不少人感叹说，这才是真正的「同行评审」。

还有人说，这个分析本身和论文一样重要。如果大家以后能够更多地用这种方式去分析一些备受关注的研究，相信社区可以更加高效地获取一些新知识。

#LaDi-WM（Latent Diffusion-based World Models）

隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

在机器人操作任务中，预测性策略近年来在xx人工智能领域引起了广泛关注，因为它能够利用预测状态来提升机器人的操作性能。然而，让世界模型预测机器人与物体交互的精确未来状态仍然是一个公认的挑战，尤其是生成高质量的像素级表示。

为解决上述问题，国防科大、北京大学、深圳大学团队提出 LaDi-WM（Latent Diffusion-based World Models），一种基于隐空间扩散的世界模型，用于预测隐空间的未来状态。

具体而言，LaDi-WM 利用预训练的视觉基础模型 (Vision Fundation Models) 来构建隐空间表示，该表示同时包含几何特征（基于 DINOv2 构造）和语义特征（基于 Siglip 构造），并具有广泛的通用性，有利于机器人操作的策略学习以及跨任务的泛化能力。

基于 LaDi-WM，团队设计了一种扩散策略，该策略通过整合世界模型生成的预测状态来迭代地优化输出动作，从而生成更一致、更准确的动作结果。通过在虚拟和真实数据集上的大量实验，LaDi-WM 能够显著提高机器人操作任务的成功率，尤其是在 LIBERO-LONG 数据集上提升 27.9%，超过之前的所有方法。

论文地址：https://arxiv.org/abs/2505.11528

项目主页：https://guhuangai.github.io/LaDiWM.github.io/

论文创新点：

1. 一种基于隐空间扩散的世界模型：使用视觉基础模型构建隐空间的通用表示，并在隐空间学习可泛化的动态建模能力。

2. 一种基于世界模型预测迭代优化的扩散策略：利用世界模型生成未来预测的状态，将预测的状态反馈给策略模型，迭代式地优化策略输出。

图 1 :（左）通过任务无关的片段学习隐扩散世界模型；（右）通过世界模型的未来状态预测来优化策略模型

技术路线

该团队提出一种利用世界模型优化策略学习的框架，以学习机器人抓取操作相关的技能策略。该框架可分为两大阶段：世界模型学习和策略学习。

A. 世界模型学习：

(a) 隐空间表示：通过预训练的视觉基础模型对观测图像提取几何表征与语义表征，其中几何表征利用 DINOv2 提取，而语义表征则使用 Siglip 提取。

(b) 交互扩散：同时对两种隐空间表示实施扩散过程，并在扩散过程中让二者充分交互，学习几何与语义表征之间的依赖关系，从而促进两种表示的准确动态预测。

图 2 : 基于交互扩散的世界模型架构

B. 策略模型训练与迭代优化推理

（a）结合世界模型的未来预测引导策略学习：将世界模型给出的未来预测作为额外的输入，引导策略模型的准确动作预测；模型架构基于扩散策略模型，有利于学习多模态动作分布。

（b）迭代优化策略输出：策略模型可以在一个时间步多次利用世界模型的未来预测作为引导，从而不断优化自身的动作输出。实验显示，该方案可以逐渐降低策略模型的输出分布熵，达到更准确的动作预测。

图 3 : 基于未来预测引导的策略模型架构

实验结果

虚拟实验：

在公开的虚拟数据集（LIBERO-LONG，CALVIN D-D）中，团队验证了所提出框架在机器人抓取相关的操作任务上的性能。在实验中，世界模型的训练数据会与策略模型的训练数据区分开，从而验证世界模型的泛化能力。对于 LIBERO-LONG，给定语言指令，多次执行并统计机器人完成各项任务的成功率。对于 CALVIN D-D，连续给定五个语言指令，多次执行并统计平均完成任务的数量。

在 LIBERO-LONG 数据集，为了验证世界模型对策略模型的引导作用，团队仅使用 10 条轨迹去训练各任务，对比结果如表 1 所示。相比于其他方法，LaDi-WM 能够提供精确的未来预测，并将预测反馈给策略模型，不断优化动作输出，仅需少量训练数据即可达到 68.7% 的成功率，显著优于其他方法。

表 1: LIBERO-LONG 性能对比

在 CALVIN D-D 数据集上，LaDi-WM 同样展示了在长时任务中的强大性能（表 2）。

表 2: CALVIN D-D 性能对比

团队进一步验证了所提出框架的可扩展性，如图 4 所示。

（a）逐渐增大世界模型的训练数据，模型的预测误差逐渐降低且策略性能逐渐提升；

（b）逐渐增大策略模型的训练数据，抓取操作的成功率逐渐提升；

（c）逐渐增大策略模型的参数量，抓取操作的成功率逐渐提升。

图 4 : 可扩展性实验

为了验证 LaDi-WM 的跨场景泛化能力，团队在 LIBERO-LONG 上训练世界模型，并直接应用于 CALVIN D-D 的策略学习中，实验结果如表 3 所示。若是使用在 LIBERO-LONG 训练的原始策略模型，直接应用到 CALVIN D-D 是不工作的（表第一行）；而使用在 LIBERO-LONG 训练的世界模型来引导 CALVIN 环境下的策略学习，则可以比在 CALVIN 环境训练的原始策略的性能高 0.61（表第三行）。这表明，世界模型的泛化能力要优于策略模型的泛化能力。

表 3: 跨场景实验结果。L 代表 LIBERO-LONG，C 代表 CALVIN D-D

团队进一步探索了利用世界模型迭代优化的工作原理。团队收集不同迭代轮次下策略模型的输出动作并绘制其分布，如图 5 所示。迭代优化的过程中，输出动作分布的熵在逐渐降低，这表明策略模型每一步的输出动作更加稳定，从而提升整体的抓取成功率。

图 5 : 迭代优化的动作分布对比

真机实验：

团队也在真实场景中验证了所提出框架的性能，具体操作任务包括「叠碗」、「开抽屉」、「关抽屉」以及「抓取物体放入篮子」等，如图 6 所示。

图 6 : （左）真实场景环境；（右）机器人实际操作样例

在真实场景中，LaDi-WM 将原始模仿学习策略的成功率显著提升 20%（表 4）。

表 4: 真实场景性能对比

图 7 展示了最终所得策略模型在不同任务上的执行轨迹，从图中可以发现，提出的策略能够在不同光照条件以及不同初始位置的情况下有鲁棒的泛化性。

图 7 : 真实场景机器人执行轨迹

总结

国防科大、北京大学、深圳大学团队提出了一种隐空间扩散的世界模型 LaDi-WM（Latent Diffusion-based World Models），利用视觉基础模型提取通用的隐空间表示，并在隐空间学习可泛化的动态建模。同时，团队提出基于世界模型的未来预测来引导策略学习，在推理阶段通过迭代式地优化策略输出，从而进一步提高策略输出动作的准确度。团队通过虚拟与真机上广泛的实验证明了 LaDi-WM 的有效性，所提出的方法显著提升了机器人抓取操作技能的性能。

#SEAgent

开启从实战经验中自我进化的GUI智能体新纪元

当前计算机使用智能体（CUA）的发展，主要依赖于大量昂贵的人工标注数据。这极大地限制了它们在缺少现成数据的新颖或专业软件中的应用能力。为了打破这一瓶颈，来自上海交通大学和香港中文大学的学者们提出了 SEAgent，一个全新的、无需任何人类干预，即可通过与环境交互来自主学习和进化的智能体框架。

SEAgent 的核心创新在于其闭环的自主进化框架、一个经过深度优化的评判模型，以及一套高效的「专才 - 通才」融合策略。

论文链接: https://arxiv.org/abs/2508.04700v1

代码链接: https://github.com/SunzeY/SEAgent

SEAgent 的核心：三位一体的自主进化框架

图 2. 总体算法概览

SEAgent 的自主进化能力，源于其内部三大核心组件的协同工作，形成了一个可持续的、自我驱动的学习闭环。

课程生成器 (Curriculum Generator)：扮演「导师」的角色。它能根据智能体当前的能力，自动生成难度循序渐进的探索任务。它还会维护并更新一本「软件指南」，记录智能体在探索中发现的新功能，从而提出更具多样性和挑战性的新任务。
执行者 - 智能体 (Actor-CUA)：即智能体本身，它根据「导师」生成的任务，在软件环境中进行实际操作和探索。
评判者 - 世界状态模型 (World State Model)：作为框架的「裁判」，它负责评估智能体执行任务的每一步表现。它的精准评判，为智能体的学习提供了最关键的反馈信号，并帮助「导师」了解智能体的最新能力，从而形成一个完整的进化闭环。

图 3：自动课程学习构建细节

构建更好的「裁判」：世界状态模型的优化之路

一个精准的「裁判」是自主进化的基石。我们发现，现有的开源大视觉语言模型在评判智能体长序列操作时能力不足，当输入过多的历史截图时，其判断准确率甚至会下降。为了解决这一核心问题，我们着手构建了一个更强大的评判模型 ——

世界状态模型 (World State Model)。

我们的优化策略主要有两点：

革新评判范式：我们摒弃了只看最终结果的传统方式，而是让模型学会分析整个交互轨迹。通过对所有历史状态进行细致的、一步步的推理，模型能够更精准地捕捉到关键的成败节点，从而提供高质量的步骤级奖励信号。
高质量数据蒸馏：我们使用 GPT-4o 在 OSWorld 的 Chrome 环境中生成了包含 860 条高质量评判的轨迹数据，并利用这些数据对 Qwen2.5-VL-7B 模型进行微调。同时，我们创新性地引入了截图变化描述（Screenshot Change Description）的协同训练任务，这显著增强了模型对 GUI 微小变化的感知能力，进一步提升了评判的准确性。

经过优化，我们的世界状态模型在性能上大幅缩小了与 GPT-4o 等商业模型的差距，为 SEAgent 框架提供了可靠、稳定的评判能力。

图 4：算法流程伪代码

「专才 - 通才」融合：超越个体极限的训练策略

在单个智能体的进化之上，我们探索了如何构建一个能操作多种软件的「通才」模型。我们发现，直接在多软件环境中训练一个「通才」，效果并不理想，其性能甚至不如在单一软件上训练的「专才」模型。

为此，我们提出了一套高效的「专才到通才」（Specialist-to-Generalist）融合策略。该策略分为三步：

培养专才：首先，我们使用 SEAgent 框架，在五款不同的专业软件上分别训练出五个独立的「专才」智能体。
知识蒸馏：然后，我们收集这些「专才」模型执行成功任务的 3500 条轨迹数据，通过监督式微调（SFT）的方式，将它们的综合知识「蒸馏」到一个全新的通用模型中。
通才进化：最后，将这个已经具备了良好基础的「通才」模型，再次置于 SEAgent 框架中，在所有五种软件上进行最终的强化学习和进化。

图 5：主要实验结果与多轮训练提升

实验结果证明，这一策略取得了巨大的成功。最终得到的「通才」智能体，其综合成功率达到了 34.5%，不仅远超直接训练的通才模型（30.6%），甚至超越了所有「专才」模型的性能总和（32.2%），展示了「先专后通，融合进化」的强大潜力。

系统赋能与实证

严谨的消融实验证明了这套算法设计的必要性。结果显示，高质量的世界状态模型是有效学习的前提；基于探索的强化学习（GRPO）显著优于单纯模仿；而能够从错误中学习的对抗性模仿机制则带来了关键的性能提升。

这套核心算法被置于一个更大的系统框架中，由课程生成器提供循序渐进的任务，并通过「从专家到通才」的策略，将多个单一软件的「专家」能力融合成一个更强大的「通才」模型。最终，SEAgent 在 OSWorld 基准测试中取得了显著的性能飞跃，将基线模型的成功率大幅提升，充分验证了其算法框架的先进性与有效性。

本文第一作者是上海交通大学和上海人工智能实验室的联培博士生孙泽一，在 CVPR, ICCV, NeurIPS 上发表多篇论文，Google scholar citation 400 多次，目前的研究的兴趣是 GUI-Agent，多模态学习和强化学习。

#深度详解OpenAI开放模型的进化之路

从GPT-2到gpt-oss

众所周知，OpenAI 并不够 Open，不仅研究论文发得越来越少，开源模型也是千呼万唤始出来。其近日发布的两个 gpt-oss 开源模型已经吸引了无数关注，网上也已经出现了不少解读文章或视频。

近日，我们熟悉的 Sebastian Raschka 也发布了一篇深度技术博客，对 gpt-oss 进行了详细分析，并回顾了自 GPT-2 以来 AI 社区取得的进步；此外，他还将其与 Qwen 3 进行了比较。

博客标题：From GPT-2 to gpt-oss: Analyzing the Architectural Advances, And How They Stack Up Against Qwen3
博客地址：https://sebastianraschka.com/blog/2025/from-gpt-2-to-gpt-oss.html

以下为该博客文章的主要内容：

gpt-oss-120b 和 gpt-oss-20b 是自 2019 年 GPT-2 发布以来 OpenAI 发布的首批开放权重模型。得益于一些巧妙的优化，它们可以在本地运行。

我花了几天时间阅读代码和技术报告，总结出了其中最有趣的细节。

本文主要包括以下内容：

与 GPT-2 的模型架构比较
MXFP4 优化，使 gpt-oss 模型能够在单 GPU 上运行
宽度与深度的权衡（gpt-oss 与 Qwen3）
注意力偏差和 sinks
基准结果以及与 GPT-5 的比较

1、模型架构概述

在更详细地讨论架构之前，我们先大概了解一下这两个模型：gpt-oss-20b 和 gpt-oss-120b。

图 1：两个 gpt-oss 模型的架构示意图

如果你对 LLM 架构有所了解，可能乍一看会觉得这两个 gpt-oss 并没有什么新颖或不寻常之处。

这并不奇怪，因为领先的 LLM 开发商倾向于使用相同的基础架构，然后进行一些较小的调整。这纯粹是我的猜测，但我认为这是因为：

这些实验室之间存在大量的人员流动。
我们仍然没有找到比 Transformer 架构更好的架构。尽管现在已经有了状态空间模型（SSM）和文本扩散模型，但据我所知，还没有人证明它们在这种规模下的性能可媲美 Transformer。
大部分改进可能来自数据和算法的调整，而非重大的架构变更。

话虽如此，它们的设计选择仍然有很多有趣的方面。其中一些在上图中有所展示（也有一些没有，但我们稍后也会讨论）。在本文的其余部分，我将重点介绍这些特性，并逐一将它们与其他架构进行比较。

这里简单说明一下，gpt-oss-20b 模型可以在配备了 16 GB RAM 的消费级 GPU 上运行。gpt-oss-120b 模型可在配备 80 GB RAM 或更高配置的单块 H100 处理器上运行。但后面还会提到一些重要的注意事项。

2、自 GPT-2 以来的变化

在比较 gpt-oss 和更新的架构之前，让我们先回到过去，将其与 GPT-2 对比一番（图 2），看看它到底取得了多大的进展。

图 2：gpt-oss-20b 与 GPT-2 XL 1.5B 的比较。

gpt-oss 和 GPT-2 都是基于 2017 年的论文《Attention Is All You Need》中提出的 Transformer 架构构建的仅解码器 LLM。

但多年时间已过，许多细节已经变化。

然而，这些变化并非 gpt-oss 独有。正如后面介绍的，它们也出现在许多其他 LLM 中。

2.1 移除 Dropout

2012 年提出的 Dropout 是一种传统的防止过拟合的技术，其实现方式是在训练过程中随机「丢弃」（即将其设置为零）一部分层激活值或注意力分数（图 3）。然而，Dropout 在现代 LLM 中很少使用，GPT-2 之后的大多数模型都已放弃这种技术。

图 3：将 Dropout 应用于注意力分数矩阵的示意图

我推测，GPT-2 之所以使用 Dropout，是因为它继承自原始的 Transformer 架构。研究者可能后面注意到，它并没有真正提升 LLM 的性能（我在小规模的 GPT-2 复现运行中也观察到了同样的情况）。这可能是因为 LLM 通常只在海量数据集上进行单轮训练，这明显不同于 Dropout 最初引入时针对的数百轮训练方案。因此，由于 LLM 在训练过程中每个 token 只被识别一次，因此过拟合的风险很小。

有趣的是，虽然 Dropout 在 LLM 架构设计中多年来一直被忽略，但我找到了一篇 2025 年的研究论文《Drop Dropout on Single-Epoch Language Model Pretraining》—— 其中包含小规模的 LLM 实验 (Pythia 1.4B)，证实了 Dropout 在这些单轮训练方案中会导致下游性能下降。

2.2 RoPE 取代绝对位置嵌入

在基于 Transformer 的 LLM 中，由于注意力机制的存在，位置编码是必需的。默认情况下，注意力机制会将输入 token 视为无序的。在原始 GPT 架构中，绝对位置嵌入会通过为序列中的每个位置添加一个学习到的嵌入向量（图 4）来解决这个问题，然后将其添加到 token 嵌入中。

图 4：绝对位置嵌入示意图

RoPE（旋转位置嵌入）则是一种不同的方法：它不是将位置信息添加为单独的嵌入，而是通过根据每个 token 的位置对查询和键向量执行旋转来编码位置。

RoPE 于 2021 年首次提出，并随着 2023 年原始 Llama 模型的发布而得到广泛采用，此后已成为现代 LLM 的主要组成部分。

2.3 Swish/SwiGLU 取代 GELU

早期的 GPT 架构使用 GELU。为什么现在的使用 Swish 而不是 GELU？

在我看来，Swish 的计算成本略低，这就是它的全部优势。在不同的论文中，两者的建模性能都可能更优。在我看来，这些细微的差异可能在标准误差范围内，实际结果会根据超参数敏感度而有所不同。

激活函数曾经是一个热门的争论话题，直到十多年前深度学习社区基本确定采用 ReLU 函数。此后，研究者提出并尝试了许多类似 ReLU 的变体，这些变体具有更平滑的曲线，而 GELU 和 Swish（图 5）是其中最受青睐的变体。

图 5：Swish 和 GELU 激活函数的比较，它们都是 ReLU 的更平滑版本。

早期的 GPT 架构使用 GELU，其定义为 0.5x * [1 + erf (x /sqrt (2))]。其中，erf（误差函数的缩写）是高斯积分，它使用高斯积分的多项式近似来计算，这使得它的计算成本比 Swish 中使用的 S 型函数（其中 Swish 只是 x * sigmoid (x)）等更简单的函数更高。

实际上，Swish 的计算成本略低于 GELU，这可能就是它在大多数较新的模型中取代 GELU 的主要原因。

如今，Swish 已被应用于大多数架构。然而，GELU 并未被完全遗忘；例如，谷歌的 Gemma 模型仍然使用 GELU。

然而，更值得注意的是，前向模块（一个小型多层感知器）已被门控的「GLU」所取代，其中 GLU 代表门控线性单元，是在 2020 年的一篇论文中提出的。具体来说，2 个全连接层被 3 个全连接层所取代。

乍一看，GEGLU/SwiGLU 变体似乎比常规前向层更好，因为仅仅是因为增加了一层，参数就更多了。但这并非易事，因为在实践中，SwiGLU/GEGLU 中的 W 和 V 权重层通常被选择为传统前向层中 W_1 层大小的一半。

为了更好地说明这一点，来看看常规和 GLU 变体的具体代码实现：

图 7：常规前向模块（上）和 SwiGLU 变体（下）

因此，假设嵌入维度为 1024。在常规前向情况下，将会有：

fc1：1024 × 4096 = 4,194,304
fc2：1024 × 4096 = 4,194,304

也就是说，fc1 + fc2 = 8,388,608 个参数。

对于 GLU 变体，则有：

fc1：1024 × 1024 = 1,048,576
fc2：1024 × 1024 = 1,048,576
fc3：1024 × 1024 = 1,048,576

即 3 × 1,048,576 = 3,145,728 个权重参数。

因此，总体而言，使用 GLU 变体可以减少参数数量，并且性能也更好。性能更佳的原因是这些 GLU 变体提供了额外的乘法交互，从而提高了表示能力（这与深度细长的神经网络比浅层宽广的神经网络表现更好的原因相同，前提是它们训练得当）。

2.4 混合专家取代单个前向模块

除了将前向模块升级为 SwiGLU 之外，gpt-oss 还将单个前向模块替换为了多个前向模块，每个 token 生成步骤仅使用一个子集。这种方法被称为混合专家模型 (MoE)，如下图 8 所示。

图 8：前向模块被混合专家 (MoE) 取代。

因此，用多个前向模块替换单个前向模块（就像在 MoE 设置中所做的那样）会显著增加模型的总参数数量。然而，关键在于我们不会为每个 token 使用（「激活」）所有专家模型。相反，路由器只会为每个 token 选择一小部分专家模型。

由于每次只有少数专家模型处于活动状态，因此 MoE 通常被描述为稀疏模块，而密集模块则始终使用完整的参数集。然而，通过 MoE 形式积累的大量参数会增加 LLM 的容量，这意味着它在训练过程中会积累更多知识。同时，稀疏性可保证推理的高效性，因为我们不会同时使用所有参数。

（有趣的事实：在大多数 MoE 模型中，专家权重占模型总参数的 90% 以上。）

2.5 分组查询注意力取代多头注意力

近年来，分组查询注意力 (GQA) 兴起，成为了一种比多头注意力 (MHA) 计算效率和参数效率更高的替代方案。

在 MHA 中，每个注意力头都有自己的一组键和值。GQA 通过将多个注意力头分组以共享相同的键和值投影来减少内存占用。

例如，如图 9 所示，如果有 2 个键值组和 4 个注意力头，则注意力头 1 和 2 可能共享一组键和值，而注意力 3 和 4 则共享另一组键和值。这种分组会减少键和值的计算总量，从而降低内存占用并提高效率，而且根据消融研究，这不会显著影响建模性能。

图 9：MHA 与 GQA 的比较。此处，分组大小为 2，其中键值对在 2 个查询之间共享。

因此，GQA 的核心思想是通过在多个查询头之间共享键和值头来减少键和值头的数量。这可 (1) 降低模型的参数数量，(2) 减少推理过程中键和值张量的内存带宽占用，因为需要从键值缓存中存储和检索的键和值更少。

虽然 GQA 主要是为了提高 MHA 的计算效率，但一些消融研究（例如原始 GQA 论文和 Llama 2 论文中的研究）表明，它在 LLM 建模性能方面与标准 MHA 相当。

2.6 滑动窗口注意力

滑动窗口注意力（下图 10）最早在 LongFormer 论文（2020 年）中提出，后来由 Mistral 推广。有趣的是，gpt-oss 每隔一层就应用一次它。你可以将其视为多头注意力（在本例中为分组查询注意力 (GQA)）的一种变体，其中注意力上下文被限制在较小的窗口中，从而可同时降低内存使用量和计算成本。

图 10：常规注意力（左）与滑动窗口注意力（右）的比较。

具体来说，gpt-oss 会交替关注完整上下文的 GQA 层和滑动窗口限制为 128 个 token 的 GQA 层。

实际上，Gemma 2 (2024) 也使用了类似的 1:1 比例。今年早些时候发布的 Gemma 3 则更进一步，改为 5:1 的比例，这意味着每五个滑动窗口（局部）注意力层只有一个完整的注意力层。

根据 Gemma 的消融研究，滑动窗口注意力对建模性能的影响微乎其微，如下图所示。需要注意的是，Gemma 2 中的窗口大小为 4096 个 token，而 Gemma 3 将其减少到 1024 个 token。在 gpt-oss 中，窗口只有 128 个 token，非常小。

另外，有趣的是，OpenAI 的官方文章指出，滑动窗口注意力显然已在 GPT-3 中使用：「这些模型使用了交替的密集和局部带状稀疏注意力模式，类似于 GPT-3」

我回顾了 GPT-3 的原始论文，那里确实提到了这一点：「我们使用了与 GPT-2 相同的模型和架构，包括其中描述的修改后的初始化、预归一化和可逆 token 化，不同之处在于，我们在 Transformer 的各层中使用交替的密集和局部带状稀疏注意力模式，类似于 Sparse Transformer。」

2.7 RMSNorm 替换 LayerNorm

最后一个不同于 GPT-2 的小调整是用 RMSNorm (2019) 替换 LayerNorm (2016)，这是近年来的一个常见趋势。

类似于用 Swish 和 SwiGLU 替换 GELU，RMSNorm 也是合理的效率小改进之一。 RMSNorm 与 LayerNorm 类似，其目的都是对层激活进行归一化，如下图 11 所示。

你可能还记得，不久前，BatchNorm 还是这项任务的首选。但后来它逐渐失宠，主要是因为它难以高效并行化（由于均值和方差的批次统计数据），并且在小批量下表现不佳。

图 11：LayerNorm（左）和 RMSNorm（右）在小型线性层中的比较。

如上图 11 所示，LayerNorm 和 RMSNorm 都会将层输出缩放到合理的范围内。

LayerNorm 的做法是减去均值并除以标准差，使得层输出具有零均值和单位方差（方差为 1，标准差为 1）。

RMSNorm 则是将输入除以均方根。这不会强制要求均值和方差为零，但均值和方差应处于合理范围内：均值在 -1 到 1 之间，方差在 0 到 1 之间。在图 11 所示的特定示例中，均值为 0.77，方差为 0.41。

LayerNorm 和 RMNSorm 都能稳定激活尺度并改善优化效果，但 RMNSorm 通常更适合大规模 LLM，因为它的计算成本更低。与 LayerNorm 不同，RMNSorm 没有偏差（平移）项，并将昂贵的均值和方差计算简化为一次均方根运算。这将跨特征约简的次数从两次减少到一次，从而降低 GPU 的通信开销并提高训练效率。

2.8 GPT-2 的遗产

我仍然认为，在学习 LLM 时，GPT-2 是一个优秀的入门架构。它足够简单易懂，不会迷失在层层优化技巧中，但又足够复杂，能够让你扎实掌握现代 Transformer 模型的工作原理。

从 GPT-2 开始，你可以专注于基础知识（注意力、位置嵌入、规范化和整体训练流程），而不会被新架构中的额外功能和调整所淹没。

事实上，我认为在尝试叠加新的变化之前，先花时间了解甚至实现 GPT-2 是值得的。你不仅能更容易地理解这些变化，而且你可能会更加欣赏它们，因为你将更好地理解它们试图解决的局限性或问题。

例如，我最近从我的 GPT-2 代码入手，从零开始实现了 Qwen3 架构，它与 gpt-oss 非常相似，这就引出了下一个话题：将 gpt-oss 与更新的架构进行比较。

从头开始实现 Qwen3：https://github.com/rasbt/LLMs-from-scratch/tree/main/ch05/11_qwen3

3、比较 gpt-oss 与最新架构 (Qwen3)

现在我们已经了解了从 GPT-2 到 gpt-oss 的演变过程，接下来我们将 gpt-oss 与更新的架构 Qwen3 进行比较，后者于三个月前（2025 年 5 月）发布。

我之所以选择 Qwen3，是因为截至撰写本文时，它是顶级的开放权重模型之一。此外，Qwen3 也是 MoE 模型，由于其可训练参数的总体规模相对相似，几乎可以直接与 gpt-oss 相比。

下图对比了 gpt-oss-20B 与大小相当的 Qwen3 模型。

图 13：大小相当的 gpt-oss 和 Qwen3 模型。

可以看到，gpt-oss 20B 和 Qwen3 30B-A3B 在架构组件上非常相似。除了尺寸之外，主要区别在于 gpt-oss 采用了滑动窗口注意力，而 Qwen3 则没有。

我们将在以下小节中逐一介绍值得注意的细节。

3.1 宽度与深度

仔细观察这两个模型，我们会发现 Qwen3 的架构更深，它有 48 个 Transformer 模块，而不是 24 个。

另一方面，gpt-oss 的架构更宽：

嵌入维度为 2880，而非 2048
中间的专家（前向）投影维度也为 2880，而非 768

还值得注意的是，gpt-oss 使用了两倍的注意力头，但这并不会直接增加模型的宽度。宽度由嵌入维度决定。

在参数数量固定的情况下，哪种方法更有优势？根据经验，更深的模型更灵活，但由于梯度爆炸和梯度消失（RMSNorm 和 shortcut 连接旨在缓解这些问题）导致的不稳定性问题，训练起来可能更困难。

更宽的架构具有推理速度更快的优势（每秒 token 吞吐量更高），这是因为并行化程度更高，但内存成本也更高。

就建模性能而言，遗憾的是，据我所知，除了 Gemma 2 论文（表 9）中的一项消融研究（ablation study）之外，目前尚无很好的同类比较（在参数大小和数据集保持不变的情况下）。该研究发现，对于 9B 参数架构，较宽的设置略优于较深的设置。在 4 个基准测试中，较宽的模型平均得分为 52.0，而较深的模型平均得分为 50.8。

3.2 少量大型专家 vs. 大量小型专家

如上图 14 所示，值得注意的是，gpt-oss 的专家数量出奇地少（32 个而不是 128 个），并且每个 token 仅使用 4 个而不是 8 个活跃专家。然而，每个专家的数量都比 Qwen3 中的专家数量要多得多。

这很有意思，因为最近的趋势和发展表明，更多、更小的模型是有益的。在总参数大小不变的情况下，这种变化在来自 DeepSeekMoE 论文的下图中得到了很好的展示。

图 15：来自《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》的图片，https://arxiv.org/abs/2401.06066

值得注意的是，与 DeepSeek 的模型不同，gpt-oss 和 Qwen3 都没有使用共享专家。

公平地说，gpt-oss 中专家数量较少可能是 20B 规模的副作用。查看下面的 120B 模式，它们确实增加了专家（和 Transformer 模块）的数量，同时保持其他所有参数不变，如下图所示。

图 16：两个 gpt-oss 架构比较，其中更大的 120B 模型仅扩展了 Transformer 模块和专家的数量。

20B 和 120B 模型如此相似的一个无聊解释可能是因为 120B 模型是主要关注点。而创建较小模型最简单的方法是使其更短一些（减少 Transformer 模块）并减少专家数量，因为大多数参数都存储在专家数量中。然而，有人可能会猜测他们是否先训练 120B 模型，然后砍掉一些 Transformer 模块和专家数量用于继续预训练（而不是从随机权重开始）。

无论如何，这是因为只缩放这两者（Transformer 模块和专家数量）的情况并不常见。例如，在查看多种尺寸的 Qwen3 MoE 模型（下图 17）时，它们在更多方面彼此之间进行了更均衡的缩放。

图 17：各种 Qwen3 模型的架构差异。

3.3 注意力偏差和 sinks

gpt-oss 和 Qwen3 都使用分组查询注意力。主要区别在于，如前所述，gpt-oss 通过在每个第二层中滑动窗口注意力来限制上下文大小。

然而，有一个有趣的细节引起了我的注意。gpt-oss 似乎为注意力权重使用了偏差单元（bias units），如下图所示。

图 18：gpt-oss 模型在注意力层中使用了偏差单元。

自 GPT-2 时代以来，我就没见过这些偏差单元被使用，它们通常被认为是多余的。事实上，我发现了一篇最近的论文，从数学上证明了至少对于键变换 (k_proj) 来说，情况确实如此。此外，实证结果表明，使用和不使用偏差单元之间几乎没有差异（见下图 19）。

图 19：来自 https://arxiv.org/pdf/2302.08626 的表格，显示了使用和不使用偏差单元从头开始训练模型时的平均测试损失。

你可能注意到的另一个细节是图 18 代码截图中 sinks（sinks）的定义。在一般模型中，注意力 sinks 是放置在序列开头的特殊「始终关注」token，用于稳定注意力，这在长上下文场景中尤其有用。也就是说，如果上下文变得很长，开头这个特殊的、被关注的 token 仍然会被关注，并且它可以学习存储一些关于整个序列的普遍有用的信息。

在 gpt-oss 实现中，注意力 sinks 并非输入序列中的实际 token。相反，它们是学习到的每人偏差逻辑单元 (per-headbias logits)，并附加到注意力分数中（图 20）。其目标与上述注意力 sinks 相同，但不修改 token 化的输入。

图 20：gpt-oss 中注意力 sinks 的使用

3.4 许可证

最后，与 Qwen3 类似，gpt-oss 模型采用了 Apache 2.0 开源许可证，这非常棒（这也是我自己的开源项目所偏好的许可证）。这意味着这些模型可以不受限制地蒸馏成其他模型或用于商业产品。

开放权重 LLM vs 开源 LLM：这种区别多年来一直存在争议，但值得澄清以避免混淆。一些模型开发者只发布模型权重和推理代码（例如 Llama、Gemma 和 gpt-oss），而另一些模型开发商则会将所有东西都开源，包括训练代码、数据集和权重。（例如 OLMo）

按照更严格的定义，gpt-oss 是一个开放权重模型（就像 Qwen3 一样），因为它包含权重和推理代码，但不包含训练代码或数据集。然而，业界对这一术语的使用并不一致。

我曾经以为「gpt-oss」中的「oss」表示开源软件（open source software）；然而，令我惊讶的是，OpenAI 在其官方公告文章中明确地将 gpt-oss 描述为开放权重模型。

4、其他有趣细节

虽然前面几节描述了该架构自 GPT-2 以来的演变，并讨论了它与 Qwen3（以及大多数其他近期模型）的相似之处，但还有一些值得注意的细节尚未提及。

这些要点不适合放在前面几节，但仍然值得一提。

4.1 训练概况

遗憾的是，关于 gpt-oss 的训练集大小和算法的信息并不多，但我从其模型卡 (1) 和宣布文章 (2) 中找到了一些有趣的拼图碎片：

由此，我们知道 gpt-oss 模型是推理模型。训练计算量是 210 万个 H100 GPU 小时数，与规模约 5.6 倍的 DeepSeek V3 模型所需的 278.8 万个 H800 GPU 小时数的训练计算量大致相当。遗憾的是，目前尚无关于 Qwen3 训练时间的信息。

有趣的是，gpt-oss 的训练时间估算包含了用于指令遵循的监督学习和用于推理的强化学习，而 DeepSeek V3 只是一个预训练的基础模型，DeepSeek R1 是在此基础上单独训练的。

4.2 推理工作

如上一节所述，gpt-oss 模型是推理模型。然而，特别有趣的是，它们的训练方式使得用户可以通过推理时间缩放轻松控制推理程度。

具体来说，gpt-oss 模型可以接收「推理工作量：低 / 中 / 高」指令作为其系统提示词的一部分，这可直接影响响应长度和准确率，如图 21 所示。

图 21：不同推理工作量下 gpt-oss 模型的响应长度和质量

这种可调整性非常有用，因为它使我们能够平衡成本、计算量和准确率。例如，如果任务很简单，例如回答一个简单的知识问题或修复一个小拼写错误，我们可以跳过扩展推理。这能节省时间和资源，同时避免不必要的冗长响应和冗长的推理痕迹。

与 Qwen3 或 OLMo 不同，OpenAI 没有发布强化学习训练之前的基础模型，这多少有些遗憾。基础模型对于研究推理方法的研究者来说是极其宝贵的起点（这也是我目前喜欢使用 Qwen3 Base 的原因之一）。我猜测，OpenAI 的决定更多是出于行业和生产用例的考虑，而非研究方面的考虑。

请注意，原始 Qwen3 模型也有一个用于启用 / 禁用思考（推理）模式的开关（通过在 tokenizer 中设置 enable_thinking=True/False 来启用 / 禁用推理行为）。然而，Qwen3 团队在过去几周更新了他们的模型，并从混合模型转向了专用的 Instruct/Thinking/Coder 变体。

原因是混合模式下的模型性能低于单个模型：「在与社区讨论并反思此事后，我们决定放弃混合思考模式。现在我们将分别训练 Instruct 和 Thinking 模型，以实现最佳质量。」

4.3 MXFP4 优化：一个细小却重要的细节

一个有趣的惊喜是，OpenAI 还发布了为 MoE 专家采用了 MXFP4 量化方案的 gpt-oss 模型。

量化格式曾经是一个小众话题，主要与移动或嵌入式 AI 相关，但随着模型规模的扩大，这种情况发生了变化。在这种情况下，MXFP4 优化能让模型在单台 GPU 设备上运行。

实际效果如下：

大型模型（例如 120B）可安装在单台 80GB H100 或更新的 GPU 上。虽然不是消费级硬件，但租用一台单 H100 的机器比租用多台 H100 的机器便宜得多。此外，我们不必担心在 GPU 之间分配模型并增加通信开销。 AMD MI300X 显卡从第一天起就支持，真是太好了！
较小的 20B 模型甚至可以使用 16 GB 显存；需要注意的是，它必须是 RTX 50 系列或更新的 GPU 才能支持 MXFP4。

请注意，这些模型也可以在较旧的硬件上运行，但不支持 MXFP4，因此会消耗更多内存。如果没有 MXFP4 优化，bfloat16 模型将消耗更多内存，例如 48 GB（gpt-oss-20b）和 240 GB（gpt-oss-120b）。

顺便说一句，我可以在 Mac Mini 上使用 ollama 轻松运行 gpt-oss-20b 模型。它占用大约 13.5 GB 的内存。嗯，很合理。

4.4 基准成绩

这些模型还比较新，还没有多少可靠的独立基准测试结果。比如 LM Arena 排行榜上，gpt-oss 尚未上榜。因此，根据 LM Arena 用户的数据，Qwen3-Instruct 目前仍然引领开放权重模型（图 22）。

图 22：LM Arena 排行榜当前视图（截至 2025 年 8 月 12 日）

只看 gpt-oss 发布博文中提供的推理基准测试，我们可以看到 gpt-oss 模型与 OpenAI 的专有模型以及 Qwen3 的性能相当（图 23）。

图 23：主要基准测试图表来自官方 gpt-oss 官方公告。「no tools」的 gpt-oss-120b 数据取自官方模型卡，Qwen3 数据取自官方 Qwen3 代码库。

然而，需要注意的是，gpt-oss-120b 的大小几乎只有 Qwen3 A235B-A22B-Thinking-2507 模型的一半，而且可以在单台 GPU 上运行。

然而，基准测试性能并不总是反映实际可用性。在过去几天有限的使用中，我发现 gpt-oss 相当强大。不过，正如其他人所观察到的，它似乎确实有相对较高的幻觉倾向（这一点在其模型卡中也有提到）。

这可能源于它在训练过程中过于注重数学、谜题和代码等推理任务，这可能导致它「遗忘了一些常识」。不过，由于 gpt-oss 在设计时就考虑到了工具的使用，因此随着时间的推移，这一限制可能会逐渐减弱。开源 LLM 中的工具集成仍处于早期阶段，但随着它的成熟，我预计我们会越来越多地让模型在回答事实或基于知识的查询时参考外部资源（例如搜索引擎）。

届时，更明智的做法是优先考虑推理能力而不是记忆能力。这很像人类在学校（或生活中）的学习，解决问题的能力往往比记忆事实更重要。

5、gpt-oss 和 GPT-5

OpenAI 度过了忙碌的一周，在 gpt-oss 发布后不久就发布了备受期待的 GPT-5 模型。GPT-5 的发布非常有趣。如果说有什么要说的，那就是我真的很惊讶，他们的开源模型在基准性能方面与他们最好的产品相比竟也如此出色（图 24）。

图 24：主要基准图表来自 GPT-5 官方公告。gpt-oss 数据取自官方模型卡和公告，Qwen3 数据取自官方 Qwen3-Coder 代码库。

总而言之，尽管有些人认为该版本被过度炒作，但我很高兴我们拥有了一套真正强大的开放权重模型，它们与最好的专有模型并无太大差距。

当然，基准测试通常不能准确反映实际使用情况，而且由于使用情况有限，现在下结论还为时过早。但我认为，对于喜欢使用开放权重和本地（或私有托管）模型的人来说，这是件好事。

#机器人也会「摸鱼」了？

宇树G1赛后葛优瘫刷美女视频，网友：比人还懂享受生活

好家伙，昨晚躺在床上无所事事的刷着视频，瞬间被眼前的这个机器人笑精神了。

只见它活脱脱的像个人一样，慵懒地瘫在沙发上，指尖夹着根「香烟」，另一只机械手握着手机，「眯着眼睛」看美女跳舞。

，时长00:18

来源：https://x.com/reborn_agi/status/1957064871226614107

看到这，网友们在评论区直接笑翻：未来不是机器人取代人类，而是机器人先学会摸鱼！

我一边看一边在想，这是哪家的机器人，这么会享受？

细细一看才发现，原来是宇树家的 G1 机器人，在刚刚结束的 2025 世界人形机器人运动会上拿到金牌后，给自己放松的小插曲。真是没看出来啊，场上它意气风发，场下立马化身人间真实，葛优瘫、刷短视频、还要来根「电子香烟」，简直比人还会享受生活。

果然，强大的机器人不光要能跑能跳，还得会摸鱼才算全面发展，人类劳逸结合的精神也传播到机器人身上了。

乐子归乐子，这次运动会，宇树机器人的比赛成绩非常亮眼：

1500 米，「肇事逃逸」

我们先看它的速度：宇树机器人在百米赛跑中，都跑出残影了，把后面操作员累的够呛。

宇树不语只是一味奔跑。

百米大战，快如闪电：

刚刚起点，差距就拉开了：

第四跑道是宇树

4X100米接力赛，成功接棒：

宇树机器人在第四赛道

不过要说今年机器人运动会上最出圈的事，莫过于宇树机器人「肇事逃逸」事件。

在 8 月 15 日的 1500 米决赛中，宇树科技的 H1 机器人在冲刺阶段撞倒对方操作员，然后继续参赛并且夺冠。

视频中可以看到，H1突然改变赛道，撞倒对方操作员后又回到了自己的赛道继续比赛。

，时长01:57

这段视频火遍国内外，不少网友也玩起了梗。

有「比赛策略」分析，表示干翻敌人指挥就能超过对手。

有畅想未来的，担心老了以后被机器人「制裁」。

还有「理论派」，表示这违背了机器人不伤害人类的第一法则。

当然，网友们也只是开个玩笑。从另一个视角看，这其实属于一起操作事故，是由于两个操作员交接时没有控制好机器人导致的。

，时长00:37

不禁想起一张神图。

赛后被撞团队也给出了回应，表示宇树的硬件、算法和步态上都很出色，在高速奔跑场景下，对操作员的技术要求确实更高。

王兴兴也回应表示宇树 H1 机器人已具备自主运动能力，但为追求比赛速度，最终采用了人工遥控策略。

不过人工遥控的很大问题是操作员会体力不支，他明确表示「下次比赛我们肯定是全自主的，这并没有难度」，并计划明年让机器人以完全自主的方式参加北京亦庄半程马拉松。

其实本次世界机器人运动会有自主参赛的机器人，北京人形机器人创新中心派出「天工 Ultra」在 100 米短跑中凭借自己的视觉、自动驾驶领域的车道线保持技术，实现全自主奔跑。

正因为全自主，天工队得以享受最终时长乘以 0.8 的系数优惠，最终以 21.50 秒夺冠。这也是今年 4 月全球首个人形机器人半马冠军同款型号。

一波未平，一波又起。另一端宇树撞到对手机器人的视频也流传开来， 4×100 米接力赛中，Unitree H1 闯入对手赛道，与 Noetix 中途相撞。

，时长00:14

评论区表示，当前的机器人算法还「有待进步」。

100 米障碍赛

宇树 G1 人形机器人在 100 米障碍赛上的表现也非常好，成绩为 33.71 秒。

来源：https://mp.weixin.qq.com/s/M7cmjJhiPBP99O02eorRag

我们看看 G1 在这场比赛中的高光时刻。

上阶梯和下阶梯都不会摔倒，这非常考验机器人的平衡与协调能力：

绕桩测试也难不倒，这种测试如果导航不够好的话，很容易被卡住，就像这样：

不过G1 很快就调整过来了：

在连续斜坡上跑得稳如平地：

让天工机器人吃大亏的螺旋台阶中的下台阶过程，宇树也闯过去了。

跨栏动作干净利落：

可以说，100 米障碍赛是人形机器人的核心考验之一：不仅要会走，还要稳走，才能在复杂环境下执行任务而不出差错。

比赛过程非常有看点，不过也有细心的网友发现了华点，G1 的左脚都跑坏了：

还有网友表示「题目越难，差距越大。」

虽然这届人形机器人运动会贡献了不少好笑的翻车场景，但另一方面我们也看到技术在不断的进步，相信，下一届这些机器人会表现的更好。

你还看到哪些好看、好笑的比赛瞬间，欢迎评论区留言。

51c大模型~合集169