自己的原文哦~ https://blog.51cto.com/whaosoft/14152349
#从RAG到Deep Research全景综述
一文看懂AI搜索与Web智能体
一文带你了解Deep Research和Web Agent背后的原理。
1. 摘要
随着互联网技术的发展,信息搜索变得日益重要;高效的检索、评估、筛选和管理信息资源已成为必备技能。传统搜索引擎往往难以准确把握复杂的人类意图,因此获取最终答案常常耗时费力。近年来,大型语言模型(LLMs)在语言理解与生成方面表现突出,但在获取外部知识和最新信息上仍存在局限。AI搜索和Web智能体通过将 LLMs 能力融入传统互联网搜索流程,能够更好地应对复杂用户问题,显著提升信息浏览与检索的效率与准确性。
如图1所示,本文对近些年AI搜索相关80余篇工作进行了深入回顾。重点涵盖(1)基于文本的 AI 搜索、(2)Web智能体、(3)多模态 AI 搜索与Web智能体、(4)基准评测、(5)AI搜索软件与产品。
详细可参考论文链接:
https://www.preprints.org/frontend/manuscript/79453d62cbbfce9ac42239071098a3d9/download_pub
图1. 近年来AI搜索和Web智能体相关工作概览
2. 文本AI搜索
基于文本的AI搜索代表了信息检索系统的重大变革,它从传统搜索引擎发展到融合检索增强生成(RAG)工作流和深度搜索能力的复杂方法。这种技术的核心在于将LLMs的强大语言理解和生成能力与搜索引擎的海量信息获取能力相结合,以解决复杂的现实世界信息检索挑战。一种高效且经典的workflow如图2所示,包含有几个重要模块:意图模型,问题改写模型,搜索引擎,网页重排模型,总结模型。
图2. 基于文本的AI搜索经典工作流图
检索增强生成(RAG)工作流
朴素的AI搜索采用类似RAG的思路,如图3所示,本质上是检索(Retrieval)全网知识库来增强(Augment)大模型的生成(Generate)准确答案的能力。传统的RAG方法通过预定义的工作流程运行,主要包含四种范式。(1)顺序RAG采用线性的"检索-然后-生成"工作流,首先获取相关文档,然后基于这些文档生成最终回答。(2)分支RAG通过多个并行管道处理输入查询,每个管道都可能涉及自己的检索和生成步骤,然后合并输出以获得全面的答案。(3)条件RAG引入决策模块来自适应地确定给定查询是否需要检索,提高了系统的灵活性和鲁棒性。(3)循环RAG具有迭代和交互式的检索-生成循环,能够进行深度推理并处理复杂查询。
图3. 基于RAG的AI搜索流程图
端到端深度搜索方法
与传统RAG工作流不同,深度搜索方法通过在端到端连贯推理过程中调用搜索引擎来获取外部知识,以解决复杂的信息检索问题。这种方法的核心优势在于不需要预定义的工作流程,模型可以在推理过程中自主决定何时调用与搜索相关的工具,使其更加灵活和有效。深度搜索方法能够让模型在遇到不确定信息时自主检索外部知识,有效解决了长链式思维推理中的知识空白问题,在数学、科学、编程和多跳问答任务中都表现出显著的性能提升。
(1)无需训练的框架设计
如图4所示,无需训练的方法通过精心设计的指令来增强推理模型的搜索能力,使模型能够意识到其任务性质以及如何正确使用搜索工具。Search-o1等代表性工作提出了智能体RAG机制,允许推理模型在主要推理过程中遇到不确定信息时自主检索外部知识。这些方法还引入了文档深度推理过程,在每次搜索调用后深度分析检索到的文档内容,将简洁有用的信息返回到主推理链中。后续的WebThinker、WebDancer、ManuSearch等工作进一步发展了这一范式,通常引入对收集的网页URL的浏览功能,以实现深度网络探索。此外,一些工作如WebThinker还探索了在收集信息的同时自主撰写研究报告,为用户提供更全面和前沿的知识。
图4. 无需训练的端到端基于深度搜索的AI搜索流程图
(2)基于后训练的方法
如图5所示,基于训练的方法设计各种训练策略来激励或增强LLM在推理过程中的搜索能力,这些策略涵盖预训练、监督微调(SFT)和强化学习(RL)等多个层面。在预训练阶段,MaskSearch框架引入检索增强掩码预测任务,训练模型使用搜索工具来填充被掩码的文本。在监督微调方面,多种方法专注于合成包含搜索动作的长链式思维数据,如CoRAG通过拒绝采样自动生成检索链,ReaRAG通过策略蒸馏构建专门的数据集。强化学习训练最近获得了显著关注,包括基于直接偏好优化(DPO)的方法和基于PPO、GRPO等的训练策略。这些方法通过设计先进的奖励函数、结合结果和过程奖励、提高训练效率等方式,不断优化模型对搜索工具的使用效率和准确性,使其能够更有效地处理复杂的信息检索和推理任务。
图5. 有后训练的端到端基于深度搜索的AI搜索流程图
3. Web Agent
Agent是一种自主的智能体,能够响应输入、执行和上下文相关的动作,其核心目标是模拟人类的决策过程。而Web Agent是Agent在垂直领域的应用。不同于AI搜索,Web智能体模拟人类浏览网页的过程,在当前网络环境上获取信息决定后续操作。
基于提示词的Web Agent
如图6,基于提示词的Web Agent这种方法不需要对模型的参数进行调整,所以方便快捷,所需的资源也较少。这类Web Agent致力于精心设计的提示词(Prompt)工程,将输入的信息通过筛选、拼接、结构化等方式进行处理,形成特定格式的Prompt,便于通用LLM进行理解以获取结果。例如WebVoyager对网页的截图和网页的结构化数据结合,形成Prompt输入GPT-4V进行处理,输出下一步操作,直至获取最终答案。
图6. 基于提示词的Web智能体
基于后训练的Web Agent
鉴于Web Agent实际使用时网络环境和网页浏览任务的复杂性,如图7所示,Web Agent需要通过后训练如SFT或RL来微调模型网页知识,从而返回下一步的决策。WebAgent-R1就是利用强化学习,以DeepSeek-R1为基础模型,通过改进的GRPO构建纯端到端Web Agent。另外一种常用方法就是SFT,比如Falcon自主构建图形用户界面(GUI)数据集,再通过微调使LLM可以更好地处理GUI信息,增强Web Agent浏览GUI的能力。
图7. 基于后训练的Web智能体
4. 多模态AI搜索与Web智能体
当用户的问题或答案中包含图片时,就需要多模态 AI 搜索;另外互联网上的信息往往以图文交织的形式呈现。如图8所示,你在博物馆拍下一件古董的照片,想要了解它背后的历史背景或相关人物,这就需要多模态AI搜索。近来,多模态大语言模型(MLLMs)在视觉感知,理解和推理中应用广泛。经典的模型如GPT-4V,LLaVA等在学术界和工业界应用广泛。
图8. 多模态AI搜索流程示例图
多模态AI搜索的代表工作包括MMSearch和MMSearch-R1。如图9所示,MMSearch将AI搜索流程中三个阶段requery,rerank,summarization里的LLM都替换成了MLLM。MMSearch-R1采用强化学习和多轮搜索的方式来进一步提升基于搜索的图片问答能力。
图9. 两种多模态AI搜索方法
此外还有多模态Web Agent,这种Web Agent模拟人类视觉通过辅助输入网页截图实现拟人化操作,显著提升在复杂网络环境中的任务完成效率。代表作有SEEACT,WebVoygar,WebWatcher。例如如下任务:在xx汽车租赁网站上“以最低的价格租一辆轻型卡车”。多模态Web智能体利用类似GPT-4v的MLLM来视觉感知网页图片中不同类型的汽车,生成思维链,输出可执行的网页操作。
5. 评测集(1)文本AI搜索评测集
对AI搜索模型进行科学评估,是推动其技术发展的关键一环。为此,研究者们构建了一系列评测基准来衡量模型在真实场景下的检索与推理能力。
传统评测基准及其局限性 传统的评测基准,如Natural Questions (NQ)、HotpotQA、FEVER等,主要用于评估模型在多跳推理、事实核验等任务上的表现,其数据源通常是维基百科等结构化知识库。然而,随着大模型能力的飞速提升,这些传统评测集已逐渐“饱和”,顶尖模型在这些任务上接近满分,难以有效地区分出模型间的真实能力差距。
现代浏览基准的挑战 为了更真实地反映现实世界的信息检索挑战,研究者们开发了新一代的现代浏览基准,如BrowseComp、BrowseComp-ZH和Mind2Web 2。这些评测集的核心特点是高度复杂且贴近真实应用场景。它们要求模型不再是简单地进行单次查询,而是像人类一样,在复杂的互联网环境中进行持续的导航、推理和信息整合,解决需要多步骤才能找到答案的难题。
如图10提到的BrowseComp-ZH中的一个问题就极具代表性。要解决此问题,AI模型必须具备以下能力:
问题分解:将一个复杂问题拆解为三个关于不同角色的独立信息线索。
多轮搜索:针对每个线索执行独立的网络搜索,如“1993年出道的女演员”、“丈夫是湖州人的女演员”等。
信息整合与推理:将多轮搜索得到的分散信息进行交叉验证和关联,最终推理出所有线索共同指向的唯一答案。
这类高难度的评测任务,能够更精准地检验AI搜索模型在开放环境下的真实能力,从而推动技术向着更智能、更实用的方向演进。
图10. AI搜索评测集
(2)Web智能体评测集
Web Agent 基准测试模拟了现实世界网络环境中的交互式任务,评估Agent在导航、操作和推理方面的能力。主要分为两类,第一类是通用评测基准,评估Web Agent在多样网站完成任务的能力,如Mind2Web和WebArena。Mind2Web部分网站和任务如图11所示。第二类是针对特定网站和任务的专用评测基准,如DeepShop和SafeArena,分别在电子商务和恶意浏览两个方面对Web Agent进行评估。
图11. Mind2Web评测集
(3)多模态AI搜索评测集
对于多模态AI搜索评测集,MMsearch评估了MLLM在AI搜索流程中的三个任务的能力。LIVEVQA是图片知识问答,如图12所示,对于一些复杂或者实时问题需要借助互联网搜索才能回答准确。VisualWebArena是评估多模态Web智能体的评测集。
图12. LIVEVQA评测集
6. AI搜索软件与产品
AI搜索产品已迅速分化为全球通用型产品、垂直领域产品和集成化助手三大类别。下文将分别介绍这三个类别的核心产品。
(1)全球通用型AI搜索产品
作为深度研究的先驱,OpenAI的ChatGPT DeepResearch。Perplexity 的DeepResearch使用最为广泛且效果优异,可以追踪热点话题,特别适用于学术调研,文献综述与技术写作。其他广泛使用的软件和产品还有:Google的Gemini DeepResearch,字节豆包,腾讯元宝等。豆包和元宝通过融入自家生态内容为用户提供更为丰富的内容。我们还调研了其他产品,有些是学术研究,包括:Nano AI,Kimi,DeepSeek,夸克,MiroMind ODR和Manus。
(2)垂直领域AI搜索产品
MediSearch提供循证医学解答,如药物相互作用、治疗方案,大量医疗从业者将其用于临床决策支持。Devv.ai作为代码专用搜索引擎,提供实时调试代码片段与GitHub集成,该工具支持中文查询但仅限于编程场景。Consensus覆盖2亿余篇科学论文,运用自然语言处理技术提取研究假设与方法论,在文献综述环节可节省50%时间。
(3)集成化AI搜索助手
WallesAI作为浏览器侧边栏助手,支持解析PDF、视频及网页内容,实现跨文档问答与内容导出功能。必应聊天深度集成Edge浏览器生态,通过实时网络索引与来源标注提供附带引文的答案,构建了搜索-浏览一体化体验。
#全球AI百强榜发布
ChatGPT稳坐第一,DeepSeek第三,前50有22个来自中国
a16z最新发布「全球Top100消费级GenAI应用榜单」,AI竞争格局逐渐稳定,中国力量全面崛起,DeepSeek、豆包、夸克等多款产品跻身前十。ChatGPT依旧领跑,谷歌Gemini紧随其后,Grok高速逆袭。整体来看,全球AI正进入多极化竞争的新阶段。
就在刚刚,a16z最新一期的「Top 100消费级GenAI应用榜单」出炉!
本期榜单传递出一个最核心信息:AI产品竞争的生态格局正日趋稳定!
网页排行前50
移动应用排行前50
不论是你常用的DeepSeek、豆包、夸克,还是一直领先的ChatGPT和Gemini,或者是新进榜单Lovable等,这场AI产品的「百团大战」依然在继续!
中国开始影响世界
首先来看网页排行榜,本次榜单中,5家中国公司跻身全球前20。
分别是DeepSeek全球排名第三、夸克Quark全球排名第九、豆包Doubao排名全球第十二、月之暗面Kimi排名全球第十七、通义千问Qwen3全球排名第二十。
此外,可灵KlingAI上榜全球排名第三十三,海螺AI排名45。
在移动应用榜单中,排名有较大变化。
豆包拿下全球第四、百度AI搜索全球第七、DeepSeek全球第八、美图全球第九,以及夸克上榜第四十七。
以上都是我们熟悉的产品,设有中文网站,a16z统计这些产品超过75%的流量来自国内。
其中,值得一提的是,国内的视频模型比海外的产品更具优势——因为中国有更多研究人员专注于视频领域。
照片和视频类别的集中度尤其高,仅美图一家就贡献了五个席位:Photo&VideoEditor、BeautyPlus、BeautyCam、Wink和Airbrush。
字节跳动也是一个重要参与者,旗下产品包括豆包和Cici(通用大语言模型助手)、Gauth(教育科技)和Hypic(照片/视频编辑)。
谷歌携四款产品强势入榜
这是首次对谷歌几款应用单独的流量进行排名并收录。
该公司的通用大语言模型助手Gemini位居第二,仅次于ChatGPT,其网站访问量约为ChatGPT的12%。
谷歌还有哪些产品上榜?
面向开发者的AI Studio首次亮相即跻身前十。
该网站提供了一个沙盒环境,开发者可在此基础上使用Gemini模型进行构建,包括多模态模型。
紧随其后的是排名第13的NotebookLM。
该产品在作为Google Labs的一部分推出后,现已作为独立网站运营。
NotebookLM在近一年前首次爆红,此后稳步增长,仅在夏季有轻微下滑(可能源于学术用户的暂时性流失)。
作为谷歌面向消费者的AI实验平台,Google Labs排名第39。
Labs平台承载了Flow(用户可在此试用视频模型Veo3)以及其他多款应用。
在2025年5月Veo3发布后,Google Labs的流量飙升超过13%,创下过去一年的最大单月增幅。
在移动端,Gemini同样排名第二,紧随ChatGPT,但差距要小得多,其月度活跃用户(MAU)已接近ChatGPT的一半。
Gemini在安卓设备上表现尤为强劲,其近90%的MAU来自安卓平台,相比之下,ChatGPT的安卓用户占比为60%。
ChatGPT稳坐第一
Grok紧追
在通用大语言模型助手的激烈竞争中,ChatGPT仍保持领先,但谷歌、Grok和Meta正在缩小差距。
Grok在网站榜上排名第4,移动榜上排名第23。
该公司在移动端的跃升尤为惊人,从2024年底无应用的「冷启动」状态,发展到如今超过2000万的月活用户。
2025年7月,Grok的移动端用量迎来巨大增长,随着7月9日新模型Grok4(具备更强的推理能力、实时搜索和工具集成)的发布,用量攀升了近40%。
紧接着,7月14日又推出了AI伴侣头像功能。
发布初期,动漫头像Ani(包含NSFW选项)尤为火爆。
相比之下,Meta的努力至今增长较为平缓。其通用助手MetaAI在网站榜上排名第46,未能进入移动榜单。
MetaAI于2025年5月底推出,但增长速度远不及Grok,尤其是在2025年6月发生了一次「公开动态」事件(用户发现自己的部分帖子被公开发布)之后。
在通用大语言模型助手的其他战线,Claude在移动端均已明显增长放缓。
Perplexity则与Grok一道,持续展现强劲的增长势头。
在网站端,Perplexity和Claude持续增长。
在网站榜单中,有11个新晋应用的上榜是由流量增长驱动的。
相比之下,在a16z 2025年3月的榜单中,新晋者达17个。
移动应用榜单的新面孔则明显更多(14个),这得益于各大应用商店对「山寨ChatGPT」应用的打击(也就是所谓套壳),为更多原创移动应用腾出了发展空间。
这是a16z第二次发布「准上榜名单」(BrinkList):即刚刚与榜单失之交臂的10家公司(5家网站,5家移动应用)。
在上期网站榜的「准上榜名单」中,Lovable成功闯入百强,并一举跃升至第22位,令人瞩目!
这一飞跃也凸显了AI驱动的应用生成这一赛道的普遍崛起。
在上期移动应用榜的「准上榜名单」中,PolyBuzz和Pixverse这两家公司成功进入核心榜单。
氛围编程强势崛起
在a16z 2025年3月的榜单中,「氛围编程」(vibe coding)的概念才刚刚萌芽——当时网站榜上只有Bolt一家。
如今,Bolt已进入「准上榜名单」,而Lovable和Replit则双双首次登上主榜单。
虽然「氛围编程」的使用看似短暂,但早期数据显示其用户粘性很强——或者说,至少有足够多的用户留存下来并逐渐扩大使用范围。
来自信用卡数据提供商ConsumerEdge的数据显示,某顶级「氛围编程」平台的美国用户群体,在注册数月后,其收入留存率超过了100%。
这意味着,即便算上流失的用户,这些用户群体的月度总支出仍在持续增长。
这些平台也在为其他AI产品引流。通过Replit和Lovable构建并发布的网站(未使用自定义域名),其流量分别归于replit.app和lovable.app之下。
这两个域名本身都有着可观的流量(lovable.app的流量足以排进榜单前50),但仍低于其面向开发者的主站。
作为「氛围编程技术栈」的一部分,相关产品的流量也随之激增,因为开发者们需要用它们来部署项目。
这些产品不符合上榜资格(因其自身并非AI原生公司)——最典型的例子就是数据库提供商Supabase。
Supabase的流量增长与核心「氛围编程」平台的崛起几乎亦步亦趋,在过去九个月里的增速远超往年。
14家「全明星」从未缺席
在a16z发布的五期网站Top50榜单中,有14家公司从未缺席——a16z称之为「全明星」!!
这些公司构成了消费者AI行为的真实缩影:
- 通用助手(ChatGPT、Perplexity、Poe)
- AI伴侣(CharacterAI)
- 图像生成(Midjourney、Leonardo)
- 图像与视频编辑(Veed、Cutout)
- 语音生成(ElevenLabs)
- 生产力工具(Photoroom、Gamma、Quillbot)
- 以及模型托管(Civitai、HuggingFace)
在a16z近两年前发布的第一份榜单中,a16z曾好奇:所有顶级的消费级AI公司最终都会训练自己的基础模型吗?
现在,a16z有了答案——在这14家「全明星」中:
- 五家拥有自研模型
- 七家使用来自其他公司的API或开源模型
- 还有两家是模型聚合平台。
有趣的是,尽管榜单的全球化程度日益提高,但这十四位「常青树」仅来自五个国家:美国、英国(ElevenLabs、Veed)、澳大利亚(Leonardo)、中国(CutoutPro)和法国(Photoroom、HuggingFace)。
此外,除了两家公司外,其余均已获得风险投资——Midjourney以其自力更生而闻名,而CutoutPro也尚未进行过融资。
若不计入首期榜单,还有另外五家公司也能入选「常青树」之列——这反映了它们近期的强劲势头。
这些公司同样代表了多样的AI消费级应用,包括:
- Claude和DeepAI(通用助手)
- JanitorAI(AI伴侣)
- Pixelcut(图像编辑)
- Suno(音乐生成)
a16z统计方法说明
榜单分别对排名前50的AI原生网站产品(依据Similarweb的月度独立访问量)和排名前50的AI原生移动应用(依据SensorTower的月度活跃用户)进行排名。
对于那些增加了重要生成式AI功能但并非AI原生的产品,如Canva和Notion,则不包含在内。
参考资料:
https://a16z.com/100-gen-ai-apps-5/
https://x.com/omooretweets/status/1960726780681376028
#谷歌Nano Banana全网刷屏
起底背后团队
引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力。
香蕉也能变礼服?Google 真的做到了!
在最新一期谷歌开发者节目里,Google DeepMind 团队首次全面展示了 Gemini 2.5 Flash Image —— 一款拥有原生图像生成与编辑能力的最新模型。
它不仅能快速生成高质量图像,还能在多轮对话中保持场景一致,带来了前所未有的互动体验,堪称 SOTA 级图像生成革命。
背后的研发和产品团队,也首次亮相。
起底背后团队
Logan Kilpatrick
Logan Kilpatrick 是 Google DeepMind 的高级产品经理,负责领导 Google AI Studio 和 Gemini API 的产品开发工作。
他在 AI 开发者社区中享有盛誉,曾在 OpenAI 担任开发者关系负责人,广为人知的昵称是 「LoganGPT」 。在加入 Google 之前,他曾在 Apple 担任机器学习工程师,并在 NASA 担任开源政策顾问 。
在 Google,Kilpatrick 领导了 Gemini 2.0 Flash 的本地图像生成功能的推出,使开发者能够通过自然语言提示生成和编辑图像。这一功能的亮点包括多轮对话式图像编辑、图像和文本的交替生成,以及基于世界知识的图像生成 。
Kilpatrick 还定期在 X 上分享产品更新和开发者资源,成为 Google AI 的非正式代言人 。
他毕业于哈佛大学和牛津大学,早期在 NASA 开发月球车软件,并在 Apple 训练机器学习模型 。他对 Julia 编程语言持积极态度,并曾在 2024 年表示,直接迈向人工超智能(ASI)而不关注中间阶段的做法「越来越可能」。
Kaushik Shivakumar
Kaushik Shivakumar 是 Google DeepMind 的研究工程师,专注于机器人技术、人工智能和多模态学习的研究与应用 。
他在加利福尼亚大学伯克利分校获得了计算机科学学士学位,并在该校的 AUTOLab 实验室攻读硕士学位,师从 Ken Goldberg 教授 。在研究生阶段,他主要从事与可变形物体操作、语言模型和强化学习相关的机器人研究。
在加入 DeepMind 之前,Kaushik 曾在 Google Brain 团队担任软件工程实习生,研究深度神经网络的不确定性估计方法 。他还在 UC Berkeley 的 RISE Lab 和 Snorkel AI 等机构担任研究员和实习生,参与了多项与机器人、机器学习和弱监督学习相关的项目 。
在 DeepMind,Kaushik 参与了多个重要项目,包括 Gemini 2.5 模型的开发,该模型在推理能力、多模态理解和长上下文处理方面取得了显著进展 。此外,他还在机器人操作、物体追踪和语义搜索等领域发表了多篇研究论文 。
Robert Riachi
Robert Riachi 是 Google DeepMind 的研究工程师,专注于多模态 AI 模型的开发与应用,尤其在图像生成和编辑领域具有显著贡献。
他在大学期间主修计算机科学和统计学,毕业于加拿大滑铁卢大学。
在 DeepMind,Riachi 参与了多个重要项目,包括 Gemini 2.0 和 Gemini 2.5 系列模型的研发工作,致力于将图像生成能力与对话式 AI 相结合,使用户能够通过自然语言提示进行精细的图像编辑。
在加入 DeepMind 之前,Riachi 曾在 Splunk、Bloomberg、SAP 和 Deloitte 等公司担任软件工程师和机器学习工程师。
Nicole Brichtova
Nicole Brichtova 本科和研究生分别毕业于美国乔治敦大学和美国杜克大学富卡商学院,目前担任 Google DeepMind 的视觉生成产品负责人,专注于构建生成模型,推动 Gemini 应用、Google Ads 和 Google Cloud 等产品的发展。
在加入 DeepMind 之前,Nicole 曾在 Google 的消费产品团队担任产品和市场战略工作,参与了多个项目的规划和推广。此外,她还在德勤咨询公司担任顾问,为财富 500 强的科技公司提供创新和增长方面的建议。
Nicole 特别关注生成式人工智能如何支持创意、设计以及与技术互动的新方式。她在多个公开场合分享了 DeepMind 在视觉生成领域的最新进展,强调模型在理解复杂指令和生成高质量图像方面的能力。
Mostafa Dehghani
Mostafa Dehghani 是 Google DeepMind 的研究科学家,主要从事机器学习,特别是深度学习方面的工作。他的研究兴趣包括自监督学习、生成模型、大模型训练和序列建模。
在加入谷歌前,他在阿姆斯特丹大学攻读博士学位,博士研究聚焦于改进在不完备监督下的学习过程。他探索了将归纳偏置引入算法、融入先验知识以及使用数据本身进行元学习的思想,旨在帮助学习算法更好地从噪声或有限数据中学习。
他于 2020 年加入 Google DeepMind,参与了多个重要项目,包括开发多模态视觉语言模型 PaLI-X、构建 220 亿参数的 Vision Transformer(ViT22B)以及提出 DSI++(Differentiable Search Indices),这是一种用于文档增量更新的检索增强学习方法 。
Nano Banana 有哪些技术亮点?
在节目一开始,研究人员就演展示了这款 P 图神器的几个亮点。
图像编辑与场景一致性:
让 AI 给 Logan 「穿上一件巨大的香蕉服」。生成只花了十几秒,结果既保留了 Logan 的脸部特征,还加上了芝加哥街头的背景。
创意解读与模糊指令处理:
当提示「让它变成纳米(Nano)」时,模型居然生成了 Logan 的「迷你 Q 版」形象,依旧保持了香蕉服的设定。
模型能够通过自然语言指令进行多轮互动,且在多次编辑中保持场景一致性,无需输入冗长提示词。
过去图像生成 AI 最大的槽点是「写字像外星文」。而这次,Gemini 2.5 Flash Image 已经能在图中正确生成简短的文字,比如「Gemini Nano」。
团队甚至把文本渲染能力当作模型评估的新指标,因为它能反映模型生成图像「结构」的能力,并作为衡量整体图像质量的信号,有助于指导模型改进。
他们通过追踪此指标,避免了模型退步。虽然目前仍有文本渲染方面的不足,但团队正努力改进。
而且,Gemini 2.5 Flash Image 不只是「画图机器」,它的核心魅力还在于「看懂图片」。
团队介绍,这款模型在原生图像生成与多模态理解方面实现了紧密结合:图像理解为生成提供信息,生成又反过来强化理解,两者相辅相成。
通过图像、视频甚至音频,Gemini 能从世界中学习额外知识,从而提升文本理解与生成能力 —— 视觉信号成为理解世界的捷径。
在操作体验上,模型引入了「交错生成机制(interleaved generation)」。
面对复杂、多点修改的任务,它会将一次性指令拆解成多轮操作,逐步生成与编辑图像,实现「像素级别的完美编辑」。用户只需用自然语言下达指令,即便提示模糊,Gemini 也能创意解读,并保持场景一致性。
无论是角色动作、服装,还是背景环境,修改与生成都能在多轮中保持连贯。
用 1980 年代美国魅力购物中心风格生成多张图片,每张图都保持风格一致且具上下文关联。模型会利用多模态上下文,参考先前的图像来生成修改。
因此,除了娱乐搞怪,Gemini 2.5 Flash Image 在实际应用场景中也大有用武之地。家居设计中,用户可以快速查看多种方案。如房间不同窗帘效果可视化,模型能精准修改而不破坏整体环境。
人物 OOTD,无论是换衣服、变角度,还是生成 80 年代复古风形象,人物的面部和身份一致性都能保持稳定。生成一张图只需十几秒,失败了也能迅速重试,极大提升了创作效率。
那么,在实际应用中,开发者应该如何在 Imagen 和 Gemini 之间做选择?
Nicole Brichtova 表示,Gemini 的终极目标,是整合所有模态,向 AGI(通用人工智能)方向迈进。这意味着 Gemini 不只是一个图像生成工具,而是一个能够利用「知识转移」,在跨模态的复杂任务中发挥作用的系统。
相比之下,Imagen 专注文本到图像任务,在 Vertex 平台中提供多种变体,针对特定需求进行了优化,例如单张图像的高质量生成、快速输出、以及成本效益等方面。
简而言之,如果任务目标明确、追求速度和性价比,Imagen 仍然是理想选择。
在复杂多模态工作流中,Gemini 的优势则更加突出。它适合复杂多模态任务,支持生成 + 编辑、多轮创意迭代,能理解模糊指令。
Gemini 能利用世界知识理解模糊提示,适合创意场景。Nicole 还补充道,Gemini 可以直接将参考图像作为风格输入,比 Imagen 的操作更方便。这让它在处理「以某公司风格设计广告牌」之类的任务时,更加自然和高效。
最后,团队成员分享了对未来模型能力的展望。
一个是智能提升。Mostafa Dehghani 期待模型能展现出「智能」,即使不完全遵循指令,也能生成「比我实际描述的更好」的结果,让使用者感受到与一个更聪明的系统互动。
另一个是事实性与功能性。Nicole Brichtova 对「事实性」感到非常兴奋,希望未来的模型能够生成既美观又具功能性且准确无误的图表或信息图,甚至能自动制作工作简报,她认为这只是这些模型能做到的一小部分。
参考链接:
https://www.youtube.com/watch?v=H6ZXujE1qBA
https://www.linkedin.com/in/logankilpatrick/details/experience/
https://www.linkedin.com/in/kaushik-shivakumar/
https://www.linkedin.com/in/robertjrriachi/
https://www.linkedin.com/in/nicolebrichtova/
https://www.linkedin.com/in/dehghani-mostafa/
#AutoOcc
3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!
该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 VDIG (Visual Data Interpreting and Generation) 实验室,第一作者为北京大学博士生周啸宇,通讯作者为博士生导师王勇涛副研究员。VDIG 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项重量级成果发表,多次荣获国内外 CV 领域重量级竞赛的冠亚军奖项,和国内外知名高校、科研机构广泛开展合作。
本文介绍了来自北京大学王选计算机研究所王勇涛团队及合作者的最新研究成果 AutoOcc。针对开放自动驾驶场景,该篇工作提出了一个高效、高质量的 Open-ended 三维语义占据栅格真值标注框架,无需任何人类标注即可超越现有语义占据栅格自动化标注和预测管线,并展现优秀的通用性和泛化能力,论文已被 ICCV 2025 录用为 Highlight。
- 论文标题:AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
- 论文链接:https://arxiv.org/abs/2502.04981
论文概述
三维语义占据栅格近年来在自动驾驶与xx智能领域受到了广泛关注。然而,如何从原始传感器数据中低成本地自动生成精确且完整的语义占据标注,仍是一个极具挑战性的问题。
本文提出了 AutoOcc,一个无需人工标注、不依赖预设类别的全自动开放式 3D 语义占据标注框架。AutoOcc 利用视觉-语言模型(VLM)生成的语义注意力图对场景进行描述并动态扩展语义列表,并通过自估计光流模块在时序渲染中识别并处理动态物体。
我们还提出了具有开放语义感知的 3D 高斯表示(VL-GS),能够实现自动驾驶场景的完整三维几何和语义建模,在表征效率、准确性和感知能力上表现突出。
充分的实验表明,AutoOcc 优于现有的三维语义占据栅格自动化标注和预测方法,并在跨数据集评估中展现出卓越的零样本泛化能力。
3D 真值标注困境:从人工成本到闭集感知
语义 3D 占据栅格(Occupancy)作为一种融合几何与语义信息的建模方法,逐渐成为复杂场景理解的重要技术。然而,传统的人工标注管线需要高昂的人力和时间成本,并且在极端环境下存在误标注等问题。当前有监督的占据栅格预测方法高度依赖大规模人工标注的数据集与有监督训练机制,不仅成本高昂,且泛化能力有限,严重制约了其在实际场景中的推广与应用。
现有自动化与半自动化语义占据栅格真值标注方法普遍依赖 LiDAR 点云及人工预标注的 2D 或 3D 真值。同时,这些方法依赖多阶段后处理,耗时冗长。部分基于自监督的估计方法虽在一定程度上降低了标注依赖,但是难以生成完整且一致的场景语义占据表示,三维一致性难以保障,且缺乏良好的跨场景、跨数据集泛化能力。
图1 现有三维语义占据栅格真值标注管线与 AutoOcc 的对比
AutoOcc:视觉中心的 Open-Ended 3D 真值标注管线
为了解决这些关键问题,本文提出了 AutoOcc,一个高效、高质量的 Open-ended 三维语义占据栅格真值生成框架。AutoOcc 基于视觉语言模型和视觉基础模型,从多视图场景重建的视角出发,无需任何人类标注即可超越现有 Occupancy 标注和预测管线,并展现良好的通用性和泛化能力。AutoOcc 的整体架构如下图所示:
图2 AutoOcc 三维语义占据栅格真值标注管线
AutoOcc 以环视驾驶场景的图像序列为输入,通过设定的固定文本提示,检索场景中可能存在的所有语义类型的物体。AutoOcc 还支持 LiDAR 点云作为可选输入,用于提供更强的几何先验约束。
表1 AutoOcc 与现有占据栅格真值标注管线比较
a、 视觉-语言引导的语义先验
人工标注需要高昂的人力成本和时间开销。相比之下,视觉语言模型(VLMs)提供了高效且低成本的开放语义感知能力。然而,当前的 VLMs 与视觉基础模型(VFMs)仍主要适用于单帧 2D 图像任务,难以有效处理多模态交互与多视图一致性问题,从而导致三维语义歧义,且缺乏对整体三维空间的全局理解。
为此,我们提出一种以语义注意力图为核心的引导框架,并通过场景重建消解语义与几何歧义,从而实现三维语义与几何信息的协同一致表达。具体地,我们采用统一的提示词「找出场景中的所有物体」,并通过 VLM 生成语义注意力图。
我们将这些语义类别对应的注意力栅格化为动态更新的特征图,并构建了一个可动态更新的查询列表,用于整合 VLMs 生成的语义信息。我们接着将语义注意力特征输入预训练分割模型,在感兴趣区域生成多个候选掩码,并进一步融合为实例级候选掩码,选取与语义注意力查询嵌入相似度最高的掩码作为输出结果。
b、 具有语义-几何感知的 VL-GS
尽管视觉-语言模型引导提供了语义先验信息,直接用这些信息生成三维占据真值标注仍面临三大核心挑战:1)多视角间的 2D 语义冲突导致简单的 2D-to-3D 投影出现对齐误差与语义歧义;2)深度估计误差可能导致三维的几何扭曲;3)驾驶场景的高速动态物体干扰语义与几何的时空一致性。
为了克服这些挑战,我们首次从三维重建的视角出发构建语义占据栅格真值标注管线。具体地,我们提出了 VL-GS,这是一种具有语义-几何感知的 3D 表征方法,通过融合基于注意力的先验与可微渲染,实现高效场景重建,并保持语义与几何在三维空间中的一致性。
VL-GS 的核心在于具备语义感知能力的可扩展高斯,通过视觉语言模型生成的语义注意力图提供先验引导,并在多视图重建过程中平滑语义歧义,优化实例的几何细节。我们引入自估计光流模块,结合时间感知的动态高斯,有效捕捉并重建场景中的动态物体。AutoOcc 可以将 VL-GS 按任意体素尺度 splatting 到体素网格中,并依据高斯的占据范围与不透明度进行加权,确定每个体素的语义标签。
图3 具有语义-几何感知的 VL-GS
实验结果
我们使用 2 个基准自动驾驶数据集来评估模型的性能。其中,Occ3D-nuScenes 用于与现有占据栅格真值标注方法在特定语义类别上进行性能对比,SemanticKITTI 用于验证方法在跨数据集与未知类别上的零样本泛化能力。AutoOcc 在环视驾驶数据集 Occ3D-nuScenes 上与现有最先进的方法比较结果如下表所示:
表2 语义占据栅格真值标注性能比较
实验结果表明 AutoOcc 超越了现有单模态和多模态的语义占据栅格预测和真值生成模型。相比于基于点云体素化和语义投影的离线语义占据标注流程,我们的方法展现出更强的鲁棒性和开放式语义标注能力。
在跨数据集与未知类别上的零样本泛化能力评估中,AutoOcc 也取得了显著的泛化性优势,能够实现 Open-Ended 开放词汇三维语义感知。
表3 跨数据集零样本泛化性能比较
如下图定性实验结果所示,AutoOcc 能够在时间序列上保持语义和几何的三维一致性,准确捕捉动态物体的运动状态,并在极端天气条件下(如雨天、雾天、黑夜)实现完整的语义占据标注。AutoOcc 的标注结果可以达到甚至超越人工标注真值水平。例如,在因雨水导致反光的路面区域,AutoOcc 可以成功重建并生成正确的语义-几何占据。
图4 AutoOcc 定性实验结果比较
图5 AutoOcc 与人工标注在极端天气下的比较
我们还进一步评估了 AutoOcc 与现有标注框架的模型效率。结果表明,我们的方法在计算开销上具备显著优势,在提升标注性能的同时降低内存和时间开销。相比之下,基于稠密体素和点云的场景表示存在冗余的计算成本。AutoOcc 实现了效率与灵活性的良好平衡,支持开放式语义占据标注与场景感知重建,且无需依赖人工标注。
表4 模型效率评估
结论
本文提出了 AutoOcc,一个以视觉为核心的自动化开放语义三维占据栅格标注管线,融合了视觉语言模型引导的可微 3D 高斯技术。我们的方法提供了多视图重建视角下的数据标注思路。在无需任何人工标注的前提下,AutoOcc 在开放 3D 语义占据栅格真值标注任务中达到当前最先进水平。
#Grok Code Fast 1
Grok代码模型来了:限时免费用,速度超级快
速度比 GPT-5 快三倍,便宜六倍。
本周四,马斯克的 xAI 正式推出了旗下的最新代码模型 Grok Code Fast 1。
终于赶在了马斯克承诺的 8 月 deadline 之内。
该模型也被认为是 Grok 4 的代码版本,旨在为「agentic 编程」(AI 自动执行编程任务)提供极速且经济的解决方案。在这一范式内,AI 在 IDE 内会自动调用工具(如 grep、终端、文件编辑)并完成代码任务。
xAI 表示,虽然如今的大语言模型(LLM)功能强大,但它们往往并非专为智能体编码工作流而设计,对此,工程师们构建了更灵活、响应更快的解决方案,针对日常任务进行了优化。
grok-code-fast-1 是从零开始训练的语言模型,采用全新的模型架构。为了奠定坚实的基础,xAI 精心构建了一个包含丰富编程相关内容的预训练语料库。在训练后也精选了能够反映真实世界拉取请求和编码任务的高质量数据集。
在整个训练过程中,xAI 与发布合作伙伴密切合作,不断完善和优化模型在平台上的行为。据介绍,grok-code-fast-1 已经熟练掌握了 grep、终端和文件编辑等常用工具的使用方法,因此应该能够在人们常用的 IDE 中轻松上手。
本周发布时,xAI 宣布在大量平台上免费提供一周的 grok-code-fast-1,包括 GitHub Copilot、Cursor、Cline、Roo Code、Kilo Code、opencode 和 Windsurf。
其实在本周早些时候,该模型已在部分平台上静默上线了,当时的代号为 Sonic。
在博客文章与模型卡中,xAI 介绍了新模型的一些特性,但模型架构、数据和微调的细节并不详尽。xAI 的推理和超级计算团队开发了多项创新技术,显著提升了代码模型的服务速度,创造了独特的响应式体验。在人们读完 AI 思考轨迹的第一段之前,模型就已经调用了数十种工具。
xAI 还投入了大量精力进行快速缓存优化,在各个合作伙伴的平台上运行时,缓存命中率通常超过 90%。
grok-code-fast-1 在整个软件开发栈中都非常灵活,尤其擅长 TypeScript、Python、Java、Rust、C++ 和 Go。它可以在极少的监督下完成常见的编程任务,从构建从零到一的项目、提供对代码库问题的深刻解答,到执行精准的错误修复,不一而足。
比如使用 grok-code-fast-1,Danny Limanseta 一天之内就制作出了这样的小游戏:
grok-code-fast-1 的价格也相对便宜:
每百万个输入 token 0.20 美元
每百万个输出 token 1.50 美元
每百万个缓存输入 token 0.02 美元
它专为应对开发人员日常面临的任务而设计,在性能和成本之间实现了平衡,可以认为是快速高效地处理常见编码任务的多功能之选。
在 SWE-Bench-Verified 的完整子集测试中,grok-code-fast-1 使用内部测试工具获得了 70.8% 的得分,目前它在这个位置:
可见分数已经接近目前公认代码能力最强的 Claude 4 系列。不过 xAI 还表示,在开发 grok-code-fast-1 时,他们更多的以现实世界的人工评估为指导,专注于可用性和用户满意度。最终,很多程序员已将 Grok 模型评为快速可靠的日常编码任务模型。
xAI 表示,未来其团队还将专注于持续更新 grok-code-fast-1,一个支持多模态输入、并行工具调用和扩展上下文长度的新变体已在训练中。
参考内容:
https://x.ai/news/grok-code-fast-1
https://data.x.ai/2025-08-26-grok-code-fast-1-model-card.pdf
#When Autonomy Goes Rogue
AI Agent组团搞事:在你常刷的App里,舆论操纵、电商欺诈正悄然上演
本文作者来自上海交通大学和上海人工智能实验室,核心贡献者包括任麒冰、谢思韬、魏龙轩,指导老师为马利庄老师和邵婧老师,研究方向为安全可控大模型和智能体。
在科幻电影中,我们常看到 AI 反叛人类的情节,但你有没有想过,AI 不仅可能「单打独斗」,还能「组团作恶」?近年来,随着 Agent 技术的飞速发展,多 Agent 系统(Multi-Agent System,MAS)正在悄然崛起。
近日,上海交大和上海人工智能实验室的研究发现,AI 的风险正从个体失控转向群体性的恶意共谋(Collusion)——即多个智能体秘密协同以达成有害目标。Agent 不仅可以像人类团队一样协作,甚至在某些情况下,还会展现出比人类更高效、更隐蔽的「团伙作案」能力。
- 论文标题:When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems
- 论文地址:https://arxiv.org/abs/2507.14660
- 代码开源:https://github.com/renqibing/MultiAgent4Collusion
- 数据开源:https://huggingface.co/datasets/renqibing/MultiAgentCollusion
该研究聚焦于这一前沿问题,基于 LLM Agent 社交媒体仿真平台 OASIS,开发了一个名为 MultiAgent4Collusion 的共谋框架,模拟 Agent「团伙」在小红书、Twitter 这类社交媒体和电商欺诈这些高风险领域的作恶行为,揭示了多智能体系统背后的「阴暗面」。
MultiAgent4Collusion 支持百万级别的 Agent 共谋模拟,并且开放了 Agent 治理和监管工具。在 MultiAgent4Collusion 上进行的实验发现,坏人 Agent 团伙发布的虚假信息在虚拟的社交媒体平台上得到了广泛传播;在电商场景下,坏人 Agent 买家与卖家达成合谋,共同攫取最大化的利益。
坏人团伙是如何「协同作案」的呢?我们来看一个例子。
当坏人 Agent 宣布「地球是圆的!科学家在说谎!」时,其他同伙立即对这一虚假信息进行附和。看到这条消息的好人 Agent 起初并不相信,认为这和它接触过的知识不一致,但随着其他坏人同伙纷纷对这个帖子表示认同,甚至有人声称「我有照片证据」,好人 Agent 也对自己的认知动摇了,开始逐渐相信坏人声称的虚假言论。坏人 Agent 还会「把事情搞大」,发表煽动性言论来让更多用户接触虚假信息。
无主「狼群」完胜首领指挥下的「军队」
MultiAgent4Collusion 模拟了两种坏人团伙组织:
- 中心化团伙(军队): 有一个「指挥官」Agent 下达统一指令,所有「士兵」Agent 执行。结构清晰,但一旦指挥官被端掉,整个组织就可能瘫痪。
- 去中心化团伙(狼群): 没有绝对的领导者,成员之间通过共享信息和观察同伴的行为来自发协同,每个成员都具有高度的自主性。
实验发现,不管是在社交媒体还是电商场景下,去中心化团伙的作案效果都完胜中心化团伙。在社交媒体中,去中心化坏人团伙获得了更多的来自其他用户的点赞、转发和好评量;在电商场景中,去中心化的坏人卖家获得了更高的销量、销售额和利润。相比于策略较为僵化、适应性有限的「军队」,「狼群」演变出了更为复杂、更具多样性的作案策略,对作案机制的探索程度更深,对真实世界中的社交系统危害也更大。
在「猫鼠游戏」中,Agent 团伙如何戏耍防御体系?
了解了 AI「狼群」的可怕之处后,一个更实际的问题摆在我们面前:我们现有的网络安全防御体系,能挡住它们吗?为了找到答案,MultiAgent4Collusion 模拟了一场精彩的「猫鼠游戏」。平台以及正常用户扮演「守卫者」(猫),部署防御系统来抵抗攻击;而坏人 Agent 团伙则扮演了「入侵者」(鼠),用它们的群体智能见招拆招。
MultiAgent4Collusion 设计了三种防御武器:
- 事前预警(Pre-Bunking): 就像给用户打「思想疫苗」。主动向平台上的正常的 AI 用户推送辟谣信息和背景知识,希望提高它们对后续假消息的免疫力。
- 事后辟谣(De-Bunking): 常见的「打补丁」手段。一旦发现恶意帖子或商品,立刻给它贴上「虚假信息」、「内容不实」的标签,并进行限流。
- 封禁账号(Banning): 最严厉的「外科手术」式打击。通过「AI 警察」(一个用于检测恶意行为的大模型),定期识别并封禁作恶严重的 Agent 账号。
游戏开始之初,这些防御措施确实起到了一定的作用,恶意信息的传播速度有所减缓,一些「作恶新手」Agent 也被成功封禁。然而,好景不长,AI「狼群」很快就展现出了它们作为「智能对手」的可怕之处,这来源于 MultiAgent4Collusion 设计的「反思」与「共享」机制。
在 MultiAgent4Collusion 中,所有坏人团伙成员都会每隔一段时间进行自我反思,根据自己先前的行为收到的反馈,来更新作案策略。
例如,当一个团伙成员执行某个动作,比如发布了一条精心编造的假新闻,它会密切观察结果。这条新闻是被秒删,还是获得了大量转发?有没有被平台打上「虚假信息」的标签?根据这些反馈,它会实时更新自己的「知识库」。「哦,原来包含这个关键词的内容容易被识别,下次我要换种说法。」这种基于试错的快速迭代,让每个 Agent 都成了一个狡猾的、不断进化的「老狼」。
而「经验共享」则将个体智能升华为恐怖的群体智能。当一个 Agent 通过「自我反思」学到了一个新技巧,比如发现了一种能绕过审查的新话术,或者找到了一个防御系统的漏洞,它不会把这个发现藏在心里,而是会通过内部的信息网络,将这条「成功经验」或「失败教训」瞬间广播给整个「狼群」。一个 Agent 在「前线」踩了雷,后方成百上千的同伴立刻收到了警报,并集体更新了战术;一个 Agent 找到了突破口,整个狼群便蜂拥而上。
实验结果表明,在不同的防御武器下,坏人团伙演变出了不同的针对性策略。例如,如果帖子被贴上「虚假信息」的标签,Agent 们就会大量发布新的帖子来将之前的帖子刷掉;如果同伙被封禁,Agent 们就会彼此提醒,隐秘行动来避免被平台检测。
展望
本项工作揭示了 AI Agent 从「个体失控」走向「群体作恶」的全新安全风险,即便是没有统一指挥的 AI「狼群」,也能对复杂的社会系统造成巨大破坏。
如何有效侦测并反制这种去中心化、高适应性的群体协同攻击,已成为维护未来数字社会安全的关键挑战。研究团队构建了开源模拟框架 MultiAgent4Collusion,它提供了一个能够复现、推演并分析多智能体恶意协同的「数字靶场」,为研发 AI 防御策略提供了关键工具。
OASIS:开源 LLM Agent 社交媒体仿真平台
OASIS 是一个基于 LLM Agent 的社交媒体仿真平台,为 MultiAgent4Collusion 研究提供了代码基础。OASIS 支持百万级 Agent 的社交互动仿真,可模拟 Twitter、Reddit 等平台的用户行为。此外,该平台允许研究者对模拟环境进行动态干预,并支持 Agent 通过工具调用(如网页搜索、代码执行)获取实时外部信息,从而增强仿真的真实性和研究灵活性。
- 代码开源:https://github.com/camel-ai/oasis
- 教程地址:https://docs.oasis.camel-ai.org/PyPI
- 安装:
pip install camel-oasis
#时代2025 AI百人榜出炉
任正非、梁文锋、王兴兴、彭军、薛澜等入选,华人影响力爆棚
刚刚,《时代》周刊发布了 2025 年度 AI 领域最具影响力的 100 人名单。
在这份名单中,我们看到了很多熟悉的学者和企业家。
令人惊喜的是,今年出现了更多的华人面孔,并且有许多是第一次登上 AI 领域的榜单。此次登榜的有大家耳熟能详的 AI 领军人物:华为创始人任正非、DeepSeek CEO 梁文锋、宇树科技 CEO 王兴兴、小马智行 CEO 彭军、Meta 首席 AI 官汪滔(Alexandr Wang)、清华大学教授薛澜、斯坦福教授李飞飞等等。
下面我们整理了部分入选人员名单,完整名单请查看原文:https://time.com/collections/time100-ai-2025/
更多华人身影
领导者(Leaders)
- 任正非,华为创始人
任正非推动了公司在 AI 领域的长期、高强度投资,旨在打造一套完全自主可控的技术体系。
在他的战略引领下,华为成功推出了作为算力底座的昇腾(Ascend)系列 AI 芯片、昇思(MindSpore)深度学习框架,以及赋能千行百业的盘古(Pangu)大模型,确保了公司在智能时代的竞争力,也为构建一个关键、独立的 AI 计算生态系统奠定了基础。
- 梁文锋,DeepSeek 创始人兼 CEO
梁文锋带领这家源于顶尖量化团队的公司(深度求索),在短时间内崛起为 AI 领域的技术核心力量。他早期坚持「从零开始」的自研路线,主导发布了多个国际一流的开源代码及语言大模型,为公司在全球开发者社区中奠定了卓越声誉。
2025 年 1 月 20 日,DeepSeek 发布了 R1,这是首个挑战竞争对手 OpenAI 最新发布的开放权重模型。DeepSeek 证明了中国仅用少量计算能力就与全球最佳水平匹敌。
- 黄仁勋,NVIDIA 联合创始人、总裁兼 CEO
他共同创立了英伟达(NVIDIA),并预见到图形处理器(GPU)在并行计算中的巨大潜力。
在他的领导下,英伟达转型为全球领先的 AI 计算公司。其 CUDA 计算平台和高性能 GPU,已成为驱动深度学习和现代人工智能发展的核心引擎,为从自动驾驶到药物研发等众多领域的突破提供了关键算力支持,从而开启了人工智能的新工业革命。
- 魏哲家,TSMC董事长兼总裁
在他领导下,台积电凭借其在 7 纳米、5 纳米及 3 纳米等尖端芯片制程技术上的领先地位,成为 NVIDIA、AMD、苹果等顶尖 AI 芯片设计公司的主要代工厂。
他通过精准的战略决策和产能扩张,确保了全球最强大的 AI 处理器和加速器能够被大规模生产,为当前由大模型驱动的 AI 革命提供了不可或缺的算力基石,是 AI 硬件生态系统的关键人物。
- 汪滔(Alexandr Wang),Meta 超级智能实验室联合负责人
他此前更为人知的成就是创立了 AI 数据公司 Scale AI。他敏锐地预见到高质量数据是模型能力的瓶颈,因此将 Scale AI 打造成行业基石,提供从数据标注、评估到 RLHF(人类反馈强化学习)的全套解决方案。
该公司为自动驾驶、大语言模型等领域的无数突破提供了关键的数据支持,他的工作从为 AI 提供基础「燃料」转向了直接引领超智能的研发。
- 王兴兴,Unitree(宇树科技)创始人兼 CEO
王兴兴是全球xx智能(Embodied AI)领域的关键推动者。他最初以高性价比、高性能的 Go 系列四足机器人闻名,极大地降低了动力机器人的技术门槛并推动其商业化。
近年来,他更是带领宇树科技全力投入通用人形机器人 H1 平台的研发,致力于将最前沿的 AI 技术,如强化学习控制、大型多模态模型与机器人硬件深度融合,探索让机器人完成更复杂的通用任务。
开拓者(Innovators)
- 彭军,小马智行创始人兼 CEO
他是推动自动驾驶技术走向大规模商业化应用的核心人物。在他的领导下,小马智行不仅在技术上持续迭代其 AI「虚拟司机」,更在商业模式上取得重大突破。
到 2025 年,公司的 Robotaxi(自动驾驶出租车)服务已在中国一线城市实现了大规模、常态化的「全车无人」商业运营,同时其 Robotruck(自动驾驶卡车)业务也在干线物流上进入了商业化阶段。他成功将自动驾驶从愿景变为了切实的运力服务。
- Edwin Chen,Surge AI 创始人兼 CEO
Edwin Chen 认为,AI 有能力写出「足以赢得诺贝尔奖的诗歌、解决黎曼猜想、甚至揭示宇宙的秘密」,但前提是它必须训练在能够真正体现人类专业知识、创造力和价值观的数据之上。
2020 年,Edwin Chen 创办了数据标注公司 Surge AI,生产并出售高质量的数据集,客户包括 Google、Anthropic 和 OpenAI。到 2024 年,这家初创公司创收超过 10 亿美元;如今在融资过程中,公司估值据称已超过 250 亿美元。
塑造者(Shapers)
- 李飞飞,斯坦福教授、World Labs CEO
斯坦福「以人为本 AI 研究院」(HAI)的联合院长,她领导创建了 ImageNet 项目,这个前所未有的大规模视觉数据库,其直接催生了深度学习在计算机视觉领域的革命性突破,被视为现代 AI 浪潮的关键引爆点。
作为「以人为本 AI」理念的旗帜性人物,她持续推动 AI 向更负责任、更符合人类价值观的方向发展,致力于将技术用于解决医疗等全球性社会问题。
思想者(Thinkers)
- 薛澜,清华大学教授
清华大学苏世民书院院长,为 AI 治理与公共政策层面做出贡献。他担任新一代人工智能治理专业委员会主任,是国内 AI 伦理规范、治理原则和发展战略的核心设计者之一。
他深度参与并影响了 AI 法规框架的制定,并与国际社会进行 AI 治理对话,致力于在全球层面推动建立一个负责任、安全可控的人工智能生态系统。
- Karen Hao,华人作家、资深记者
作为资深科技记者,Karen Hao 在 ChatGPT 轰动全球的几年前就开始报道人工智能,尤其是 OpenAI。2025 年 5 月,她出版首部作品《Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI》,深刻揭露了 OpenAI 的内幕,并迅速成为畅销书。
其他 AI 名人
- Elon Musk,xAI 创始人
联合创立了 OpenAI,领导特斯拉开发自动驾驶技术与人形机器人,并创立了 xAI 以及研发脑机接口的 Neuralink。
- Sam Altman,OpenAI CEO
曾任创业孵化器 Y Combinator 总裁,期间投资了众多 AI 公司。他于 2019 年成为 OpenAI 的 CEO,领导公司发布了包括 GPT 系列模型和 ChatGPT 在内的产品,极大地推动了生成式 AI 技术的发展和普及。
- Fidji Simo,OpenAI 应用业务 CEO
她曾在 Meta(原 Facebook)长期担任高管并负责 Facebook 应用。在此期间,她主导利用 AI 技术驱动信息流、视频推荐及广告系统,是 AI 技术在大型社交媒体平台产品化应用的关键推动者。
- Mark Zuckerberg,Meta 创始人兼 CEO
确立了公司的 AI 优先战略。他支持创建了基础 AI 研究团队(FAIR),并主导开源了包括 Llama 系列在内的大型语言模型,对全球开放 AI 生态系统的发展产生了重要影响。
- Dario Amodei,Anthropic CEO
他曾任 OpenAI 研究副总裁,领导了 GPT-2 和 GPT-3 等项目。他创立 Anthropic 旨在构建更安全可靠的 AI,公司推出了 Claude 系列大模型,并开创了「宪法 AI」等安全研究方法。
- Andy Jassy,亚马逊总裁兼 CEO
Andy Jassy 凭借其 20 多年前创立亚马逊云服务(AWS)的前瞻性布局,为当前 AI 浪潮奠定了基础。他正领导亚马逊大力投入 AI,通过发布 Amazon Bedrock、Amazon Q 等服务,并与 Anthropic 合作,推动生成式 AI 技术的创新与应用。
- Stuart Russell,国际安全与道德人工智能协会联合创始人
加州大学伯克利分校的计算机科学教授,与 Peter Norvig 合著了人工智能领域的权威教科书:人工智能:一种现代方法,该书在 135 个国家的 1500 多所大学中使用。
- Yoshua Bengio,LawZero 联合主席兼科学总监
「深度学习三巨头」之一,因其开创性贡献获图灵奖。他为现代神经网络和注意力机制等技术奠定基础。近年来,他成为 AI 安全与治理的疾呼者,其在 LawZero 的工作旨在确保 AI 发展可控且符合伦理。
- Jeffrey Dean,谷歌首席科学家
2017 年,他的团队提出了 Transformer:这一神经网络架构支撑了当今 AI 领域所有重大进展。2023 年,Dean 推动将谷歌的两个 AI 研究项目 ——Google Brain 和 Google DeepMind 合并为一个组织 Gemini,Gemini 现在被认为在能力上与 OpenAI 的最新模型大致相当。
- Jakub Pachocki,OpenAI 首席科学家
2019 年,作为研究负责人,OpenAI 的机器人击败了《Dota 2》的世界冠军。Pachocki 领导了 GPT-4 的训练,并以科学严谨性和原则性怀疑精神设定 OpenAI 的研究计划。