51c大模型~合集161

发布于:2025-07-30 ⋅ 阅读:(38) ⋅ 点赞:(0)

自己的原文哦~         https://blog.51cto.com/whaosoft/14079111

#这家国内公司,在给xx智能技术栈做「通解」

打通机器人智能化的关键:眼+脑+手。

xx智能(Embodied Intelligence)是 AI 领域里热度极高的赛道:给大模型以物理的躯体,让它能够感知真实世界,这套新范式似乎能让机器人完成各种以前无法想象的复杂任务。

自大语言模型(LLM)技术爆发以来,以xx智能为目标的明星机器人公司不断涌现,新闻头条一个接着一个。不过直到最近还有机器人领域专家表示,我们似乎仍没有看到「机器人领域的 ChatGPT」出现。

xx智能究竟应该会是怎样的形式,我们还没有定论。不过最近的世界人工智能大会 WAIC 2025,已经让这个概念逐渐清晰了起来。

形态、任务模式不受限

真正通用的 AI

今年的 WAIC 大会热闹非常,展区人头攒动,最能吸引人们目光的当然是一台台机器人。值得一提的是,有个展位上似乎集合了最近机器人技术落地的大多数形式。

我们知道一直以来,机器人的铁手都是难以处理柔软物体的。但在这个展台的模拟居家场景中,机器人正在展示叠衣服。

它从判断到做出决策的过程丝滑流畅。在设置好工作范围后,机器人就可以完成一长串连续复杂的动作,把柔软衣服整齐叠好,还会像人类一样铺平几下。

图片

机器人叠衣服,看起来比人还仔细。

有两个五指灵巧手的机器人在表演海量真实生活物品自动识别 + 操作能力。它能阅读人类手写的标签,识别出「小黄人是玩具」、「卡皮巴拉是动物」这样的概念,能准确抓取起物体再正确地进行分门别类。

,时长00:31

双臂机器人在按照手写标签进行分类,视频内容有加速。

人类使用自然语言列出的各种需求,机器人都可以弄懂并执行。面对这个机器人,你不需要像大模型 Prompt 那样给出绝对清晰的指令,它就可以完成蔬菜、水果的分类收纳,或是区分食肉动物和食草动物。

,时长00:57

如果你再写一个新标签,或是用不同的颜色做为分类标准,机器人也可以把对应类型的物体放置到对应的标记上。它也可以也自行进行加减乘除的计算。

,时长00:49

这是一个工业机器人,面对一盒杂乱的物品,它可以自主决策进行工作,前所未见的也能识别并一个个分拣出来,而且速度极快。

图片

任意物体,机器人都可以快速抓取。

100% 透明的物体也可以被机器人识别出来并准确拿起。

图片

这里是一个模拟的商业场景,你在服务台的 iPad 上下单,人形机器人就会自主规划路线,快速从货架取到对应的商品递过来。

图片

人形机器人便利店。

在现场,还有很多其他种类的机器人在有条不紊地工作着,我们可以看到,机器人已经可以做到接近人类的理解和推理能力,可以认识和操作海量的真实物体,可以抓取透明物体,也可以完成复杂的柔性任务,而且速度很快,通用性强。

可见,不论是面对工业、商业场景,还是未来贴近于人的家用环境,xx智能都已经做好了准备。

这些不同形态的机器人背后的技术全都来自同一家厂商 —— 国内科技公司梅卡曼德(Mech-Mind),他们自研的通用机器人「眼脑手」全栈技术产品在 WAIC 上首次得到了全景展示。

「眼脑手」合一

才叫xx智能

WAIC 上展示的一套套机器人应用,搭载了梅卡曼德的通用机器人自研技术栈:Mech-GPT 机器人多模态大模型、Mech-Eye 高精度 3D 相机与 Mech-Hand 仿生五指灵巧手。

图片

梅卡曼德机器人在 WAIC 2025 大会上。

他们展示的机器人都有机器人的「眼睛」有高精度 3D 视觉摄像头,信息传输给多模态大模型进行处理,整个系统就可以像人一样理解现实世界,自动进行任务规划,配合高灵活度的五指灵巧手,就可以实现多种操作。

图片

梅卡曼德的灵巧手 Mech-Hand 凭借灵活紧凑的硬件设计和先进的算法,能够灵活操作各类物体。

梅卡曼德所做的,相当于把xx智能的核心技术和关键能力做好,至于你想要以怎样的形式落地,根据实际使用情况,可以搭配人形等多种形态的机器人,方便灵活且实用。

在现场,我们还能看到机器人背后的服务器。基于大模型 Scaling Laws「算力投入越多,智力越高」的定律,今天的机器人已经展现出了极高的灵活性,具备了和人类协同工作的能力。

图片

Mech-Eye 3D 相机可以生成结构完整、细节清晰的 3D 点云数据。

梅卡曼德的工程师表示,机器人现在也可以理解一些人类之间对话背后的意义,例如你对它说「我饿了」,机器人就会把桌上的零食拿给你。看起来,它们已经具备了一些人类的基本常识。

与大家经常接触到的大模型应用不同,机器人需要面对真实世界这个最复杂的环境,因此发展出了多种不同的形态:有些机器人更擅长运动,而有些更擅长物体操控;有些机器人用于工业用途,有些则用于家务。在未来的制造和物流等行业,人形机器人很可能不是最主流的形态。

但这并不意味着机器人的核心技术,要为各种不同任务进行完全定制化。例如从工业场景来看,不论是装配、切割还是焊接,机器人所做的事情都存在共性:识别物体的种类,判断状态,进行精确定位,然后引导机器人完成相应的动作。

对于xx智能来说,跨实体化不仅仅是一项研究上的创新,也是通用大脑的一项基本特性。

为了构建通用化的xx智能,梅卡曼德专注于构建基础能力,其提供的技术能力和各种不同形态机器人(单臂、双臂、人形等)搭配,具有自我感知、规划和决策能力,可执行多种类型的任务,覆盖大量实际应用场景。

经过实践,这套标准化的 AI 大脑 + 3D 视觉 + 灵巧手产品组件,可以让机器人具备更高阶智能,具备类人的理解和推理能力,可快速理解自然语言指令,高效、精细地执行复杂任务。丰富数据和 AI 算法,可以让机器人认识更多常见物体。

图片

自 2016 年成立起,梅卡曼德一直坚持产品化的道路,不断升级迭代技术,高精度 3D 相机、AI 算法软件等产品组件均高度标准化且开放,提供通用标准接口,可以适配几十个品牌、上千个不同的机器人型号。对于其客户来说,可以通过一些主流的方式直接将产品与工业现场的系统快速打通配合。

梅卡曼德的工程师表示,他们目标就是让机器人能「真的把事情办好」。

xx智能的未来

还有更多应用场景

最近,Grok-4、Kimi K2、Step-3 等大模型在 AI 领域掀起了又一轮技术进步潮流,人们对于通用化的人工智能充满了信心。在同样前沿且热门的机器人领域,人们也已迫不及待。就在 7 月,美团和京东接连出手,投资了多家xx智能公司,科技巨头正在零售、物流、服务等领域持续探索新技术落地。

从更宏观的角度看,面对从业者人数动辄上亿的制造业、服务业等行业,在全球范围内,目前至少还是每几百个人能对应一台机器人,智能化程度不足是最主要的瓶颈。

但我们还不知道哪家公司提出的技术会成为「机器人领域的 ChatGPT」—— 一方面,基于大模型的新一代人工智能技术让通用化任务的机器人有了方向;另一方面,从技术展示到大规模落地,仍存在很多挑战。与自动驾驶类似,机器人行业的发展需要大量产业链条的重塑,从零开始构建客户场景。

正如梅卡曼德 CEO 邵天兰所言,这个方向不仅门槛高,难度也大。但一路走来,这家公司已经率先实现了跨行业、多场景、全球化的大规模落地。在不断变化大趋势下,梅卡曼德持续在 AI 等前沿技术方向进展突破,专注于通用机器人「眼脑手」三项基础能力,希望通过标准化产品适配广泛的硬件形态,推动机器人在各行业的落地。

成立八年来,梅卡曼德「AI 大脑 + 3D 视觉」赋能下的机器人产品已被应用至物流、汽车、家电等多个应用场景,规模化应用的典型场景包括工件上下料、纸箱 / 周转箱 / 膜包拆码垛、高精度定位 / 装配、缺陷检测、高精度测量、焊接等。

据介绍,目前梅卡曼德「AI 智慧大脑 + 3D 视觉之眼」的解决方案在全球的落地数量已经超过 15000 台,过去五年在国内细分领域市场的占有率一直位列第一,预计在今年一年内的落地数量会突破 1 万。

事实上,梅卡曼德是全球首个在制造和物流行业实现大规模制造、大规模智能机器人应用的公司,是全球「AI + 机器人」领域规模最大的独角兽企业。

通过一系列自主研发的 AI 核心技术,梅卡曼德希望能够帮助机器人实现更好的理解、推理和学习能力,和更好地处理复杂任务、操作海量物体等关键能力,更具通用性和实用性,推动机器人从工业场景向更广泛的应用领域迈进。面对xx智能的未来发展大方向,家用和服务领域拓展也在进行中。

也许很快,xx智能加持的机器人就会成为人人可用的智能「帮手」。

#华人学者李曼玲获荣誉提名

ACL首届博士论文奖公布

昨晚,自然语言处理顶会 ACL 公布了今年的一个特别奖项 —— 计算语言学博士论文奖。

这个奖项是今年新增的,获奖者是来自美国华盛顿大学的 Sewon Min。她的博士论文题为「Rethinking Data Use in Large Language Models(重新思考大型语言模型中的数据使用)」。

图片

图片

ACL 大会官方表示,「Min 的论文对大型语言模型的行为和能力提供了关键见解,特别是在上下文学习(in context learning)方面。 其研究成果对当今自然语言处理的核心产生了影响。

图片

Sewon Min 本科毕业于首尔大学,2024 年在华盛顿大学拿到博士学位,现在在加州大学伯克利分校电气工程与计算机科学系(EECS)担任助理教授。Google Scholar 上的数据量显示,她的论文被引量已经过万。

图片

除了这篇获奖论文,ACL 大会官方还公布了三篇计算语言学博士论文奖提名,获奖者分别为伊利诺伊大学香槟分校博士李曼玲、华盛顿大学博士 Ashish Sharma 和爱丁堡大学博士 Thomas Rishi Sherborne。

图片

以下是获奖论文的详细信息。

ACL 计算语言学博士论文奖

获奖论文:Rethinking Data Use in Large Language Models

图片

作者:Sewon Min

机构:华盛顿大学

链接:https://www.sewonmin.com/assets/Sewon_Min_Thesis.pdf

在这篇论文中,作者讨论了她在理解和推进大型语言模型方面的研究,重点关注它们如何使用训练所用的超大规模文本语料库。

首先,她描述了人们为理解这些模型在训练后如何学习执行新任务所做的努力,证明了它们所谓的上下文学习能力几乎完全由它们从训练数据中学到的内容决定。

接下来,她介绍了一类新的语言模型 —— 非参数语言模型(nonparametric LM)—— 它们将训练数据重新用作数据存储,从中检索信息以提高准确性和可更新性。她描述了她在建立此类模型基础方面的工作,包括首批广泛使用的神经检索模型之一,以及一种将传统的两阶段 pipeline 简化为一个阶段的方法。

图片

她还讨论了非参数模型如何为负责任的数据使用开辟新途径,例如,通过分离许可文本和版权文本并以不同方式使用它们。最后,她展望了我们应该构建的下一代语言模型,重点关注高效 scaling、改进事实性和去中心化。

ACL 计算语言学博士论文奖提名

ACL 会议表示「在众多杰出的投稿中选出优胜者十分困难 —— 因此委员会推荐三位表现同样出色的论文获得特别提名」,因此在这里我们也将这三篇优秀的论文展示给读者。

图片

论文 1:Event-Centric Multimodal Knowledge Acquisition

图片

  • 作者:Manling Li
  • 机构:伊利诺伊大学香槟分校(UIUC)
  • 链接:https://www.ideals.illinois.edu/items/128632

「发生了什么?是谁?什么时候?在哪里?为什么?接下来会发生什么?」是人类在面对海量信息时理解世界所需回答的基本问题。

因此,在这篇论文中,作者聚焦于多模态信息抽取(Multimodal Information Extraction, IE),并提出以事件为中心的多模态知识获取方法(Event-Centric Multimodal Knowledge Acquisition),以实现从传统的以实体为中心的单模态知识向以事件为中心的多模态知识的跃迁。

图片

作者将这一转变分为两个核心部分:

理解多模态语义结构以回答「发生了什么?是谁?什么时候?在哪里?」,即知识抽取。由于这些语义结构具备抽象性且难以锚定于图像中的具体区域,通用大规模预训练方法难以实现语言与视觉模态间的有效对齐。

为此,作者将复杂事件语义结构引入视觉 - 语言预训练模型(称为 CLIP-Event),并首次提出跨模态零样本语义迁移方法,从语言迁移到视觉,解决了信息抽取任务在迁移性上的瓶颈,并首次实现了零样本多模态事件抽取(M2E2)。

理解时间动态以回答「接下来会发生什么?是谁?为什么?」,即知识推理。

作者提出了事件图谱结构(Event Graph Schema),首次支持在全球事件图上下文中进行推理与替代性预测,并提供结构化解释。

她提出的多模态事件知识图谱(Multimedia Event Knowledge Graphs),使机器具备从多源异构数据中发现并推理真实知识的能力。

图片

图片

本文作者李曼玲(Manling Li)于 2023 年毕业于 UIUC,计算机科学 PhD,导师是季姮(Heng Ji)。根据其领英信息,2023 年 8 月 - 2024 年 8 月,李曼玲在斯坦福大学人工智能实验室任博士后研究员。

李曼玲在斯坦福的导师是斯坦福大学助理教授、清华姚班校友吴佳俊, 并在李飞飞教授的指导下开展研究工作 。

目前,Manling Li 正在西北大学担任助理教授,带领机器学习与语言实验室(MLL Lab),致力于多模态智能体 AI 模型的尖端研究。实验室网址:https://mll-lab-nu.github.io

论文 2:Human-AI Collaboration to Support Mental Health and Well-Being

图片

  • 作者:Ashish Sharma
  • 机构:华盛顿大学
  • 链接:https://digital.lib.washington.edu/researchworks/items/2007a024-6383-4b15-b2c8-f97986558500

随着全球心理健康问题的日益严重,医疗系统正面临为所有人提供可及且高质量心理健康服务的巨大挑战。

论文作者探讨了人机协作如何提升心理健康支持的可获取性与服务质量。

图片

首先,作者研究了人机协作如何赋能支持者,帮助他们开展更高效、富有同理心的对话。论文以 Reddit 和 TalkLife 等在线互助平台上的互助者为研究对象。

通过强化学习方法,并在全球最大互助平台上开展一项涵盖 300 名互助者的随机对照试验,结果表明,AI 反馈机制显著提升了他们在对话中表达共情的能力。

其次,他探讨了人机协作如何帮助求助者,提升其对自助式心理干预工具的使用体验和效果。

这类干预(如认知行为疗法中的「自我训练工具」)往往认知负荷重、情绪触发强,从而影响其大规模推广。以负性思维的认知重构为案例,作者在一个大型心理健康平台上对 15,531 名用户进行随机试验,结果显示,人机协作不仅帮助用户缓解负面情绪,还为心理机制研究提供了理论支持。

第三,他系统评估了用于心理支持的人机协作系统。作者探讨了如何基于临床试验框架,有效评估 AI 心理干预在短期与长期的表现。同时设计了一套计算框架,用于自动评估大语言模型作为「治疗师」的行为表现。

本文作者 Ashish Sharma 于 2024 年毕业于华盛顿大学,计算机科学 PhD, 研究曾获得 ACL 杰出论文奖、The Web Conference 最佳论文奖,以及摩根大通人工智能研究博士奖学金。

目前,Ashish Sharma 正在微软应用研究院(Microsoft Office of Applied Research)担任高级应用科学家,研究方向聚焦于人机协作系统的开发与优化。

图片

图片

论文 3:Modeling Cross-lingual Transfer for Semantic Parsing

图片

  • 作者:Thomas Rishi Sherborne
  • 机构:爱丁堡大学
  • 链接:https://era.ed.ac.uk/handle/1842/42188

语义解析将自然语言表述映射为意义的逻辑形式表示(例如,lambda 演算或 SQL)。语义解析器通过将自然语言翻译成机器可读的逻辑来回答问题或响应请求,从而充当人机交互界面。语义解析是语言理解系统(例如,数字助手)中的关键技术,它使用户能够在不具备专业知识或编程技能的情况下通过自然语言访问计算工具。跨语言语义解析使解析器适应于将更多自然语言映射到逻辑形式。当代语义解析的进展通常只研究英语的解析。语义解析器的成功跨语言迁移通过扩大这些工具的使用范围来提高解析技术的实用性。 

 然而,开发跨语言语义解析器引入了额外的挑战和权衡。新语言的高质量数据稀缺且需要复杂的标注。在可用数据的基础上,解析器必须适应语言在表达意义和意图方面的变化。现有的多语言模型和语料库也表现出对英语的固有偏见,对使用者较少或资源较少的语言的跨语言迁移效果参差不齐。目前,还没有教授语义解析器新语言的最优策略或建模解决方案。 

这篇论文考虑语义解析器从英语到新语言的高效适应。他们的研究动机来自一个案例研究:一名工程师将自然语言数据库接口扩展到新客户,在有限的标注预算下寻求对新语言的准确解析。克服跨语言语义解析的开发挑战需要在模型设计、优化算法以及数据获取和采样策略方面进行创新。 

论文的总体假设是,跨语言迁移可以通过在高资源语言(即英语)和任务中未见过的新语言之间对齐表示来实现。作者提出了不同的对齐策略,利用现有资源,如机器翻译、预训练模型、相邻任务的数据,或每种新语言中的少量标注示例。他们提出了适合跨语言数据数量和质量的不同建模解决方案。 

首先,他们提出了一个集成模型,通过多个机器翻译源来引导解析器,通过利用较低质量的合成数据来提高鲁棒性。其次,他们提出了一个零样本解析器,使用辅助任务在新语言中没有任何训练数据的情况下学习跨语言表示对齐。第三,他们提出了一个高效的元学习算法,在训练期间使用新语言中的少量标记示例优化跨语言迁移。最后,他们提出了一个潜变量模型,使用最优传输明确最小化跨语言表示之间的差异。 

论文的结果表明,通过在明确优化准确解析和跨语言迁移的模型中组合最少的目标语言数据样本,准确的跨语言语义解析是可能的。 

本文作者 Thomas Rishi Sherborne 2024 年在爱丁堡大学拿到计算机科学博士学位,2024 年 4 月作为一名技术人员加入 Transformer 作者 Aidan Gomez 创办的 AI 创企 Cohere,致力于挖掘大语言模型在企业应用中的潜力。

有意思的是,Thomas Rishi Sherborne 在自己的 Linkedin 界面写到「我目前不寻求新的职位,任何关于招聘的私信都不会回复(无一例外)」。看来,他对于 Cohere 的这份工作还是很满意的。

图片

图片

接下来,我们将继续关注 ACL 大会的奖项颁发情况,敬请关注后续报道。

#Intern-S1

WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4

当马斯克的 Grok-4 还在用 “幽默模式” 讲冷笑话时,中国的科学家已经在用书生 Intern-S1 默默破解癌症药物靶点的密码 —— 谁说搞科研不能又酷又免费?

自从去年 AI 预测与设计蛋白质结构获得诺贝尔奖,AI for Science 这一领域关注度达到了新高度。

特别是近两年在大模型强大能力加持下,我们期待能够出现帮助我们作科研的 AI 利器。

现在,它来了。

7月26日,上海人工智能实验室(上海AI实验室)发布并开源『书生』科学多模态大模型Intern-S1,多模态能力全球开源第一,文本能力比肩国内外一流模型,科学能力全模态达到国际领先,作为融合科学专业能力的基础模型,Intern-S1综合性能为当前开源模型中最优。

图片

基于 Intern-S1 的『书生』科学发现平台 Intern-Discovery 亦于近日上线,助力研究者、研究工具、研究对象三者能力全面提升、协同演进,驱动科学研究从团队单点探索迈向科学发现 Scaling Law 阶段。

  • Intern-S1 体验页面:https://chat.intern-ai.org.cn/
  • GitHub 链接:https://github.com/InternLM/Intern-S1
  • HuggingFace 链接:https://huggingface.co/internlm/Intern-S1-FP8
  • ModelScope 链接:https://modelscope.cn/models/Shanghai_AI_Laboratory/Intern-S1

中国开源模型通过算法优化(如动态精度调节、MoE架构)和开源协作生态,在性能接近甚至超越国际上领先闭源模型的同时,大幅降低算力需求。如,DeepSeek-R1以开源模式对标OpenAI的闭源o1模型,凭借独创的强化学习技术和群组相对策略优化(GRPO),在数学推理等任务上达到相近性能,但训练成本远低于后者;Intern-S1在科学推理任务上超越xAI的Grok 4,同时训练算力消耗仅为Grok 4的1%,展现了更高的计算效率。

性能领先的开源科学多模态模型

重构科研生产力 

Intern-S1以轻量化训练成本,达成科学/通用双维度性能突破。

在综合多模态通用能力评估上,Intern-S1 得分比肩国内外一流模型,展现跨文本、图像的全面理解力。该评估为多项通用任务评测基准均分,证明其多场景任务中的鲁棒性与适应性,无惧复杂输入组合挑战。 

在多个领域专业评测集组成的科学能力评测中,Intern-S1领先Grok-4等最新闭源模型。评测覆盖了物理、化学、材料、生物等领域的复杂专业任务,验证了模型在科研场景的强逻辑性与准确性,树立行业新标杆。

图片

图片

图片

当大模型在聊天、绘画、代码生成等场景中持续取得突破时,科研领域却仍在期待一个真正“懂科学”的AI伙伴。尽管当前主流模型在自然语言处理、图像识别等方面表现出色,但在面对复杂、精细且高度专业化的科研任务时,依然存在明显短板。一方面,现有开源模型普遍缺乏对复杂科学数据的深度理解,难以满足科研场景对精度、专业性和推理能力的严苛要求。另一方面,性能更强的闭源模型存在部署门槛高、可控性弱等问题,导致科研工作者在实际应用中常面临高成本、低透明的现实挑战。

在2025世界人工智能大会(WAIC 2025)科学前沿全体会议上,上海AI实验室发布了『书生』科学多模态大模型Intern-S1。该模型首创“跨模态科学解析引擎”,可精准解读化学分子式、蛋白质结构、地震波信号等多种复杂科学模态数据,并具备多项前沿科研能力,如预测化合物合成路径,判断化学反应可行性,识别地震波事件等,真正让 AI 从“对话助手”进化为“科研搭档”,助力全面重构科研生产力。

得益于强大的科学解析能力,Intern-S1在化学、材料、地球等多学科专业任务基准上超越了顶尖闭源模型Grok-4,展现出卓越的科学推理与理解能力。在多模态综合能力方面,Intern-S1同样表现亮眼,全面领先InternVL3、Qwen2.5-VL等主流开源模型,堪称“全能高手”中的“科学明星”。

基于Intern-S1强大的跨模态生物信息感知与整合能力,上海AI实验室联合临港实验室、上海交通大学、复旦大学、MIT等研究机构协同攻关,共同参与构建了多智能体虚拟疾病学家系统——“元生”(OriGene),可用于靶标发现与临床转化价值评估,已在肝癌和结直肠癌治疗领域上分别提出新靶点GPR160和ARG2,且经真实临床样本和动物实验验证,形成科学闭环。

体系化的技术创新为Intern-S1的能力突破提供了有效支撑。自书生大模型首次发布以来,上海AI实验室已逐步构建起丰富的书生大模型家族,包括大语言模型书生·浦语InternLM、多模态模型书生·万象InternVL、强推理模型书生·思客 InternThinker等。Intern-S1融合了『书生』大模型家族的优势,在同一模型内实现了语言和多模态性能的高水平均衡发展,成为新一代开源多模态大模型标杆。

Intern-S1在国际开源社区引发了关注,不少知名博主纷纷为其点赞,并称“几乎每天都能看到来自中国的新开源Sota成果——纪录每天都在被刷新。”

图片

图片

创新科学多模态架构,深度融合多种科学模态数据

受数据异构性壁垒、专业语义理解瓶颈等因素制约,传统的通用大模型在处理科学模态数据时面临显著挑战。为了更好地适应科学数据,Intern-S1新增了动态Tokenizer和时序信号编码器,可支持多种复杂科学模态数据,实现了材料科学与化学分子式、生物制药领域的蛋白质序列、天文巡天中的光变曲线、天体碰撞产生的引力波信号、地震台网记录的地震波形等多种科学模态的深度融合。通过架构创新,Intern-S1还实现了对科学模态数据的深入理解与高效处理,例如,其对化学分子式的压缩率相比DeepSeek-R1提升70%以上;在一系列基于科学模态的专业任务上消耗的算力更少,同时性能表现更优。

图片

“通专融合”合成科学数据,一个模型解决多项专业任务

科学领域的高价值任务往往高度专业化,不仅模型输出可读性差,且不同任务在技能要求与思维方式上差异显著,直接混合训练面临此消彼长的困境,难以实现能力的深度融合。为此,研究团队提出通专融合的科学数据合成方法:一方面利用海量通用科学数据拓展模型的知识面,另一方面训练众多专业模型生成具有高可读性、思维路径清晰的科学数据,并由领域定制的专业验证智能体进行数据质量控制。最终,这一闭环机制持续反哺基座模型,使其同时具备强大的通用推理能力与多项顶尖的专业能力,真正实现一个模型解决多项专业任务的的科学智能突破。

图片

联合优化系统+算法,大规模强化学习成本直降10倍

当前,强化学习逐渐成为大模型后训练的核心,但面临系统复杂度和稳定性的重重挑战。得益于训练系统与算法层面的协同突破,Intern-S1研发团队成功实现了大型多模态MoE模型在FP8精度下的高效稳定强化学习训练,其强化学习训练成本相比近期公开的MoE模型降低10倍。

在系统层面,Intern-S1研究团队采用了训推分离的RL方案,通过自研推理引擎进行FP8高效率大规模异步推理,利用数据并行均衡策略缓解长思维链解码时的长尾现象;在训练过程中同样采用分块式FP8训练,大大提升训练效率。后续,训练系统也将开源。

在算法层面,基于Intern·BootCamp构建的大规模多任务交互环境,研究团队提出Mixture of Rewards混合奖励学习算法,融合多种奖励和反馈信号,在易验证的任务上采用RLVR训练范式,通过规则、验证器或者交互环境提供奖励信号;在难验证的任务上(如,对话和写作任务)采用奖励模型提供的奖励信号进行联合训练。同时,训练算法还集成了上海AI实验室在大模型强化学习训练策略上的多项研究成果,实现了训练效率和稳定性的显著提升。

图片

工具链全体系开源,免费开放

打造更懂科学的AI助手

书生大模型自2023年正式开源以来,已陆续迭代升级多个版本,并持续降低大模型应用及研究门槛。书生大模型首创并开源了面向大模型研发与应用的全链路开源工具体系,覆盖数据处理、预训练、微调、部署、评测与应用等关键环节,包含低成本微调框架XTuner、部署推理框架LMDeploy、评测框架OpenCompass、高效文档解析工具MinerU,以及思索式AI搜索应用MindSearch等在内的核心工具全面开源,已形成涵盖数十万开发者参与的活跃开源社区。

近期,上海AI实验室进一步开源了多智能体框架Intern·Agent,可广泛应用于化学、物理、生物等领域的12种科研任务,在大幅提升科研效率的同时,亦初步展现出多智能体系统自主学习、持续进化的潜力,为人工智能自主完成算法设计、科学发现等高端科研任务开辟了全新探索路径。

基于Intern-S1的『书生』科学发现平台Intern-Discovery亦于近日上线,助力研究者、研究工具、研究对象三者能力全面提升、协同演进,驱动科学研究从团队单点探索迈向科学发现Scaling Law阶段。

未来,在研究范式创新及模型能力提升的基础上,上海AI实验室将推进Intern-S1及其全链条工具体系持续开源,支持免费商用,同时提供线上开放服务,与各界共同拥抱更广阔的开源生态,携手打造更懂科学的AI助手。

图片

#全链式空间天气AI预报模型“风宇”

全球首个全链式空间天气AI预报模型“风宇”!国家卫星气象中心牵头,联合南昌大学、华为共同研发

就在一颗通信卫星以第一宇宙速度飞过我们头顶的几分钟时间里,上百万人正借助由它所搭建的网络去链接这个世界,而实际上,这样的卫星有成千上万颗。当我们使用方便快捷的卫星网络服务时,就在网络的另一边,一个名叫 “风云太空” 的系统,却平静无声地向这些为我们提供服务的卫星发送了预警信息,一场因太阳爆发活动所带来的冲击即将在大约 24 小时后到达...... 在获取预警信息后,地面运控部门启动应急预案,并在太阳风暴到来时从容应对,化解了此次空间天气危机。

这个场景,正是我国空间天气预报能力迈向智能化的一个缩影,而其背后的核心技术之一,就是本文的主角 ——“风宇” 模型。国家卫星气象中心(国家空间天气监测预警中心)主任王劲松介绍,这是全球首个全链式的空间天气人工智能预报模型。 

图片

1 看不见的 “宇宙海啸”

为什么我们需要一个太空 “气象员”?

当前太阳正处于活动高发期,日珥爆发等随机事件如同无形的 “宇宙海啸”,时刻威胁着在轨卫星、航空器乃至地面关键基础设施的安全。

然而,要精准预报这场跨越 1.5 亿公里的风暴绝非易事。传统的预报主要依赖数值模型,但空间天气涉及太阳、行星际、磁层、电离层等多个圈层的复杂物理作用,机制极为复杂。这导致传统数值模型不仅计算量巨大、耗时长,难以满足实时响应的需求,也难以精确刻画完整的物理过程。

2 “风宇” 登场

世界首个全链路空间天气 AI 预报模型

面对困局,随着人工智能(AI)技术的发展,一个全新的解决方案应运而生。2025 年 7 月 26 日,在世界人工智能大会气象专会上,由国家卫星气象中心(国家空间天气监测预警中心)牵头,联合南昌大学、华为技术有限公司共同研发的 “风宇” 模型正式发布。

,时长02:23

王劲松主任认为,“风宇” 模型的研发成功,使得空间天气预报实现了物理模型、数值预报和人工智能三足并立的格局,大大提高了我国空间天气预报能力。

,时长01:52

南昌大学人工智能工业研究院副院长陈洲详细介绍了 “风宇” 模型,该模型采用了首创空间天气上下游智能耦合技术,利用了不同区域感知响应和结构自适应调整,实现了模型之间的协同优化以及全链式的小时级快速预报。

,时长01:07

华为计算昇腾业务总裁张迪煊表示,“风宇” 空间天气模型基于 MindSpore Science 套件和昇腾硬件,实现了模型训练到推理的全流程应用,覆盖太阳风、磁层和电离层全链式耦合训练,在训练效率、预测精度、系统适配性方面全面优于传统平台。

架构的革命性:从 “各自为战” 到 “协同作战”

过去,空间天气预报领域也曾构建过一些人工智能模型,但它们往往针对特定区域,如太阳风或电离层,彼此独立。王劲松主任指出,这种 “各自为战” 的模式最大的痛点在于,它没有体现从太阳到地球整个因果链的物理关系,这限制了预报水平的提高。

为此,“风宇” 模型首创了一种 “链式训练结构”,将预报从孤立的环节整合成一个协同作战的整体。其中包括了三大关键技术创新。

第一,国际首次实现全链路智能建模。“风宇” 是国际上首次实现从太阳风-磁层-电离层端到端 AI 建模的系统,目前包括针对太阳风的 “煦风”、针对地球磁场的 “天磁” 和针对地球电离层的 “电穹” 等三大空间区域模型。这些区域模型采用链式训练模式和可插拔架构分别建模,未来能够更加灵活、高效地进行更新和迭代,同时新的太阳、极光等模型也在研发之中。

图片

第二,首创空间天气上下游智能耦合技术。“风宇” 独创的 “智能耦合优化机制”(也被称为耦合优化器),是实现三大区域模型协同的关键。陈洲特别提出,这是一种基于深度神经网络的多区域模型耦合优化方法,通过不同区域感知响应和结构自适应调整,从而实现模型之间的协同优化、全链式的小时级快速预报。

例如,“煦风” 模型的输出,作为输入喂给下游的 “天磁” 和 “电穹” 模型。而耦合优化器(Coupling Optimizer)则通过计算多个损失函数(Loss1, Loss2, Loss3, LossX1, LossX2)来协同优化所有模型。

这样,“风宇” 模型不仅能更真实地再现太阳风影响地球环境的过程,还能描绘出磁场和电离层间复杂的相互作用,从根本上提升了对空间天气变化过程的理解和预报精度。

王劲松主任认为,“风宇” 模型的实践,也为人类利用不同的数据源,实现人工智能对复杂物理现象的描述和解读提供了一个很好的范例。

图片

第三,基于自主可控 AI 框架的算子领域优化技术。张迪煊介绍,在软件层面,“风宇” 基于 MindSpore Science 套件构建电离层、磁层等多个空间区域预报模型,并联合国家卫星气象中心(国家空间天气监测预警中心)、南昌大学共同设计的张量并行、流水线并行等并行切分策略,开发适用于 3D 时空数据的科学计算接口,通过自动图优化、图算融合等编译优化能力,有效提升模型训练 / 推理效率。

硬件层面,“风宇” 基于昇腾 AI 集群,在提供业界领先算力的基础上,通过系统级高可靠设计及软硬件协同优化技术,实现有效算力全面提升,为大规模历史气象资料和高分辨率格点数据的批量训练提供高效支撑。

数据驱动的基础:“天地一体化” 观测体系

任何先进的 AI 模型都离不开海量高质量数据的 “喂养”。“风宇” 的卓越性能,我国已建成的 “天地一体化” 空间天气监测体系功不可没。在太空, “风云系列卫星” 具备了监测太阳、磁层、电离层等圈层关键要素的综合能力,“羲和号” 和 “夸父一号” 获取了的丰富的太阳活动特征。在地面,则有中国气象局布局的 73 个台站和 “子午工程” 布局的 31 个台站、近 300 台设备进行全天候探测。正是这些海量、立体观测数据,为 “风宇” 模型提供了源源不断的 “燃料”。

“风宇” 模型还创见性地将全链式空间天气数值模式生成的数据与观测数据相结合,形成了互相补充、相互印证的高质量数据基础,实现从空间天气监测、建模到预警的全链路智能化。

陈洲特别指出,“风宇” 模型中的电离层部分具有弹性特质,它能够有效地融合来自于不同观测、不同时间分辨率的数据进行整合。

3 从预报到防护

“风宇” 的应用实例与性能表现

“风宇” 不仅在架构上实现了创新,更在实际业务应用中展现出突破性的预报能力。在长达一年的预测性能测试中,“风宇” 在太阳风、磁层和电离层各区域均表现出卓越的 24 小时短临预测能力。

特别是在近两年发生的多次大磁暴事件中,“风宇” 在电离层区域的预测性能尤为突出,其对全球电子密度总含量的预测误差基本能控制在 10% 左右。王劲松主任介绍,这是当今世界范围内的最好结果。

目前,“风宇” 模型已申请了 11 项国家发明专利。

应用案例:全方位指导航天器 “趋利避害”

“风宇” 的能力远不止于预报。它强大的预测能力可以深入到航天器设计、管理和运行的各个环节。例如,在卫星的设计阶段,就可以依据模型对未来太阳活动强度的预测,来估算卫星在其使用寿命中可能经受的辐射上下限,从而进行针对性的防辐射加固设计。

对于在轨运行的卫星,精准的预报则能帮助其进行轨道管理和任务安全优化。例如,当预测到空间天气变化将导致大气阻力增加时,可以提前规划卫星燃料的使用、调整飞行姿态,确保任务安全。

4 下一站

星辰大海中的 “边缘智能”

“风宇” 模型的发布,标志着我国空间天气监测预警能力取得了突破性进展。正如王劲松主任所说,它在技术架构、数据融合和应用价值上的突破,是 AI for Science 领域一个典型的成功案例,也为空间科学、机器学习和高性能计算的融合发展也提供了新的参考价值。

但探索永不止步。当前 “风宇” 是在地面运行的云端大模型,依赖强大的算力支持。而空间智能的下一步,无疑是让 AI 更靠近应用前沿。未来,将 AI 能力直接部署在卫星上,实现星上自主决策,将是航天领域 AI 应用演进的重要方向。

这为广大开发者社群描绘出了一条清晰的技术演进路线:从云端大模型到星上边缘计算。这意味着,AI 模型的轻量化、端侧推理优化、高可靠性智能系统设计等,将成为未来航天领域 AI 应用的新热点,从而为人类探索星辰大海的征途,点亮一盏更智能、更安全的 “指路明灯”。

#WebShaper

通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA

WebAgent 续作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中,作者们首次提出了对 information-seeking(IS)任务的形式化建模 并基于该建模设计了 IS 任务训练数据合成方法,并用全开源模型方案取得了 GAIA 评测最高 60.1 分的 SOTA 表现。

WebShaper 补足了做 GAIA、Browsecomp 上缺少高质量训练数据的问题,通义实验室开源了高质量 QA 数据!

WebShaper 体现了通义实验室对 IS 任务的认知从前期的启发式理解到形式化定义的深化。

GitHub 链接:https://github.com/Alibaba-NLP/WebAgent

huggingface 链接:https://huggingface.co/datasets/Alibaba-NLP/WebShaper

model scope 链接:https://modelscope.cn/datasets/iic/WebShaper

图片

图表 1:WebShaper 在 GAIA 上取得开源方案 SOTA。

WebShaper —— 合成数据范式的转变

在大模型时代,「信息检索(Information Seeking, IS)」早已不是简单的 「搜索 + 回答」 那么简单,而是 AI 智能体(Agent)能力的重要基石。无论是 OpenAI 的 Deep Research、Google 的 Gemini,还是国内的 Doubao、Kimi,它们都把 「能不能上网找信息」 当作核心竞争力。

系统性地构造高质量的信息检索训练数据成为激发智能体信息检索能力的关键,同时也是瓶颈。当前主流方法依赖 「信息驱动」 的合成范式 —— 先通过网络检索构建知识图谱,再由大模型生成问答对(如 WebDancer、WebWalker 等方案)。这种模式存在两大缺陷:知识结构与推理逻辑的不一致性,以及预检索内容的局限导致的任务类型、激发能力和知识覆盖有限。

图片

图表 2:WebShaper 从 「信息驱动」到 「形式化驱动」 的范式转变。

WebShaper 系统开创性提出 「形式化驱动」 新范式,通过数学建模 IS 任务,并基于该形式化,检索信息,合成训练数据。形式化驱动的优点包括:

1. 全域任务覆盖 :基于形式化框架的系统探索,突破预检索数据边界,实现覆盖更广任务、能力、知识的数据生成。

2. 精准结构控制 :通过形式化建模,可精确调控推理复杂度与逻辑结构。

3. 结构语义对齐 :任务形式化使信息结构和推理结构一致,减少数据合成中产生的错误。

Information Seeking 形式化建模

图片

图表 3: 形式化建模

WebShaper 首先提出基于集合论的 IS 任务形式化模型。

该模型包含核心概念「知识投影(Knowledge Projection)」,他是一个包含实体的集合:

  • 每个 IS 任务都由 KP 的 R - 并集(R-Union)、交集(Intersection)、递归操作构成,能够精准控制推理路径和任务复杂度;
  • 每个 IS 任务旨在确定一个复杂的由 KP 组合而成的目标集合 T 中包含的实体。

该形式化建模让 WebShaper 不再依赖自然语言理解的歧义,而是可控、可解释、可扩展的数据合成方案。

智能体式扩展合成:让 Agent 自己 「写题」

为了与形式化建模保持一致,WebShaper 整个流程开始于预先构建且形式化的基础种子任务,然后在形式化的驱动下,将种子问题多步扩展为最终的合成数据。此过程采用专用的代理扩展器 (Expander) 模块,旨在通过关键过程 (KP) 表征来解释任务需求。在每个扩展阶段,系统都会实现逐层扩展机制,以最小化冗余,同时通过控制复杂度进程来防止推理捷径。

种子任务构建

为了构建种子任务,作者下载了全部 WikiPedia,并在词条中随机游走检索信息,合成基础的种子 IS 任务。

KP 表示

IS 任务形式化模型是复杂度的,其中包含大量的交、R - 并和递归操作。为了在 Expander 中表示和使用该模型,作者提出了一种 KP 表示。其中通过引入 「变量」 和 「常量」,以及 R - 并的可交换性质,表示了 IS 形式化模型。

如,将如下的问题:

「Which player of a team in the 2004-05 season, who was born in 90s? This team is founded in 1966 and is an East German football team.」

表示为:

图片

图表 4 :形式化表示。

逐层扩展结构

数据扩展的策略是数据合成的关键。之前的方法在我们的形式化模型中将得到下图中的 Random Structure 和 Sequential Structure:

图片

图表 5 :扩展策略对比。

这样的结构存在两个问题:

  • 冗余性: 如上图中的 Random Structure 所示,存在一些已知常量与其他已知常量相联系。在这种情况下,诸如 「柏林迪纳摩是一家位于柏林的足球俱乐部」这样的句子会存在于问题中。然而,这并没有增加任务解决的推理链。
  • 推理捷径: 如上图中的 Sequential Structure 所示,存在一个将常量直接连接到目标的推理链条。如果发生这种情况,模型可能会通过仅推理较近的常量而忽略较深的序列来猜测答案。

为此,作者提出如上图所示的逐层结构,每次扩展都选择叶结点常量进行扩展,有效地解决了上述的两个问题。

扩展智能体

具体扩展是由 Expander 智能体负责执行,他接受当前问题的形式化表示:

  • 根据图结构层次遍历找到可扩展常量节点;
  • 调用搜索、网页摘要、验证等工具;
  • 自动生成形式化任务、并进行答案验证和复杂度过滤。

这一步,使得我们不仅能构建覆盖度广的任务,更能确保任务正确性和推理链条的严谨性,大幅减少错误传播。

Agent 训练

基于形式化生成的高质量任务和完整的行为轨迹,作者使用监督微调(SFT)+ GRPO 强化学习策略来训练 Agent。WebShaper 最终得到 5k 的训练轨迹。

训练后,模型在 GAIA 基准任务中获得:

  • 60.1 分,超越所有开源方案
  • 闭源模型 GPT4.1 只有 40.7 分、Claude Sonnet4 58.2 分、O4 mini 66.99

我们在全使用开源模型方案下拉近了用最强闭源模型 o4 mini 的差距,大幅领先第二名的开源方案。

图片

图表 6 :与最新基线方法的对比。

进一步分析

论文中,作者还进一步分析了数据和训练模型,发现:

1. WebShaper 数据领域覆盖充分。

2. 在 WebShaper 数据上,通过 RL 训练能大幅激发模型的 IS 能力。

3. 消融实验验证了形式化建模和逐层扩展策略的有效性。

4. 求解 WebShaper 任务,相比于基线数据要求更多的智能体 action。

为什么这件事重要?

  • 任务形式化 = WebShaper 是基于形式化任务合成数据的开端。该思想可以扩展于相比 IS 更为复杂的任务。
  • 数据质量 = Agent 能力上限。好的智能体,先要有好的训练任务。
  • Agentic 数据合成 = 智能体数据构建需要结合推理和信息检索,使用 agent 合成数据可以大幅减少中间过程开销和误差传递。
  • 开源共享 = 社区生态繁荣。我们相信,用最开放的方式推动最前沿的研究,是 AI 发展的正路。

用开源数据 + 模型做到 GAIA 60 分,你也可以。

现在就来试试:https://github.com/Alibaba-NLP/WebAgent

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

网站公告

今日签到

点亮在社区的每一天
去签到