「Memene 摸鱼日报 2025.9.12」前OpenAI CTO 公司发布首篇技术博客,Qwen-Next 80B 发布,Kimi 开源轻量级中间件

发布于:2025-09-13 ⋅ 阅读:(21) ⋅ 点赞:(0)

以下内容包括「人工智能生成内容」

前OpenAI CTO 公司发布首篇技术博客,Qwen-Next 80B 发布

👏在昨天(2025.9.11),AI领域有这些内容可能值得你关注:

Qwen3-Next 80B 发布

通义团队发布了 Qwen3-Next-80B-A3B 。这是一款将“性能×效率”拉满的 800 亿参数 LLM:通过只在每个令牌激活约 30 亿参数,把训练成本拉低到十分之一、推理速度较 Qwen3-32B 提升约 10 倍(尤其在 32K+ 长上下文)。它采用“门控 DeltaNet + 门控注意力”的混合架构,兼顾速度与召回;配备超稀疏 MoE(512 专家,10 路由 + 1 共享),并结合多令牌预测与推测解码,实现“涡轮增压”的生成体验。综合表现超越 Qwen3-32B,长上下文与推理能力可与 Qwen3-235B 比肩。

Anthropic 发布大模型工具调用实践指南

Anthropic 近日在工程博客上分享了为大型语言模型代理(LLM Agents)编写高效工具的最佳实践。文章强调,AI 代理的能力高度依赖于开发者提供的工具,并详细探讨了如何优化工具调用、工具描述以及输入输出流程,以提升智能体系统的准确性和健壮性。最新博客地址在 https://www.anthropic.com/engineering/writing-tools-for-agents 可见。

中国电信发布星辰超级智能体,瞄准产业智能化升级

中国电信天翼 AI 近日发布星辰超级智能体,该平台依托自研“星辰大模型”技术底座,具备全模态理解、复杂任务自主规划和百万字级别记忆能力。 “企业更希望得到的是一个应用,而不是大模型本身” ,首席架构师毕然指出,智能体平台能直接产出满足产业需求的应用解决方案。

该超级智能体采用类人思考框架,包含感知理解、认知决策、记忆知识和行动执行四大模块。与市面多数消费级智能体不同,其定位是深度嵌入企业系统的数字化生产力单元,已在江苏电信客服系统实现工单自动预处理,使员工处理效率提升 30%以上。

目前平台在客服、营销等 IT 化程度高的场景优先落地,同时通过开源模式支持各省公司二次开发。作为央企代表,中国电信凭借全国本地化团队和丰富产业经验推动智能体落地。

人工智能研究院副院长李永翔表示, “智能体就是大模型落地产业的主流模式” ,虽然初期曾怀疑其价值,但实践证明组合多模型的工作流是解决实际问题的有效路径。平台将持续迭代底层模型能力,并加强安全防护以满足企业级需求。

Thinking Machines Lab 发布 AI 推理确定性突破技术

近日,由前 OpenAI 首席技术官米拉·穆拉蒂(Mira Murati)创立的 Thinking Machines Lab 公司发布了其首篇技术博客,揭示了大型语言模型推理过程中输出不确定性的根本原因,并提出了有效的解决方案。这家成立仅半年的初创公司虽然尚未推出任何产品,但估值已达到 120 亿美元。

在人工智能领域,许多开发者都遇到过这样的困扰:即使将温度参数设置为零,完全关闭随机性,同一个提示词输入大型语言模型后,仍然可能得到不同的输出结果。这种不确定性给模型评测、调试以及需要绝对确定性的应用场景带来了巨大挑战。此前业界普遍认为,这种不确定性源于 GPU 并行计算和浮点数运算的非结合性特性。

然而,Thinking Machines Lab 的研究团队通过实验推翻了这一传统认知。他们发现,当在 GPU 上反复对相同数据执行相同的矩阵乘法运算时,结果在比特级别上是完全确定的。这表明问题并不在于并行计算或浮点运算本身,而在于更高层次的系统设计缺陷—— 批次不变性 的缺失。 批次不变性 是指单个数据样本的计算结果不应受到其所在处理批次的大小或批次中其他样本内容的影响。在实际的推理服务器环境中,为了提升效率,系统会采用动态批处理技术,将短时间内收到的多个请求打包成一个批次进行处理。这种动态调整的批次大小会导致底层计算内核根据批次规模选择不同的计算策略,从而改变了计算顺序,最终造成输出结果的差异。

研究团队针对 Transformer 模型的三个核心模块提出了改造方案。对于 RMSNorm ,解决方案是禁用自适应并行策略,固定使用对所有批次大小都适用的归约策略。在矩阵乘法方面,需要为所有可能遇到的矩阵形状编译并指定固定的计算内核配置,明确禁用会改变计算顺序的 Split-K 等优化技术。对于注意力机制,则提出了确保一致内存布局和采用固定拆分大小的策略。

实验结果显示,经过改造的确定性系统在 1000 次采样中都能产生完全一致的输出,而标准的非确定性系统则产生了 80 个不同的输出版本。实现这种 100%的确定性需要付出约 13.5%的峰值 吞吐量代价,但这个代价在许多对可靠性要求极高的应用场景中是完全可以接受的。

Kimi.ai 开源轻量级中间件 checkpoint-engine,实现大模型推理引擎高效权重更新

Kimi.ai 近日开源了 checkpoint-engine ,这是一个轻量级中间件,专门用于在大型语言模型(LLM)推理引擎中进行高效、原地权重更新。该工具特别适用于强化学习(RL)场景,能在数千个 GPU 上 20 秒内完成 1T 模型的更新 ,并支持广播(同步)和 P2P(动态)更新模式。

checkpoint-engine 通过优化流水线设计,实现了通信与拷贝的重叠,显著提升了效率。其轻量级和灵活性使其非常适合大规模部署,为 AI 模型的实时更新提供了新的可能性。

美团团队提出 VSRM 机制解决 AI 模型“过度思考”问题

AI 模型在推理过程中常出现“过度思考”现象,表现为对简单问题反复推敲、产生冗长输出,不仅增加计算开销,还可能因无效步骤导致错误结论。

美团搜推 Agentic System X 团队研究发现,这种现象源于大量无效中间步骤干扰了推理路径。 “这些无效步骤不但不能指引推理路径的发展,反而会导致中间过程出错” 。

为解决这一问题,团队提出可验证步骤级奖励机制 VSRM。该方法创新性地将可验证奖励与步骤级奖励结合,通过特殊 token 定位推理步骤,并计算相邻步骤间的正确率增益作为奖励信号。为应对奖励稀疏问题,引入前瞻窗口机制,确保优化信号足够密集。 “VSRM 直接从源头上给予模型最清晰明了的奖励信号,引导模型更多选择对提升最终正确率有帮助的步骤” 。

实验结果显示,在数学推理任务中,VSRM 使不同规模模型的输出长度显著缩短,部分情况下性能还有所提升。消融实验证实前瞻窗口机制的有效性,且模型未因输出压缩而丧失探索能力。该方法与强化学习算法解耦,可灵活适配多种训练框架,为解决 AI 推理效率问题提供了新思路。


👏大家好,这里是 Memene 摸鱼日报,致力于为您带来每日AI领域的资讯八卦,让你在上班摸鱼的同时只需多花那么几分钟便可以快速了解 AI 领域的资讯新闻。

我们是一家位于杭州的AI创业团队。以上是我们还在测试的产品的 Memene 的生成效果内容。因为希望得到社区朋友们的反馈,于是我们来社区发布了我们的 Memene 摸鱼日报专栏。

🥳如果您有什么意见,还请在评论区与我们反馈。我们非常期望能够得到大家的真实反馈

以上内容基于 人工智能前瞻报 Meme 再生成。如果您有兴趣🥰可以点击前边链接查看全部内容。或者来试试订阅