RockAI 的破壁之战:Yan 架构如何啃下“端侧炼丹”硬骨头?

发布于:2025-08-02 ⋅ 阅读:(18) ⋅ 点赞:(0)

过去两年,AI 模型的发展叙事几乎被两大阵营主导:无所不能的云端模型与充满想象的端侧模型。行业曾描绘一个诱人蓝图:随着轻量化模型能力的提升,AI 终将摆脱云端束缚,在每个人的设备上实现永不离线的贴身智能。然而,喧嚣过后,现实略显尴尬:无论是近期爆火的 AI 玩具,还是备受瞩目的 AI 眼镜,其核心交互与智能依然高度依赖云端。即便是算力更强的手机和 PC,真正实现离线 AI 能力的设备也凤毛麟角。技术演示中无所不能的端侧模型,为何最终仍难摆脱网络依赖?

矛盾的核心在于用户对体验的极致追求:即时响应、隐私保障、断网可用。而端侧设备却面临无法回避的“物理天花板”——有限的算力、功耗和内存,如同无形壁垒,阻碍了绝大多数高性能模型的落地。

更深层的矛盾则源于商业引力。对掌握顶尖模型的巨头而言,云端是技术领导力的标杆,更是利润丰厚的收费站。当所有目光和资源聚焦云端时,投入大、回报周期长且不明确的端侧领域,自然成了被忽视的角落。

那么,那些执着推动“离线智能”的少数派在做什么?在今年的世界人工智能大会(WAIC)上,一家名为 RockAI 的公司给出了自己的答案。他们选择了一条少有人走的路,并找到了破局之钥。

以“让每台设备都拥有专属智能”为使命,RockAI 团队深入底层技术,甚至大胆舍弃主流的 Transformer 架构,啃下了端侧部署这块“硬骨头”。早期,他们的模型就能流畅运行在资源有限的树莓派上——这张卡片大小的电脑是端侧部署的严苛试金石,多数同类模型在此仅能勉强输出几句话便告卡顿。今年 WAIC 推出的 Yan 2.0 Preview 仅 30 亿参数,已实现多模态能力,并在本地实现了真正的“记忆”:模型可动态调整权重,长期保留并更新用户偏好。

这项“不可能的任务”并未止步于实验室演示。海内外市场的量产订单纷至沓来,迅速将技术实力转化为商业价值。RockAI 的故事或许能解答那个根本问题:在云端模型高歌猛进的时代,为何以及如何实现真正的离线智能?极客公园采访了 RockAI 联合创始人邹佳思,探讨其背后的商业逻辑。

01 为何永不下线的随身 AI 尚未普及?

问: 整个行业,包括苹果这样的巨头,都将离线智能视为核心战略。为何从技术演示到消费者手中,这“最后一公里”如此艰难?
邹佳思: 理想与现实之间横亘着两座大山:算力与功耗。设备端运行大模型需高算力配置。当前许多 AI 公司的小型化模型,仍需高端芯片(如高通最新旗舰芯片+16GB以上内存)支撑。然而,大多数智能设备不具备此等算力。这是最残酷的鸿沟:再先进的 AI 技术,若只能服务于少数顶配设备,便失去了普惠价值。

功耗则是另一座大山,在手机上尤为突出。一旦尝试部署大模型,设备便严重发热,这是几乎所有基于传统 Transformer 架构模型的通病。主流手机厂商均向我们反馈此痛点,皆被这堵“功耗之墙”所阻。

硬件更新节奏缓慢是根源。大量在售设备配置陈旧(芯片、存储、麦克风、摄像头等),并非为当今大模型设计。将 Transformer 强行部署其上,要么无法运行,要么效果差强人意。即使上游推出新一代高端芯片,集成到新产品线也需6-12个月;产品热销、规模化普及还需额外1-2年。这是客观物理现实,无法逾越。

问: 您提到算力功耗问题多源于

Transformer 架构。它在云端表现出色,为何在端侧水土不服?
邹佳思: 这触及了端侧部署的核心挑战。Transformer 的强大依赖于其革命性的注意力(Attention)机制,但问题也在于此。

传统 AI 模型像流水线工人,顺序处理信息,记忆力有限。Transformer 则像拥有超能力的指挥家,让信息“排成方阵”,要求每个字与其他所有字“全局握手”计算关联度。这种机制赋予其超凡理解力。

在云端,无限算力支撑这种计算。但手机芯片(CPU/NPU)设计更擅长高速顺序执行任务。突然要求其完成每增加一字计算量便指数级暴增的“全局握手”任务,它便不堪重负。

我们早期便关注此问题。业界现有改进方案(如 Flash Attention、线性注意力)只是在“指挥大厅”内小修小补,未根本改变“全局握手”的高能耗模式。我们选择了一条更彻底的路:保留 Transformer 强大的特征提取能力,彻底摒弃高耗能的 Attention 机制,代之以全新的、适配“流水线”运行的架构。同期国外的 Mamba 架构也看到了类似方向。我们不是改造不适合小路的 F1 赛车,而是重新设计能在小路上疾驰的越野车。

问: 仅为在设备端运行就需重构架构?离线智能真有此必要?
邹佳思: 非常必要,且市场需求强劲。其价值无法被云端替代:

  1. 绝对隐私安全: 这是苹果等公司投入端侧的核心。最敏感数据(相册、健康信息、聊天记录)根本不应离开设备,这是原则问题。

  2. 极致实时交互: 许多场景需毫秒级响应。例如,搭载 Yan 架构的无人机需瞬间响应“在我跳起时抓拍”指令。网络波动在此场景下可能是致命的,无法依赖云端。未来的机器人也需基于其独特的硬件参数(臂长、传感器)进行精准实时控制,必须由本地“大脑”完成。

  3. 成本考量: 云端 API 价格虽降,但仍有成本。以亿级出货量的摄像头为例,云端成本乘以海量基数仍是天文数字。离线智能则几乎无后续使用成本,硬件投入已前置。海量设备本地部署是成本最优解。

本地模型如同守在门口的聪明管家:隐私安全、理解个性化需求。它或许无法解决所有复杂问题,但能又快又安全地处理80%的日常事务(启动应用、设置提醒、简单翻译、会议纪要等)。对多数用户而言,并非时刻需要处理复杂任务。设备端模型能以更快、更安全、更低成本满足大部分需求。

02 实现离线智能的模型应如何设计?

问: 为打造这辆“越野车”,其核心引擎——新架构的机制是什么?
邹佳思: 核心创新在于摒弃 Transformer 高耗能的“全局握手” Attention 机制,回归更轻量的“特征—抑制—激活”架构,并引入分区激活技术,将每次实际运算的参数量压缩至十分之一甚至更低,算力需求降至五分之一以上,功耗降至十分之一。

标准 Transformer 中,无论任务多小,所有参数都需全量激活以获取高智能答案。但人脑并非如此运行。人脑约800-900亿“参数”(神经元),若全量激活功耗或达数千瓦,而实际仅约30瓦。奥秘在于分区激活

我们的模型借鉴此机制。除了显著降低功耗,新架构还使我们能在30亿参数的模型中实现多模态。不严谨地比喻:当你看到鸟、听到鸟鸣、读到“鸟”字时,大脑并非整体点亮,而是在视觉、听觉、语言等特定分区激活小范围神经元。这种分区独立且重叠的激活,高效对齐了形态、声音与词汇。

30亿参数以下的 Transformer 因全局计算特性,难以高效对齐多模态信息。而我们的类脑激活机制天然适配大脑分区处理模式,不同模态输入激活不同分区,使对齐更轻松精准。因此,在3B规模下我们仍保有强大的文本、语音、视觉联合理解能力。

问: “分区激活”思路巧妙。但人脑有近千亿参数“厚底子”支撑小范围激活。端侧模型仅数十亿参数,已是“螺蛳壳里做道场”。小模型通过激活更小部分,真能实现更好智能?
邹佳思: 您的问题触及了当前大模型范式的核心困境——压缩智能的局限

当前预训练大模型本质是将海量互联网数据压缩进千亿参数“容器”。参数量越大,“海绵”越大,容纳知识越多。但此范式处理多模态时存在弊端:如同文件压缩,1G文本压缩后远小于1G视频/图像(后者本身体积大、压缩比低)。因此,小参数 Transformer 模型难以加入多模态能力。

若规则仅是比拼“海绵”大小与“背书”厚度,小模型确无前途。但我们认为,真正的智能不应仅是压缩,更应是成长与学习。这是我们的根本差异:压缩智能 + 自主学习双线并行

分区激活的意义不仅在于节能,更在于为成长提供可能。当前模型30亿参数,通过精细的动态分区(如分为100区),一次仅激活约3000万参数。这意味着,未来可在手机内存允许范围内,将端侧模型总参数做大(如百亿级),但仅激活极小部分以维持低功耗。

这颠覆了游戏规则。我们不再内卷于如何压缩大模型,而是探索如何让端侧模型从小成长到大。当业界在压缩之路上内卷时,我们通过 MCSD 架构、分区激活、记忆神经单元,为端侧模型开辟了第二条、更符合生命本质的成长路径——可持续、低成本的自主学习。我们不仅在构建能跑在设备端的模型,更在构建端侧 AI 未来所需的、可不断成长的“大脑底座”。

问: 如何理解 Yan 模型的“自主学习”?它与云端模型的个性化有何不同?
邹佳思: “自主学习”正是我们在 WAIC 展示的最令人兴奋的突破之一。

当前云端大模型需通过预训练更新智能。模型真正的学习过程——理解用户反馈并体现于神经网络变化——依赖前向传播(推理) 和反向传播(学习)。反向传播极其耗能:云端千亿模型一次反向传播需动用庞大 GPU 训练集群。

因此,所有基于 Transformer 的模型,一旦部署到手机,便沦为“只读存储器”——仅有前向传播能力,丧失学习可能。所谓的“个性化”只是通过对话形成外挂知识库记忆偏好,并非根本性学习。故用户即使多次强调偏好,模型仍可能“自行其是”。

我们的创新恰恰在最根本的物理限制上实现了突破:首次让反向传播学习过程在端侧设备成为可能。得益于分区激活,当模型需学习新知识(如“喝咖啡不加糖”)时,无需撼动整个神经网络。架构能锁定与此新知识直接相关的、被激活的极小区块。在这个隔离的“微型战场”,执行一次低功耗反向传播,仅更新该分区内极少数权重参数,将新知识直接、永久写入模型本体神经网络。

通往个性化记忆和自主学习的大门由此开启。模型可边使用(推理)边学习(训练),将新习惯、新偏好直接写入本体,获得真正的自主进化能力

03 离线智能何时赋能 AI 玩具?

问: 从技术回到市场:当业界追逐云端千亿模型时,你们的技术已获真实订单。哪些玩家对离线智能最执着?其商业驱动力何在?
邹佳思: 我们接触多领域客户,其离线智能诉求背后皆有深刻商业逻辑。PC、平板和机器人是当前核心量产领域,我们更关注广阔的中低算力市场。

以某头部出海厂商合作为例。其核心诉求不仅是打造未来旗舰机的 AI 功能,更是盘活手中数亿已售或正售的中低端设备。这关乎两条生命线:

  1. 存量设备激活: 通过 OTA 为旧设备推送我们的 AI 模型,可创造全新软件预装和增值服务收入,极大提升品牌价值(“几年前买的电脑竟能升级为 AI PC!”)。

  2. 非旗舰新机赋能: 品牌不能仅靠顶配 AI PC 生存,真正销量利润源于中低端市场。但这些设备受限于芯片算力,无法运行主流 Transformer 模型。我们的技术填补了巨大空窗期,让厂商能立即(而非苦等三年)将 AI PC 卖到用户手中。

此外,我们也关注机器人和手机领域,并与无人机公司合作。

问: 炙手可热的 AI 眼镜和 AI 玩具领域呢?
邹佳思: 这两类产品代表了端侧 AI 最性感的想象,但也面临最骨感的现实:根源问题是相同的——为极致成本控制和轻便性,其内置芯片设计之初并非为运行 AI。

  • AI 眼镜: 主流方案使用高通 AR 芯片或恒玄等通信芯片,任务聚焦蓝牙连接、信息投屏、简单翻译,算力内存被严格限制。我们的模型在多数眼镜上尚难运行,更遑论数十亿参数的 Transformer 模型。

  • AI 玩具: 市场对体验期望极高,硬件现实却极残酷。

面对此困境,我们推进两条路径:

  1. 曲线救国(当下务实): 借助手机算力。正与头部眼镜厂商深入洽谈此方案。

  2. 釜底抽薪(面向未来): 与影目科技(INMO)等伙伴尝试在下一代眼镜中换装更强“大脑”芯片。虽面临功耗和工业设计挑战,但一旦成功,将打造出真正离线智能的差异化产品(如无网环境下的高质量即时翻译)。

因此,对眼镜和玩具市场,我们有务实当下方案,也有着眼未来的终极目标。爆发需等待技术与硬件完美共振。

问: 国内 AI 硬件赛道火热但多依赖云端。观察到你们客户主要销往海外。离线智能需求在海外是否更旺盛?
邹佳思: 您观察到的“温度差”正是我们当前战略核心。海外智能硬件市场提供了一片更广阔的蓝海,源于三个国内相对不敏感的痛点:

  1. 文化驱动的隐私执念: 欧美用户对数据隐私的重视深入骨髓且受法律保障。例如,某头部玩具 IP 公司因不愿用户隐私上云而对我们的方案兴趣浓厚。

  2. 客观存在的网络鸿沟: 全球许多地区(如非洲原野、东南亚岛屿)网络环境不稳定,离线模型是确保可靠体验的“救命稻草”。

  3. 高人力成本催生的效率需求: 海外用机器替代人力的意愿更强,对无需联网的7x24小时服务(如接待员、导游)需求更直接迫切。

因此,我们战略清晰——“借船出海”:赋能优秀的中国出海企业,将技术带给全球对离线智能有真实、强烈需求的C端用户。

问: 前景激动人心,但需直面现实:一方面,手机巨头重兵自研端侧 AI;另一方面,硬件遵循摩尔定律飞速发展。两三年后,当手机芯片能轻松运行更大模型时,你们“小而美”的优势是否仍在?RockAI 的核心护城河是什么?
邹佳思: 此问题点出了我们每日思考的两大挑战。

首先,硬件变强对我们有利:

  1. 高端硬件普及需至少2-3年窗口期,此间我们是解决海量存量及中端设备 AI 化的最优解。

  2. 硬件底座变强后,不仅能运行更大的 Transformer,也能运行我们从小长大的 Yan 架构大模型(如10B+)。我们独特的自主学习、低功耗等优势依然存在。

更深层的护城河关乎公司灵魂。团队源于一个始于2015年未竟的智能硬件梦(类似小爱同学),因当时AI技术不成熟而失败。看到 Transformer 潜力后我们重聚创业,却痛苦发现将这台“云端猛兽”塞入设备在工程上走不通。

当时有两条路:

  • 跟随主流,优化 Transformer(更易行、易获投资认可)。

  • 选择更艰难孤独之路:承认此路不通,从零构建全新的端侧原生架构。

我们选择了后者。支撑我们的并非资金、算力或团队光环,而是一种近乎“信念”的坚持。我们笃信模型必须运行于端侧,设备必须拥有自身智能。正是这份执念,让我们在别人追逐云端风口时,甘坐两年多“冷板凳”,在实验室反复“炼丹”,最终炼成 Yan 架构这颗“丹”。

因此,我们的护城河非单一技术点(聪明团队众多),而是因坚持而积累的深刻认知、趟过的深坑,以及从第一天起就为端侧智能而生的创新基因。


网站公告

今日签到

点亮在社区的每一天
去签到