©作者|chuiyuw
来源|神州问学
引言
近年来,AI 芯片技术正朝着多元化方向迅猛发展。主流的 GPU 架构,最初用于图形渲染和游戏处理,凭借高度并行的特性,在深度学习计算中表现卓越。而在 GPU 之外,NPU(神经网络处理单元)和 ASIC(Application-Specific Integrated Circuit,应用特定集成电路) 等专用架构也在不断兴起。NPU 专为加速神经网络运算而设计,针对深度学习优化性能,而 ASIC 通过特定算法的定制化优化,实现了高效推理和计算。这些新兴架构为不同场景下的 AI 应用提供了更多可能性。
在这一浪潮中,SoC(System on Chip,中文名为 “片上系统”)架构于 AI PC 领域强势崛起,英特尔的 Core Ultra 系列便是有力例证,其CPU、GPU和NPU集成的特性为 PC 端的 AI 应用赋予了更多可能;而 ASIC 架构凭借高度定制化优势在数据中心和特定任务场景中表现卓越,如 Gaudi 3 处理器为专业 AI 计算提供了高效解决方案。
显然,AI 芯片的未来将迎来 SoC 和 ASIC 等多种架构共生的时代,它们各施所长,共同驱动 AI 技术迈向新的高度。
一、AI芯片的类型与功能
AI 芯片相较于普通芯片,具有专门为处理人工智能任务而优化的架构和指令集,能够高效地运行复杂的神经网络算法,在计算能力、功耗以及处理特定任务的效率上展现出显著优势,从而为各类 AI 应用提供强大的算力支持,推动 AI 技术从理论走向实用化和普及化。
GPU
GPU 在 AI 模型训练中占据主导地位。这类芯片起初为满足高图形性能需求而研发,用于游戏加速和视频渲染等场景。作为通用芯片,GPU 擅长并行处理,大幅提升了深度学习训练的效率。为了应对训练的高计算需求,企业通常将多块 GPU 联合使用,实现同步训练。
FPGA 因其可动态重新编程的特性,高度专用化,能够灵活应对多种任务,尤其是在图像和视频处理方面表现尤为突出。这种灵活性使得 FPGA 成为许多 AI 场景的理想选择。
ASIC
ASIC 是为特定任务量身打造的加速芯片,在人工智能领域也有广泛使用。与 FPGA 类似,ASIC 具备出色的计算能力,但它的硬件电路经过优化后无法重新编程,因此在执行单一任务时效率更高。以谷歌的张量处理单元(TPU)为例,它是一种专门为机器学习设计的 ASIC,展现了显著的性能优势。
NPU
NPU 是 AI 计算的新兴利器,与 GPU 类似,但其设计更专注于深度学习模型和神经网络的构建。NPU 在处理海量数据时尤为高效,可支持目标检测、语音识别、视频编辑等复杂任务。凭借针对 AI 优化的设计,NPU 在许多场景中表现优于 GPU。
二、什么是SoC架构
SoC(System on Chip,中文名为 “片上系统”)是一种集成度很高的集成电路,是将微电子应用产品所需的处理器、内存、输入输出接口、通信接口、模拟和混合信号处理器等所有功能集成在单个芯片上的系统。SoC 采用超深亚微米工艺技术和第三方 IP 核实现超大规模集成电路,并通过操作系统和应用程序进行控制,避免了芯片间信号传输的延迟与电路板的信号串扰,具有高性能、小体积、低功耗等优势。
SoC架构的发展历程
SoC的引入彻底革新了电子设备的设计。通过将多个系统组件集成到单一芯片上,SoC简化了电路板设计,提高了功率效率和运行速度,同时保持系统功能的完整性。
SoC的概念可追溯至20世纪70年代,当时微芯片技术开始兴起。然而,将完整系统集成到单一芯片上的想法在当时仍显遥远。1974年,首个SoC在液晶显示器(LCD)手表中出现,标志着这一概念的初步实现。在此之前,微处理器仅作为独立芯片存在,需要外部组件支持其功能。
20世纪80至90年代,半导体制造技术的进步使得在单个芯片上集成更多组件成为可能。混合信号集成技术的发展进一步推动了芯片功能的多样化,使其能够同时处理模拟和数字信号,拓宽了应用范围。
进入21世纪初,SoC开始集成Wi-Fi、蓝牙和蜂窝调制解调器等无线通信功能,将无线连接引入移动设备。此外,强大的处理器和图形能力的加入,使得智能手机等移动设备成为人们日常生活中不可或缺的一部分,开启了新的生活方式。
目前,以AI PC为首的AI端侧设备的核心大多是采用SoC架构的,通过将高性能CPU、GPU和专用NPU集成一体,不仅能够承担传统计算任务,还能高效处理自然语言处理、计算机视觉等AI任务。同时SoC架构的设计注重功耗控制和散热管理,可以确保设备稳定高效运行,提升设备续航,带来更加流畅的智能体验。
SoC架构的设计特点
目前以AI PC核心为首的SoC架构设计特点如下:
集成度
在端侧 AI 领域,SoC 架构将 CPU、GPU、NPU、内存控制器等多种关键组件集成在一块芯片上,展现出了强大的集成能力。2024年9月4日,Intel 发布了新一代AI PC处理器 Lunar Lake,采用Foveros 3D 封装技术,将内存直接集成到封装中,同时还集成了新型 Xe2 GPU 架构和第四代神经网络处理单元 NPU4,总算力高达120 TOPS,续航时间超过20小时。
Intel于10月25日在中国召开了Lunar Lake的发布会
灵活性
SoC 架构灵活性的体现如下:
资源分配灵活性:SoC 的通用架构设计使其可以根据不同任务需求,动态分配计算资源,在维持功耗的基础上适应各种不同的任务。
平台灵活性:SoC 架构高集成性和低功耗的特点,使它不仅适用于AI PC的核心,还适用于AI手机和汽车领域。目前vivo和OPPO的新款机型搭载了联发科天玑9400芯片,理想汽车和小鹏汽车的座舱芯片则采用高通8295P芯片,这两个芯片均为SoC架构,体现了SoC架构在不同平台上的灵活性。
开发环境灵活性:一方面,端侧 SoC 芯片要接入应用生态,需兼容多样软件应用,适配安卓、iOS、Windows 等不同操作系统,保障终端设备顺畅运行软件,助力智能终端普及繁荣;另一方面,SoC 的 CPU、GPU、NPU 异构计算优势是其灵活性的支撑,例如Intel oneAPI的异构计算开发辅助工具应运而生,它可将CUDA开发环境对Intel Arc集成显卡进行适配,也可对GPU上的开发环境在NPU上进行适配,辅助应用开发者灵活利用异构计算的优势,将应用对CPU、GPU、NPU中的多个计算单元进行适配。
数据传输与存储优化
SoC 架构通过共享内存架构等方式,极大地提升了数据流动效率。
●一方面,例如 Intel Lunar Lake 处理器将内存直接集成到芯片上,减少了数据传输的延迟,提高了内存访问的效率,能够快速响应用户的操作和需求。
●另一方面,SoC 架构避免了传统的CPU-GPU分离式架构,即CPU和GPU各自有独立的缓存和内存,它们通过传输带宽很低的PCI-e等总线通讯。苹果的M3芯片对CPU、GPU调用内存的取址方式进行了调整,使得CPU、GPU能够共同使用全部的内存空间,真正实现了CPU和GPU内存共享,避免了数据通过总线频繁传输于CPU、GPU之间。
三、什么是ASIC架构
ASIC(Application-Specific Integrated Circuit,应用特定集成电路)是一种为特定应用或任务量身定制的芯片架构。与通用芯片(如CPU或GPU)不同,ASIC在设计时针对单一任务进行优化,从而提供比通用芯片更高的性能和能效。由于其专用性,ASIC能够在执行特定任务时显著提高处理速度,降低功耗。
如今,ASIC被广泛应用于多个领域,包括:
●消费电子:ASIC是智能手机、平板电脑和数码相机等设备的重要组成部分,优化了特定任务的性能和功耗。
●通信领域:ASIC在网络设备中负责数据路由、信号处理和协议管理,确保高效和可靠的通信。
●汽车行业:现代车辆在发动机控制单元(ECUs)、高级驾驶辅助系统(ADAS)和信息娱乐系统中集成了ASIC,提高了功能性和安全性。
●医疗设备:在医疗影像设备、可穿戴健康监测仪和诊断工具中,ASIC提供了精确高效的处理能力,满足了特定医疗应用的需求。
●工业自动化:在制造和过程控制领域,ASIC实现了实时监控和控制,提高了工业操作的效率和生产力。
ASIC架构AI芯片的优势同样在于其高效的定制化。Google的TPU作为典型的ASIC架构AI芯片,能够与 TensorFlow 等机器学习框架良好适配,对深度学习计算进行高性能、低功耗的优化,软件与硬件相得益彰,并且可根据业务需要对TPU的设计进行调整,以便满足谷歌内部各种特定的 AI 训练和推理需求。但缺点是缺乏灵活性,无法轻松适应其他任务需求,并且开发生态一般为闭源生态。因此,尽管ASIC在专门任务中表现出色,但在多任务或通用计算环境中,通用芯片(如SoC或GPU)往往更具优势。
Google于2024年发布了第六代TPU芯片Trillium
四、SoC与ASIC的优势对比
在AI领域,SoC(片上系统)和ASIC(专用集成电路)各自展现出独特的优势,适用于不同的应用场景。
1.SoC的优势:
●面向通用性: SoC集成了CPU、GPU、NPU等多种功能模块,适用于AI个人电脑(AI PC)、消费电子产品和边缘设备,能够高效处理多样化的任务需求。
●高集成性与小型化设计: SoC将多个功能模块集成在单一芯片上,减少了物理空间占用,便于设备的小型化设计和大规模应用。
●低功耗设计: 通过优化芯片架构和电源管理,SoC在满足AI计算需求的同时,尽可能降低功耗,延长设备的电池续航时间。
2.ASIC的优势:
●面向定制化: ASIC针对特定应用进行优化,适用于数据中心、高性能计算和深度学习推理等领域,能够提供卓越的性能。例如英特尔 Gaudi 3 专为高效的大规模 AI 计算而设计,适用于企业大规模配置生成式 AI,在大语言模型的 AI 训练和推理方面能实现性能和生产率的大飞跃。
●最佳的性能功耗比: 由于为特定任务定制,ASIC在执行特定AI模型训练和推理时,能够实现最高的性能和最低的功耗。如谷歌的 TPU,在进行大规模深度学习及矩阵乘法等运算时,功耗相对较低,同时能提供较高的算力。
3.场景差异:
SoC架构和ASIC架构最核心的不同在于灵活性的差异导致的适用场景的差异。
●SoC
AI PC 场景:Intel Core Ultra7 155H 拥有 16 核心 22 线程,配备 Xe LPG 架构 Arc 核显。在日常使用中,可流畅运行办公软件,也可并行执行本地AI大模型的推理任务。同时,其图形性能可满足 1080p 及轻度 1440p 游戏需求,能让玩家在主流游戏中获得较为流畅的体验。搭载该系列处理器的轻薄本,还能利用其低功耗特性,满足用户长时间移动办公的需求。
边缘计算场景:高通 8295P 作为一款高性能车载芯片,在汽车的智能座舱领域展现出卓越的边缘计算能力。它可为车载信息娱乐系统提供强大算力,流畅运行高清地图导航、实时路况更新,还能通过语音识别与合成技术,实现智能语音交互,让驾驶员便捷操控各类车内设备,提升驾驶体验。
面对大规模深度学习任务的局限:虽然 Core Ultra 系列配备了独立的 AI 引擎 NPU,但受到内存的限制(Core Ultra系列的内存大多为32GB)面对大规模深度学习任务时,其计算能力和内存带宽等方面相对不足。在进行大语言模型推理过程中,模型量化是必须的,但量化导致的模型性能下降也不能忽视。其支持大模型的训练和微调的能力也相当有限,只能支持极少参数规模的模型微调。
●ASIC
数据中心场景:Gaudi 3 采用 5nm 工艺,拥有 64 个第五代张量处理核心和 8 个矩阵计算引擎,搭配 128GB 速率达 3.7TB/s 的 HBM2e 内存和 96MB 速率达 12.8TB/s 的 SRAM。在数据中心中,可用于构建高性能 AI 集群,支持大规模的深度学习训练和推理任务。企业可以在搭载Gaudi 3 的数据中心平台训练自己的大语言模型,服务于企业内部的业务。
云计算场景:可作为云计算平台的 AI 加速芯片,为用户提供强大的 AI 计算能力。比如,云服务提供商可以利用其计算中心的 Gaudi 3 集群为用户提供自然语言处理、计算机视觉甚至基于多模态模型的文生图、图生文等 AI 服务,满足用户对高性能 AI 计算的需求。
不适合通用计算场景:Gaudi 3 是一款专为 AI 计算设计的 ASIC 芯片,其架构和功能相对固定,研发成本高昂,在一些通用计算场景无法发挥其优势,甚至可能无法正常工作。而且其功耗也不适合移动设备等场景。此外,开发环境的闭源也不利于通用软件的与之适配。
五、AI芯片的未来
在当前蓬勃发展的 AI 芯片市场中,SoC 与 ASIC 展现出截然不同却又相辅相成的并存趋势。一方面,SoC 凭借其高度集成的特性,在 AI PC 、智能手机领域迎来了广阔的普及空间。随着人们对个人电脑以及智能手机智能化需求的不断攀升,将 CPU、GPU 以及各类 AI 加速单元无缝融合于一体的 SoC 芯片,能够为用户提供流畅的 AI 办公、娱乐体验。
另一方面,ASIC 则凭借其极致的定制化优势,在云计算与数据中心领域持续深入应用。数据中心面对海量的数据处理与复杂的 AI 运算任务,需要芯片针对特定算法进行高度优化。ASIC 芯片可依据深度学习中的卷积神经网络、循环神经网络等算法量身定制电路结构,实现超高的运算效率与超低的功耗,为云服务提供商大幅降低运营成本,像前文所述的谷歌 TPU 系列 ASIC 芯片,已然成为支撑大规模 AI 训练与推理的中流砥柱。
展望未来,二者的融合机会更是令人期待。随着异构计算需求的日益复杂,部分混合架构已经出现,即在 SoC 架构中巧妙集成 ASIC 模块。这种创新架构将充分汲取 SoC 的集成便利性与 ASIC 的定制化高性能优势,进一步优化异构计算性能。在智能手机 SoC 中引入专为 AI 图像识别定制的 ASIC 小模块,既能满足手机日常多功能集成的需求,又能在拍照、安防解锁等场景下瞬间释放强大的 AI 识别算力,实现功能与性能的完美平衡。
同时,必须强调硬件架构的选择绝非孤立决策,而是需要紧密结合应用场景、软件生态以及整体成本。不同的应用场景,如自动驾驶、医疗影像诊断、智能家居等,对芯片的性能、功耗、尺寸等有着千差万别的要求。软件生态同样关键,与操作系统、AI 开发框架的兼容性直接影响芯片的易用性与推广度。而整体成本更是贯穿产品研发、生产、市场推广的全过程,无论是前期的芯片设计投入,还是后期的量产、维护成本,都需要综合考量。只有将这三者有机结合,才能选出最适配的芯片架构,推动 AI 技术在各个领域的稳健落地。
结语
综上所述,SoC 和 ASIC 各自拥有独特且不可替代的应用场景,它们从来不是非此即彼的对立关系,而是作为满足 AI 多样化需求的两种关键手段并行不悖。可以预见,未来 AI 芯片领域不会被单一架构所主宰,必将形成多种技术共生、协同发展的繁荣生态系统,为全球科技进步与人类生活品质提升持续赋能。