云赛道---华为人工智能平台介绍

发布于:2024-04-27 ⋅ 阅读:(24) ⋅ 点赞:(0)

现在的 AI 模型中包含大量的矩阵运算 AI 专用芯片都是对矩阵乘法做了优化,通过引
入各种处理单元来高效进行矩阵运算。

训练芯片需要考虑的因素更多,设计上也更加复杂,精度通常为 FP32 FP16
推理芯片考虑的因素较少,对精度要求也不高, INT8 即可

云端芯片部署在专业机房,对环境要求不高;边缘计算通常部署的户外,需要适应高温
和低温环境;终端设备主要考虑功耗和成本

现在芯片领域主流的为 GPU FPGA ASIC ,后两者衍生出了 XPU TPU 等一系列芯片

CPU 考虑通用计算, GPU 考虑数学计算, NPU AI 需要的矩阵计算

对于 CPU GPU ,比较有效能够提高 AI 算力的方法都是加入 AI 专用计算模块

两者目前发力的领域不同,并无明显的竞争关系

https://zhuanlan.zhihu.com/p/152167194?from_voters_page=true

达芬奇架构的核心就是 CUBE 计算单元

科技部在 2019 世界人工智能大会宣布,将依托华为建设基础软硬件国家新一代人工智
能开放创新平台,面向各行业、初创公司、高校和科研机构等的 AI 应用与研究,以云
服务和产品软硬件组合的方式,提供全流程、普惠的基础平台类服务。

AI Core 负责高效矩阵运算 AI CPU 负责通用运算

https://www.hiascend.com/zh/software/cann

推理类应用指基于 AscendCL 开发的应用,框架类为 MindSpore 等底层使用 腾芯片
训练的框架,

此处展示的是推理应用的神经网络软件流,非训练的

200 加速模块支持调整功耗,不同功耗对应的算力也不同

与前几张推理卡不同,训练卡更复杂, 300T Pro 同时提供了 HBM2 DDR4 内容,供
AI Core AI CPU 使用,同时提供 RoCE 接口用来多卡通信,进行分布式训练

高速接口用于分布式训练
能效比部分持续调优,后续会更新

不同于 Atlas800 训练服务器, Atlas 900PoD 设计之初就是作为集群单元进行大规模训

华为已部署超过 10 万台鲲鹏与 腾设备,覆盖从研发、生产、办公、交付到销售的全
业务场景。

实际项目需求
        目标
        ▪ 5000 路前端人脸卡口解析(每日 1500w
        ▪ 一张卡一天 100w 张图片,共计 15 张卡
        ▪ 2 8 卡服务器

        车辆
        ▪ 2500 路前端车辆卡口解析(每日 1000w
        ▪ 一张卡一天 100W 张图片,共计 10 张卡
        ▪ 2 8 卡服务器

        视频结构化
        ▪ 3000 路前端摄像机机动车,非机动车,行人目标解析
        ▪ 一张卡 20
        ▪ 一台 8 卡服务器 160

Atlas 900 是当前全球最快的训练集群,代表了当今全球的算力巅峰,它由数千颗
910 AI 处理器构成。 Atlas 900 通过华为集群通信库和作业调度平台,整合 HCCS
PCIe 4.0 100G RoCE 三种高速接口,充分释放 910 的强大性能。其总算力达到
256P 1024 PFLOPS FP16 ,相当于 50 万台 PC 的计算能力。

当前华为已在华为云上部署一个 Atlas 900 集群,只需 59.8 秒就可以完成典型网络的训
练,在同等精度下比第 2 名快 15% 。本次测试华为基于“ ResNet-50 v1.5 模型”和
ImageNet-1k 数据集”,数据集包含 128 万张图片,精度为 75.9%

除了基础硬件,华为基于 Atlas 900 还提供华为云 EI 集群服务,采用从底层硬件到开发
架构的全栈优化,提供世界顶级的强劲算力。

鹏程实验室“鹏城云脑 II “相关介绍: https://www.pcl.ac.cn/html/992/2021-10-
23/content-3876.html

展望未来,交警还将基于 5G 技术在终端方面发力,打造智能化的警用终端;通过交
通仿真对历史数据进行分析,以预测城市各处的交通流量;投入近 30 亿元资金升级所
有的卡口系统,包括高清电子眼系统,使高清电子眼覆盖率达到 70% 以上,以便在整
个市构建起完整的交通采集网,依托于最强的城市交通大脑以及相关的配套措施,就
可以建设一个健壮的交通网,再借助开放的大数据平台,为整个交警在深度应用、执
法为民等方面提供强有力的支撑。
案例参考资料: https://www.huaweicloud.com/journal/detail_09.html

针对这些挑战和困难,华为就提出了这样一个全栈全场景的 AI 解决方案,来助力各行各
业进行智能升级。
从纵向的全栈,也就是是 技术视角 来看,最下面我们有终端、物联网 IOT 、公有云、私
有云等环境作为支持;上面的芯片层是我们华为自研的一系列 AI 芯片;同时有华为
CANN 芯片使能, 涵盖了芯片算子库和自动化算子开发工具, 兼备了最优的开发效率
和算子性能 AI 框架层面我们有自研的全场景 AI 框架 MindSpore ;在应用使能层面,有
终端的 HMS HiAI 等,另外就是我们华为云的一站式 AI 开发平台 ModelArts ,和 AI 开发
者社区 AI Gallery
从横向的全场景来看,我们有各个类型的通用 API 服务,如图片文字识别、人脸识别、语
音识别、语音转文字等, 这些功能可以通过 API 集成到终端或者云上的产品中,这样产品
就具有了 AI 能力 ;另外我们还结合行业知识,提供了成熟的行业智能体和各行各业的解
决方案。
19 年华为 910 MindSpore 上市, 标志着华为开始布局 AI 战略 ,经历了 MindSpore
ModelArts 几个版本的迭代更新,以及 AI 全栈软件平台发布 ,,再到今年发布的
盘古大模型和 AI Gallery ,华为已经建立了这样一套比较完备的全栈全场景 AI 解决方案,
来助力企业更好地使用 AI

业界唯一提供端到端的全栈 AI 技术解决方案,支持云服务、边缘计算、终端应用等全
场景 AI 部署
• 10+ 行业应用, 800+ 项目实践,助力 AI 进入企业 30 %核心业务系统,平均盈利能力提
18
华为云 ModelArts 位居中国机器学习公有云服务市场份额第一位
业界首个知识图谱流水线构建,行业机理模型、专家经验与 AI 深度融合
华为云盘古大模型具备极强复制泛化能力和模型性能,快速适配下游业务场景,实现
AI 工业化开发

对于AI超算, 是需要做实训教学,竞赛,科研探索的,这部分的客户都是用开发环
境为主。这部分功能的体验尤为重要

众所周知,数据是 AI 应用的基础,只有基于多样化的数据,才能实现 AI 智能感知。然
而,在实际 AI 行业落地中,数据是分散在不同的数据控制者之间,这就导致了行业应
用的数据孤岛问题,使得 AI 算法训练效果受到限制。

针对这个问题,华为云 Modelarts 提供联邦学习特性,实现数据不出户的联合建模。
用户各自利用本地数据训练,不交换数据本身,只用加密方式交换更新的模型参数,
实现协同训练。

华为云 EI 与中国科学院上海药物所的蒋华良院士合作,将华为自研的 FedAMP 算法和
AutoGenome 算法应用到药物研发的 AI 任务中,精准预测药物水溶解性、心脏毒性和
激酶活性,准确度远超传统的联邦学习和深度学习算法。

此外,华为云提供云边协同的服务,支持不同地点、不同客户的数据进行联邦训练,
通过加密方式上传服务端,对全局模型进行更新,再将其下发至边缘设备,便捷支持
同业态的横向联邦和跨业态的纵向联邦学习。联邦训练参与者可以通过云端,也可以
通过华为云边缘设备(如智能小站)的计算能力参与联邦训练,实现行业内联合建模。

Mindx-Edge ,主要提供边缘的 K8S 容器管理,以及常用开源推理框架。

AIFlow Engine ModelArts 独有的, Mindx-Edge 这块没有该功能

沉浸式开发,公有云 1130 公测,混合云在明年 H1 落版本计划
华为云骨干工具链 EI-Backbone ,整合模型高效、数据高效、算力高效、知识高效,
全面提升行业 AI 落地能力。 EI-Backbone 的能力,已经在 10 余个行业成功验证,并且
斩获 10 余个 业界挑战赛冠军 ,发表 100 余篇顶级论文。 EI-Backbone 提供了 AI 开发的
新范式,以 肺部医疗影像分割 为例来介绍:过去需要成百上千例标注数据才能进行的
训练,现在有了 EI-Backbone ,只需要几十例甚至十几例标注数据即可完成, 节省标
注成本 90% 以上 ;过去需要大量专家经验和试错成本的模型选择和超参调节,通过 EI
Backbone 提供的全空间网络架构搜索和自动超参优化技术,可在无需人工干预的情
况下快速完成,且精度大幅提升;过去需要几周甚至更长时间,从头开始的模型训练、
测试、验收和部署流程,在加载 EI-Backbone 集成的预训练模型后,可以缩短到几小
时甚至几分钟内完成,训练成本 降低 90% 以上。

围绕第三方应用平台,如鹏城云脑,中科类脑, 基于 ModelArts 平台来提供对外云服
务。
黄色部分为对接的工作量,这部分有参考样例代码,可以提供给客户。

完整的智慧视觉服务,让业务系统具备感知能力。
文字识别,包括证件类、票据类、行业类等通用文字识别,同时支持快速定制文字识
别。
图片识别,分为图像识别、图像搜索、内容审核,大量应用在工业质检、政务、互联
网服务中。
人脸识别,包括面部识别、动作识别、人脸搜索等。

视频分析服务依靠 AI 技术对视频进行智能分析,提供了视频检测、视频审核、视频搜
索、内容分析等功能,在智慧城市、智慧园区、智慧安防等行业领域提供高效的视频
分析能力。

NLP 服务覆盖主流场景,包括判别式任务:命名实体识别、分词,以及生成式任务:
情感分析、文本摘要等。具有高性价比、稳定可靠、支持特定场景定制等优势

知识图谱服务提供全栈全生命周期的知识图谱管理服务,包括知识获取、生成新知识、
推理决策。广泛应用在智能搜索、智能推荐、关联分析、智能问答、文本生成、v

NLP 的基础上,结合语音识别、语音合成等语音交互服务,进行灵活组合,构建出对
话机器人、智能刻骨、智能外呼等多种解决方案,应用在政府、医疗、能源、互联网等
场景。
语音语义类 API 算法的能力主要有 NLP 、知识图谱、语音、语言理解、语言生成、机器翻
译等,能够灵活组合,构建出不同的解决方案,如对话机器人、知识计算、文本摘要、
语义搜索等,应用在政府、医疗、石油和能源、汽车等场景。

首先我们看看语音语义产品的集合,可以分为语音接入、语音处理、文本处理、知识
管理等四大类。
语音接入有云客服 CEC ,即 呼叫中心平台,对外提供语音接入能力,包含语音呼入,语
音外呼等能力。
语音处理有语音识别 ASR 、实时语音转写 RASR 、语音合成 TTS 。主要 针对语音数据,提
供语音和文本相互转换的能力,如一句话识别、短语音识别、录音文件识别、实时语言
转写、语音合成、定制语音合成等
文本处理主要是 NLP 服务。主要 针对文本数据提供分词、命名实体识别、关键词提取、
短文本相似度对比等能力,在此基础上也可以提供文本摘要、文本分类、情感分析、文
档翻译等功能。
知识管理有知识图谱 KG ,图引擎 GES 以文本处理结果为输入,构建以“关系”为基础的
“图”结构数据,提供图谱问答、搜索、推理以及图谱查询、分析等能力
智能话务机器人 CBS 同时具备语音处理和文本处理的能力。

截至目前我们已经进行了 800+ 的企业项目实践。在 30% 的企业中, AI已经进入了核心业
务系统,使企业的平均盈利能力提升了18%。
我们可以看到,华为云会持续联合客户和伙伴一起,在各行各业中进行 AI 的实践与探
索。

在医药行业中,有企业结合 ModelArts 来提供药物研发的行业平台,应用到医院、药企、
研究机构中,进行医学研究,比如 靶基因预测、生物标志物研究、药物新应用发现、药
物设计等。
右图分别展示了使用 ModelArts 实现 AI 预测服务和 Notebook 分析服务的两个实例。

https://developer.harmonyos.com/

HMS Core 不依赖华为手机,可以在多种不同的操作系统中使用

除了强劲的运算能力,开发者做神经网络算法设计过程中,需要非常丰富的算子支持,
这个过程就像搭乐高积木,积木种类数越多、颗粒度越小,搭出来的模型越复杂逼真。
目前支持算子数量多达 240+ ,在业界处于领先地位。 1 NN 类计算: conv (卷积)
/deconv (反卷积) /pool (池化)等
2 、数学运算: sin (正弦) /cos (余弦) /add (张量加) /mul (张量乘) /mean (均
值)等
3 、数组运算: concat (拼接) /reverse (逆转) /batch_to_space (张量变换)等
4 、图像运算: crop_and_resize (裁剪缩放) /resize_bilinear (双线性插值)等
5 、逻辑控制: logicand (逻辑与) /logicor (逻辑或) /logicnot (逻辑否)等

在应用开发过程中,开发者可能面临各种各样的困惑,我们始终倾听开发者的声音,
打造更高效更强大的解决方案。有开发者反馈:“我们的算法都是基于内部的私有框
架,不在 HiAI 支持的框架列表里”我们通过 IR API ,让开发者的私有框架和 HiAI 平台
直接对接,算法开发者保持原有的开发习惯,在 HiAI 平台便可自动获得加速能力。
• Alg1 指算法

鸿鹄芯片为华为智慧屏使用芯片
• AI Camera 指摄像机使用的芯片, Hi 3559

HiAI Service 主要提供两个平台。首先是快服务智慧平台 HAG ,可以聚合开发者的内
容和服务,提供第三方的直达服务给华为用户,更好的联接服务和用户,目前已经接
入了 5000 多个原子服务,我们希望 2020 年超过 10000 原子服务上线。第二个平台是小
艺对话开发平台,端到端地为开发者提供对话服务的开发、测试和部署,支持一次接
入,多模态、多端部署

MindSpore 相比, MindSpore Lite 侧重于轻量推理,也可以做一些训练工作

考虑到端侧设备的性能问题, MindSpore Lite 提供了配套的工具进行模型压缩和模型
转换,可以在保证高精度的同时,大幅提高推理速度和降低硬件要求,支持多种操作
系统和模型框架

• 1 、达芬奇
• 2 DVPP
• 3 、不是,自动学习和 AI Gallery 订阅的算法无需自己编写代码
• 4 、四种, ML KIT HIAi 的三种能力

HMS指华为移动服务(Huawei Mobile Services