第一章 深度学习的发展趋势和应用现状
一、人工智能的发展过程
1. 人工智能的早期发展
人工智能的发展经历了从简单形式化环境到复杂现实问题的演进过程。早期的成功案例发生在相对朴素且形式化的环境中,如1997年IBM的深蓝(Deep Blue)国际象棋系统击败世界冠军Garry Kasparov。
然而,真正挑战在于解决那些对人来说很容易执行但很难形式化描述的任务,如识别人们所说的话或图像中的脸。早期一些人工智能项目试图将关于世界的知识用形式化的语言进行硬编码(hard-code),如Cyc(2006)项目,但这些知识库(knowledge base)方法没有获得重大成功。
2. 机器学习的兴起
依靠硬编码的知识体系面临的困难表明,AI系统需要具备自己获取知识的能力,即从原始数据中提取模式的能力,这种能力被称为机器学习。
简单的机器学习算法如逻辑回归(logistic regression)和朴素贝叶斯(nave Bayes)的性能在很大程度上依赖于给定数据的表示(representation)。
3. 表示学习的突破
使用机器学习来发掘表示本身,而不仅仅把表示映射到输出,这种方法被称为表示学习。典型例子是自编码器(autoencoder),由一个编码器(encoder)函数和一个解码器(decoder)函数组合而成。
表示学习算法学习到的表示往往比手动设计的表示表现得更好,并且只需最少的人工干预就能让AI系统迅速适应新的任务。然而,从原始数据中提取高层次、抽象的特征仍然非常困难,因为许多差异因素影响着能够观察到的每一个数据。
4. 深度学习的出现
深度学习让计算机通过较简单概念构建复杂的概念,典型例子是前馈深度网络或多层感知机。
多层感知机仅仅是一个将一组输入值映射到输出值的数学函数,由许多较简单的函数复合而成。可以认为不同数学函数的每一次应用都为输入提供了新的表示。
5. 相互关系
人工智能、机器学习和深度学习之间存在着递进的关系:
表示学习 → 机器学习 → 人工智能
二、深度学习的历史趋势
1. 神经网络的众多名称和命运变迁
人工神经网络(Artificial Neural Network, ANN)由大量处理单元互联组成的非线性、自适应信息处理系统,通常由一个input layer、多个hidden layer和一个output layer构成。
人工智能出现的60多年中经历过几次寒冬,自深度学习算法出现后,近几年再次进入爆发期:
- 第1阶段:人工智能起步期(1956-1980s)
- 第2阶段:专家系统推广(1980s-1990s)
- 第3阶段:深度学习(2000s-至今)
第三代神经网络-DL(2006~至今)
快速发展期(2006~2012)
- 2006年即DL元年,Hinton提出了深层网络训练中梯度消失问题的解决方案
- 2011年ReLU激活函数被提出,有效抑制梯度消失问题
- 2011年微软首次将DL应用在语音识别上,取得了重大突破
爆发期(2012~至今)
- 2012年Hinton用构建的CNN网络AlexNet夺得ImageNet图像识别比赛冠军
- 2014年R-CNN提出
- 2015年Fast R-CNN提出
AlexNet网络参加了ILSVRC2012年大赛,top5错误率16.4%,以高出第二名10%的性能优势取得了冠军。创新点包括:
- 大数据训练,百万级ImageNet图像输入
- 多GPU加速计算
- LRN局部响应归一化,有助于模型的泛化
- 重叠池化
- Dropout防止过拟合
2. 与日俱增的数据量
"大数据"时代使机器学习更加容易。监督深度学习算法在每类给定约5000个标注样本情况下一般将达到可以接受的性能,当至少有1000万个标注样本的数据集用于训练时,它将达到或超过人类表现。
典型数据集包括:
- MNIST(50MB):手写数字数据集
- CIFAR-10(170MB):10类彩色图像数据集
- MS-COCO(25G压缩文件):复杂日常场景数据集
- ImageNet(150GB):1400+万幅图片,涵盖1000+个类别
- Open Image(500GB):900万张图像,横跨约6000个类别
3. 与日俱增的模型规模
现在神经网络成功的一个重要原因是拥有的计算资源可以运行更大的模型。自从隐藏单元引入以来,人工神经网络的规模大约每2.4年扩大一倍,这种增长是由更大内存、更快的计算机和更大的可用数据集驱动的。
就神经元总数目而言,现在的网络实际上比相对原始的脊椎动物如青蛙的神经系统还要小。除非有能力迅速扩展的新技术,否则至少要到21世纪50年代,人工神经网络将才能具备与人脑相同数量级的神经元。
三、深度学习的应用现状
1. 计算机视觉
图像分类:ImageNet大规模视觉识别挑战赛(ILSVRC)中,分类比赛历年最优成绩从2011年的73.8%提升到2017年的97.75%,已超过人类水平(94.9%)。
物体检测:在ImageNet竞赛中,图像中200类物体检测mAP从23%提升到66%(2016)再到73%(2017)。
图像分割:在VOC2012数据集上mIoU从50%(2013)提升到75%(2015)再到86.9%(2017)。
视频结构化技术:监控场行人车辆检测、跟踪与属性估计。
无人机视觉技术:地面目标检测与跟踪技术,检测率90%以上。
图像合成及风格转换:生成对抗网络GAN可以生成风格目标的逼真图像并学习风格。
2. 语音技术
包括语音识别、语义理解和语音合成等领域。
3. 从象棋到围棋(1997~2016)
- IBM的深蓝(Deep Blue)国际象棋系统(1997)
- Google旗下DeepMind的AlphaGo围棋机器人(2016)
4. 机器翻译
逐渐接近普通人的水平,评分范围为0~6。
5. 自动驾驶
深度学习在自动驾驶领域有广泛应用。
6. 音乐智能
EMI(Experiments in Musical Intelligence)成功谱写出注明作曲家风格的乐曲,模拟巴赫、贝多芬、肖邦等作曲家的风格,以假乱真。
7. 文学
如小冰诗集,九歌古诗词赋等。
8. 其他领域
- 金融:摩根的例子1000人→100人;香港证券交易大厅已关闭;贷前风控模型,降低坏账率。
- 医疗:读片(CT,核磁);辅助诊断系统,有潜力超过医生。
- 教育:高考机器人;机器人教辅。
9. 软件基础架构
深度学习的发展离不开强大的软件基础架构支持。
10. 这些AI系统的背后…
AI = A(Algorithm) + B(Big-supervised-data) + C(Computing)
算法(Algorithm):深度学习和增强学习等。
强监督大数据(Big-supervised-data):
- 语音识别与NLP:数万或更多小时的语音数据和海量语料
- 人脸:数百万人的数亿图片,数十种人脸属性
- 人车:数百万量级标注图片,多重属性
- 自动驾驶、医疗、金融等领域都需要大量数据
算力(Computing):
- CPU与GPU的区别:CPU多核,GPU众核
- CUDA(Compute Unified Device Architecture)并行计算架构
- 腾讯云、华为等公司提供的强大计算平台
- 华为昇腾(Ascend)910和3100芯片
- 华为AI框架MindSpore
深度学习带来的变化:
- 前深度学习时代:专家知识驱动的特征设计,专家选择的分类器
- 深度学习时代:专家选择深度模型,机器优化深度模型
- 后深度学习时代:机器选择和优化模型
未来,人类智能(HI)与人工智能的结合将带来更多可能性。