人工智能与深度学习

2019-08-12 06:05张淳杰
科技与创新 2019年13期
关键词:卷积神经网络人工智能

张淳杰

人工智能与深度学习

张淳杰

(中国科学院自动化研究所,北京 100190)

人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。作为计算机科学的一个分支,它企图了解智能的实质,并生产出一种能智能地做出反应的机器。相关的研究内容包括机器人、语言识别、图像/视频分析、自然语言处理等。人工智能是一门极富挑战性又十分广泛的科学。

人工智能;深度学习;循环神经网络(RNN);生成对抗网络(GAN)

人工智能正成为推动人类进入智能时代的决定性力量。全球产业界充分认识到人工智能技术引领新一轮产业变革的重大意义,纷纷转型发展,抢滩布局人工智能创新生态。世界主要发达国家均把发展人工智能作为提升国家竞争力、维护国家安全的重大战略,力图在国际科技竞争中掌握主导权。习近平总书记在十九届中央政治局第九次集体学习时深刻指出,加快发展新一代人工智能是事关中国能否抓住新一轮科技革命和产业变革机遇的战略问题。错失一个机遇,就有可能错过整整一个时代。新一轮科技革命与产业变革已曙光可见,在这场关乎前途命运的大赛场上,必须抢抓机遇、奋起直追、力争超越。

1 人工智能发展历史

1956年夏,麦肯锡(MCKINSEY)、明斯基(MINSKY)、罗切斯特(ROCHESTER)和香农(SHANNON)等科学家在美国达特茅斯学院(Dartmouth College)开会研讨“如何用机器模拟人的智能”,首次提出“人工智能”这一概念,标志着人工智能学科的诞生。人工智能研究目的是使机器会听(语音识别和机器翻译等)、会看(图像识别与视频分析等)、会说(语音合成与自动问答等)、会思考(人机博弈与推理求解等)、会学习(知识表示)、会行动(智能机器人与自动驾驶等)。

国内外很多研究机构都在进行相关技术的研究。例如,美国的麻省理工学院、斯坦福大学、普林斯顿大学、卡内基美隆大学、加州大学伯克利分校、伊利诺伊大学香槟分校、康奈尔大学、哥伦比亚大学、耶鲁大学等,英国的剑桥大学、牛津大学、帝国理工大学,法国国家信息与自动化研究所(INRIA),瑞士苏黎世联邦理工学院,新加坡国立大学、南洋理工大学,香港科技大学等。国内也有很多机构和大学进行相关研究工作,包括中国科学院自动化研究所、清华大学、北京大学、中国科学技术大学、复旦大学、上海交通大学、哈尔滨工业大学、厦门大学、西安交通大学、西安电子科技大学等。

人工智能的研究历史充满了曲折起伏。自1956年以来,人工智能已经走过了63个春秋。其发展历程曲折反复,按照中国科学院谭铁牛院士的划分,人工智能的发展历程有六个阶段:第一个阶段是起步发展期(1956年至20世纪60年代初),在人工智能概念提出后,取得了一系列的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一个高潮;第二个阶段是反思发展期(20世纪60年代到70年代初),初期的突破性进展提升了人们的期望,人们开始提出了一些不切实际的研发目标,然而,接二连三的失败和预期目标的落空(例如,无法用机器证明两个连续函数之和还是连续函数),人工智能发展开始走入低谷;第三个阶段是应用发展期(20世纪70年代初至80年代中),20世纪70年代出现了专家系统,通过模拟人类专家的知识和经验解决特定领域的问题,专家系统在医疗等多个领域取得成功,推动人工智能走入应用发展的新高潮;第四个阶段是低迷发展期(20世纪80年代中叶至90年代中叶),随着人工智能的应用规模不断扩大,专家系统应用领域狭窄、缺乏常识性知识、知识获取困难等问题逐渐暴露,相关研究进展缓慢;第五个阶段是稳步发展期(20世纪90年代中叶至2010年),随着互联网技术的发展,数据开始大规模累加计,促进了人工智能的创新研究,使得人工智能技术走向实用化;第六个阶段是蓬勃发展期(2011年至今),随着大数据、云计算、互联网、物联网等信息技术的发展,推动了以深度神经网络为代表的人工智能技术飞速发展,广泛应用于图像分类、语音识别、知识问答、人机对弈、无人驾驶等领域,迎来爆发式增长的新高潮。

从应用的任务来看,人工智能可以分为专用人工智能和通用人工智能。对人工智能的相关技术研究涉及众多的学科与技术,如模式识别、数据挖掘、机器学习、脑科学等。真正意义上的人工智能系统应该是一个通用的智能系统,但是通用人工智能研究与应用刚刚起步。专用人工智能系统面向特定任务,需求明确、应用边界清晰、领域知识丰富、建模相对简单,容易被突破,取得超越人类的性能。例如,阿尔法狗(AlphaGo)在围棋比赛中战胜人类。专用人工智能取得突破性进展的重要原因是机器学习相关技术,特别是深度学习的快速发展。

2 深度学习技术发展状况

最早的神经网络的思想起源于1943年的MP人工神经元模型,其设计理念是用计算机来模拟人的神经元反应的过程。通过将神经元简化为输入信号线性加权、求和、非线性激活(阈值法)三部分。1958年ROSENBLATT发明感知器(perceptron)算法。通过使用MP模型使用梯度下降法从训练样本中自动学习更新权值,对输入的多维数据进行二分类。在1986年,HINTON发明了BP(back propagation)算法,通过采用Sigmoid函数进行非线性映射,解决了非线性分类问题。1989年,LECUN发明了卷积神经网络LeNet,在数字识别任务取得良好成绩。1997年,适用于序列建模的LSTM模型被提出。1995年,VAPNIK提出线性支持向量机(SVM),该方法的数学理论基础较为完备(统计学与凸优化等)并且符合人的直观感受。2000年,核化SVM(Kernel SVM)被提出来解决原始空间表示线性不可分的问题。2001年,图模型被提出。

人们大多把2006年看作是是深度学习元年。这年,HINTON提出了深层网络训练中梯度消失问题的解决方案。其主要思想是先通过自学习的方法学习训练数据的结构(自动编码器),之后在该结构上进行有监督训练。相比于手动设计的特征或浅层的特征表示,多层卷积结构是当前计算机视觉领域最先进、最具吸引力的结构之一。相关的研究内容也在快速发展中。2011年,ReLU激活函数被提出来抑制梯度消失问题。2012年,AlexNet网络取得ImageNet比赛的冠军,吸引到了研究者的注意。AlexNet网络采用ReLU激活函数增大收敛速度;通过扩展LeNet5结构,添加Dropout层减小过拟合,LRN层增强泛化能力;并采用GPU进行加速。其主要包含局部感知、权值共享、卷积和池化四个部分。在局部感知环节,由于图像局部的像素联系紧密,而距离远的像素相关性较弱。因此,每个神经元其实只需对局部区域进行感知。而权值共享则可以大大减少卷积神经网络的参数数量。卷积是利用卷积核对图像进行特征提取。最重要的就是卷积核的大小、步长设计和数量的选取,个数越多提取的特征越多,但网络复杂度也在增加。池化层一般在卷积层后,通过池化来降低卷积层输出的特征向量维数。采用的池化方法是平均池化(mean pooling)和最大池化(max pooling)。

受AlexNet的启发,针对图像分类任务出现了大量新的网络结构。改进思路主要是增大网络的规模,包括深度和宽度。但是,网络参数增加之后更容易出现过拟合,计算量也随之增加。在众多改进的网络中,比较有代表性的是GoogleNet、VGG和ResNet。GoogLeNet由Google在2014年提出,其主要创新引入了Inception机制对图像进行多尺度处理,大幅减少了参数数量。通过将多个不同尺度的卷积核,池化层进行整合,形成一个Inception模块。VGG网络由牛津大学视觉组(Visual Geometry Group)于2014年提出。VGG结构简洁、拓展性强、泛化性好。整个网络都使用了同样大小的卷积核尺寸(3×3)和池化尺寸(2×2)。ResNet(残差网络)用跨层连接拟合残差项来解决深层网络难以训练的问题,将网络的层数推广到了前所未有的规模(152层),深度是VGG网络的8倍但复杂度却更低。

在这些网络的基础上,又有很多改进版本的网络结构出现。Inception-V2基于GoogleNet的基本结构进行了改进。加入了BN层,用2个3×3的conv替代Inception模块中的5×5,既降低了参数数量,也加快了计算速度。Inception-V3将7×7的卷积核分解成两个一维的卷积。这样做既可以加速计算,减少参数规模,又可以将1个卷积拆成2个卷积,使得网络深度进一步增加,增加了网络的非线性。传统的提高模型准确率的做法,都是加深或加宽网络,但是随着超参数数量的增加,网络设计的难度和计算开销也会增加。ResNeXt的设计目的为在不增加参数复杂度的前提下提高准确率。它采用了VGG堆叠的思想和Inception的split-transform-merge思想,但是可扩展性比较强,在增加准确率的同时基本不改变或降低模型的复杂度。DenseNet是一种具有密集连接的卷积神经网络。在该网络中,任何两层之间都有直接的连接。DenseNet的优点是网络更窄,参数更少。同时这种连接方式使得特征和梯度的传递更加有效,网络也就更加容易训练。以上网络的计算量都很大。为了在手机等嵌入式设备上进行应用,Google提出了一种轻量级的深层神经网络MobileNets。其设计的核心为Separable Convolution,可以在牺牲较少性能的基础上有效减少参数量和计算量。Separable Convolution将传统的卷积运算用两步卷积运算代替:Depth-wise convolution与Pointwise convolution。后续的MobileNet-v2增加了残差结构,并在Depth-wise convolution之前添加一层Pointwise convolution,优化了带宽的使用,进一步提高了性能。

循环神经网络(RNN)是用于处理序列数据相关任务的多层神经网络模型。它可以看作是神经网络的一种特殊类型,隐藏单元的输入由当前时间步所观察到的数据中获取输入以及它在前一个时间步的状态组合而成。虽然循环神经网络是一类强大的多层神经网络模型,但其主要问题是模型对时间的长期依赖性,由于梯度爆炸或梯度消失,这种限制将导致模型训练过程在网络回传过程中误差的不平稳变化。长短期记忆网络(LSTM)在一定程度上解决了这个问题。LSTM 包含遗忘门,使得网络能够删除一些不必要的信息。生成对抗网络(GAN)是2014年首次引入的一种新型多层神经网络模型。虽然生成对抗网络并没有多种不同的网络构建模块,但这种网络结构具有一些特殊性。通过引入无监督学习,模型的训练不再依赖大量标记数据。一个标准的生成对抗模型主要由两部分子网络组成:生成网络和判别网络,两个子网络都是预先定义好的多层网络结构。自提出以来,生成对抗网络就得到了广泛的关注和研究。

尽管各种精心设计的卷积模型在多个应用中取得了优异表现,但在模型结构的工作方式理解及探索这些结构的有效性方面则进展缓慢。现有的用于理解卷积结构的方法可以分成三个方向:卷积可视化、消融学习、网络最小化学习。

卷积可视化有两种方法:①以数据集为中心,采用反卷积(DeConvNet)操作。一个卷积结构接收来自数据集的几个图像并记录数据集中输入的特征映射最大响应,这些特征地图使用反卷积结构,通过反转卷积操作模块,将卷积操作中学习到的滤波器特征进行转置来执行“解卷积”操作,从而实现卷积的可视化分析。②以网络为中心,通过合成图像来实现。网络消融通过隔离卷积结构的不同部分组成网络,查看删除或添加某些模块如何模拟整体的性能。消融研究能够指导研究者设计出性能更优的网络结构。网络最小化学习在网络设计时添加先验知识,从而最大限度地减少所需学习的模型参数。

3 总结与展望

人工智能经过60多年的发展已取得了重大进展,但总体上还处于初级阶段。人工智能既具有巨大的理论与技术创新空间,也具有广阔的应用前景。一方面,中国人工智能发展的总体态势良好。党中央、国务院高度重视并大力支持发展人工智能。习近平总书记在党的十九大、2018年两院院士大会、全国网络安全和信息化工作会议、十九届中央政治局第九次集体学习等场合多次强调要加快推进新一代人工智能的发展。2017-07,国务院发布《新一代人工智能发展规划》,将新一代人工智能放在国家战略层面进行部署。2019-03,中央全面深化改革委员会第七次会议审议通过了《关于促进人工智能和实体经济深度融合的指导意见》。中国发展人工智能具有市场规模、应用场景、数据资源、人力资源、智能手机普及、资金投入、国家政策支持等多方面的综合优势。当前是中国加强人工智能布局、收获人工智能红利、引领智能时代的重大历史机遇期。中国已成为全球人工智能投融资规模最大的国家,中国人工智能企业在人脸识别、语音识别、安防监控、智能音箱、智能家居等应用领域处于国际前列。另一方面,也应该看到差距和困难。发达国家通过人工智能技术创新掌控了产业链上游资源,难以逾越的技术鸿沟和产业壁垒有可能进一步拉大发达国家和发展中国家的生产力发展水平差距。目前中国在人工智能理论创新方面尚处于“跟跑”地位,大部分创新偏重于技术应用,在基础研究、原创成果、顶尖人才、技术生态、基础平台、标准规范等方面与世界领先水平还存在明显差距。人工智能对工业、交通、医疗等传统领域的渗透和融合是个长期过程,很难一蹴而就。

TP18

A

10.15913/j.cnki.kjycx.2019.13.011

2095-6835(2019)13-0025-03

张淳杰,中国科学院自动化研究所副研究员,硕士生导师,人工智能开放创新平台联合学者,研究方向为计算机视觉和人工智能。

〔编辑:张思楠〕

猜你喜欢
卷积神经网络人工智能
基于全卷积神经网络的猪背膘厚快速准确测定
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
2019:人工智能
人工智能与就业
三次样条和二次删除相辅助的WASD神经网络与日本人口预测