深度强化学习在Atari视频游戏上的应用

2017-09-03 10:57沈阳理工大学自动化与电气工程学院石征锦
电子世界 2017年16期
关键词:卷积神经网络深度

沈阳理工大学自动化与电气工程学院 石征锦 王 康

深度强化学习在Atari视频游戏上的应用

沈阳理工大学自动化与电气工程学院 石征锦 王 康

考虑到深度学习在图像特征提取上的优势,为了提高深度学习在Atari游戏上的稳定性,在卷积神经网络和强化学习改进的Q-learning算法相结合的基础上,提出了一种基于模型融合的深度神经网络结构。实验表明,新的模型能够充分学习到控制策略,并且在Atari游戏上达到或者超出普通深度强化学习模型的得分,验证了模型融合的深度强化学习在视频游戏上的稳定性和优越性。

强化学习;深度学习;神经网络;视频游戏

0 引言

2016年年初备受瞩目的围棋“人机大战”对局中,最终以人类围棋冠军被击败落下帷幕。深智(DeepMind)团队开发的围棋机器人AlphaGo引起一波关于人工智能的热议。这两年谷歌公司的人工智能研究团队DeepMind取得了两项意义非凡的研究成果:基于Atari视频游戏的深度强化学习算法[1]和计算机围棋初弈号[2]。这些取得的研究成果开启了人工智能学习算法的革命,作为人工智能重要一部分的深度学习和强化学习也成为广大群众讨论的热点话题。

从2010年开始,随着计算机计算能力的提高,和预训练技术的改进,深度学习在包括语音识别、视觉对象识别及检测等人工智能领域取得了比传统方式更大的优势。深度学习的发展和进步把从原始的数据中提取高水平特征变成现实。深度学习在感知能力表现强势,但是在决缺策能力上不尽人意;与此相反,强化学习在决策能力上表现上佳,但是对感知问题无特别优势。因此,将两者结合起来优势互补,为解决复杂系统的感知决策问题提供了方法[3]。将具有感知能力的深度学习(deeplearning,DL)和具有决策能力的强化学习(reinforcement learning,RL)优势互补的结合在一起,构成深度强化学习(deep reinforcement learning,DRL)算法。这些算法表现出来的性能超出人们的想象,对促进人工智能领域的发展具有极大的意义。

本文对深度神经网络训练模型进行了改进,充分利用深度强化学习网络结构中储存的经验回放机制中的数据对整个神经网络参数进行精调。采用不同模型中的经验回放的数据更能提高神经网络的训练水平,该方法为深度神经网络提供了较好的训练效果,降低了深度神经网络的优化难度。改进后的模型在神经网络权值更新上效果更好,实验验证在Atari视频游戏的得分达到了预期效果。

1 背景

深度学习起源于人工神经网络,目前典型的深度学习模型包括:卷积神经网络、深度置信网络、堆栈自编码网络和递归神经网络等。本文应用了卷积神经网络。文献[4]中提出的深度Q网络(deep Q network,DQN),是将卷积神经网络和Q学习结合,并集成经验回放技术实现的。经验回放通过重复采样历史数据增加了数据的使用效率,同时减少了数据之间的相关性[5]。深度Q网络是深度强化学习算法上的重要创新,它采用游戏画面作为原始图像输入,经过卷积层,抽样层神经网络和全连接层神经网络,输出状态动作Q函数,然后选择最好的动作实现学习控制的目标。深度Q网络使用带有参数θ的Q函数Q(s,a;θ)去逼近值函数。迭代次数为i时,损失函数函数为[5]:

其中:

该工作对深度强化学习很大的意义。

2 加入经验回放机制的Q-learning

算法流程如下:

由于Atari采集的是时间比较接近的样本,不可避免的是它们具有连续性,受样本分布得影响,这样更新的Q值效果不理想。因此,把样本先存起来,然后随机采样就是一个比较实用可行的想法。这就是经验回放的意思。算法要求就是反复试验,将数据储存起来,数据达到一定数量就每次随机采样数据进行梯度下降。在DQN中强化学习Q-Learning算法和深度学习的随机梯度下降训练是同步进行的,通过Q-Learning获取无限量的训练样本,然后对神经网络进行训练。

3 基于模型融合的深度强化学习

3.1 模型融合的DRL网络结构

将两个不同结构的卷积神经网络经过经验回放机制储存的历史经验数据互相使用来更新网络的权值,我们称之为模型融合的神经网络。该方法的提出目的是提高训练过程的稳定性,加速收敛速度。并且agent在测试集上仍然采用ε-greedy策略进行游戏,agent的采用这种随机策略有可能导致这种不确定性。权重的细小的变化就有可能造成结果大不相同,状态是游戏画面,选择不同的行为动作就会造成不同的画面变化,这种细小的变化的累积影响实际是巨大的。神经网络权重的微小变化可能造成策略扫过的状态大不相同,而我们希望agent尽可能多的收集训练数据用于训练,所以通过从大量的历史样本中采样并使用融合多个不同DNN架构的经验回放中的数据,采样经验回放中的数据时,使用不同的采样方法并且尽量采样相关性比较小的样本,比如两个样本之间相隔4帧以上,不采样处于终结状态的帧,处于终结状态的帧不存在后续帧。不同的网络结构也是间接地将历史样本增加了。DRL1使用和图2不同的卷积神经网络的架构:

(1)卷积步长不同,有(4,2)改为(2,2)。

(2)将mini-batch的采样大小48改为16。

(3)改变输入图像的预处理方法。

(4)全连接层的层数或者节点数量不同,将全连接层节点由512改为256。

模型融合DRL流程图见图1。

图1 模型融合DRL流程图

3.2 网络结构设计

为了减少计算对原始的游戏帧(210*160像素128)色处理,首先把图像RGB三色图像转换为灰度图并降采样,其次将输入图像截断成84*84像素大小,图像区域大致覆盖游戏区域。截取成84*84像素是因为我们使用的GPU实现2D卷积需要方形输入。在后续的实验中,函数负责将历史帧中最近的4帧图像进行预处理并作为网络的输入。卷积神经网络如图2所示。

图2 卷积神经网络结构

从序列中取的连续帧越多,那么网络能观察的全局信息就越多,对局势的判断也会越准确,但是网络规模会成倍增长,所以需要权衡网络规模和算法性能。使用连续4帧作为网络的输入,这里选用ReLU (Rectif i ed Linear Units)作为网络的激活函数,ReLU具有计算速度快,准确率高等优点,函数形式f(x)=max(0,x)[6]。网络的输入是经过预处理生成的84*84*4的图像;第一个隐藏层由32个8*8的卷积核组成,步长为4,并使用ReLu做非线性变换,经过卷积核的变换后该层有20*20*32个节点第二个隐藏层包含48个4*4的卷积核,步长为2,同样使用ReLu做非线性变换,经过卷积核的变换后该层有9*9*48个节点。最后一个隐藏层包含512个与上一层进行全连接ReLU单元。输出层单元是与上一层的全连接的线性函数,每一个输出对应一个可能的动作。

4 实验结果

openai中的Atari 2600模拟器运行状态每秒生成60帧,我们设定每4帧发送1帧,由于神经网络处理数据速度没那么快,为避免造成卡顿。每个Atari的游戏得分评价标准不同,为了让不同的游戏融合在一个框架下,这里将它划为统一标准,即agent每次做出有利的动作得分+1,做出不利的动作-1,没改变的是0[7]。算法在游戏中的评价方法如下:游戏被天然的分割为多个episode过程,每个episode开始于重置命令后的那一帧,结束于检测到游戏结束条件,或者超过5分钟的实际游戏时间,一个强化学习算法从1000个训练episode中学习,接下来在200个非学习阶段的episode中进行评价,agent的表现用评价阶段的episode的均值分数来测量。

表1 3种模式下的游戏得分

表1记录了Human,DRL和模型融合的DRL在4种不同的游戏中的得分表现。在多个不同游戏中的表现证明了深度强化学习的泛化性能优异。对比发现,DRL在打砖块和乒乓球上比人类玩家更加出色,基于模型融合的DRL在打砖块,太空侵略者和乒乓上比人类优异,且在4种游戏中都比DRL表现好。这也证明了该模型在玩游戏中效果更好。

5 结论

本文介绍了基于经验回放的而改进的模型融合的深度强化学习模型。实验证明了该网络结构DRL在Atari 2600游戏中成功的学习到控制策略,并且在稳定性和学习效果上比较优异。通过分析不同游戏的特征发现,模型融合的DRL在灵敏度比较高的游戏中比较取得好的成绩(如打砖块,乒乓等)。但是在环境复杂需要全局考量的策略类游戏中的(如深海游弋,太空侵略者等)得分相对低一些,这个是需要继续研究和改进的地方。

[1]MNIHV,KAVUKCUOGLUK,SILVERD,etal..Human-levelcontrol through deep reinforc ement learning[J].Nature,2015,518(7540):529-533.

[2]SILVER D,HUANG A,MADDISON C,et al.Mastering the game of Go with deep neural,networks and tree search[J].Nature,2016,529(7587): 484-489.

[3]赵冬斌,邵坤,朱圆恒,李栋,陈亚冉等.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,DOI:10.7641/CTA.2016.60173.

[4]MNIH V,KAVUKCUOGLU K,SILVER D,et al.Playing atari with deep reinforcement learning[C]//Proceedings of the NIPS Workshop on Deep Learning.Lake Tahoe:MIT Press,2013.

[5]WATKINS C J C H.Learning from delayed rewards[D].Cambridge:University of Cambridge,1989.

[6]Riedmiller M.Neural fitted Q iteration-first experiences with a data ecient neural reinforcement learning method[J].In:Proceedings of the 16th European Conference on Machine Learning.Porto,Portugal:Springer,2005.

[7]Marc G Bellemare,Yavar Naddaf,Joel Veness,and Michael Bowling. The arcade learning environment:An evaluation platform for general agents[J].Journal of Artificial Intelligence Research,47:253-279,2013.

The Application of Depth of reinforcement Learning in the Vedio Game

Shi Zhengjin Wang Kang
(School Of Automation And Electrical Engineering,Shenyang Ligong University Shenyang 110168,China)

Considering the advantage of depth learning in image feature extraction,In order to improve the depth study on the Atari game performance this paper proposes a depth neural network structure based on model fusion,convolution neural network and modif i ed Q-learning algorithm.Experiments show that the new model can fully study the control strategy,and it achieve or exceed the scores of the general learning model in the Atari game.Proving the deep reinforcement learning based on model fusion have the stability and superiority in the video game.

reinforcement learning;deep learning;neural network;vedio game

石征锦(1963—),男,辽宁沈阳人,硕士,教授,研究领域:人工智能,检测技术与自动化装置,先进控制理论及应用。

王康【通讯作者】(1992—),男,山东枣庄人,硕士,研究领域:人工智能,深度学习,先进控制理论与应用。

猜你喜欢
卷积神经网络深度
基于3D-Winograd的快速卷积算法设计及FPGA实现
深度理解一元一次方程
神经网络抑制无线通信干扰探究
从滤波器理解卷积
深度观察
深度观察
深度观察
基于傅里叶域卷积表示的目标跟踪算法
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用