基于Q-learning模型的智能化放顶煤控制策略

2020-02-05 04:58李庆元杨艺李化敏费树岷

工矿自动化 2020年1期

李庆元，杨艺，李化敏，费树岷

(1.河南理工大学电气工程与自动化学院，河南焦作 454000；2.河南理工大学能源科学与工程学院，河南焦作 454000；3.东南大学自动化学院，江苏南京 210096)

0 引言

我国厚煤层及特厚煤层储量丰富，所占比例超过40%。综合机械化放顶煤开采(简称综放开采)具有开采效率高、适应性强等显著优势,目前已成为厚煤层及特厚煤层的主要开采方式[1]。在综放开采过程中，顶煤采出率低、出煤含矸率高是普遍存在的难题[2]。目前，综放开采大多采用人工单架放煤。放煤操作人员主要依据“见矸关窗”原则，通过观察顶煤放落过程中放出体的状态判断是否应当关闭放煤口。这种单架放煤方式无法把握工作面全局信息，且放煤操作人员的经验参差不齐，不可避免地导致放煤过程中出现欠放、过放等状况[3]。而在单架次放煤过程中，仅放煤口上方一定范围内的顶煤发生移动，易形成放出漏斗。若2个放出漏斗区相邻，则会形成三角煤区域，导致该区域顶煤无法放出，造成极大的资源浪费[4-5]。

从工作面全局信息考虑，将单一放煤口提升为多放煤口群组放煤，并依靠先进的信息技术实现智能放煤，可以有效避免人为因素对放煤效益的影响，减少顶煤漏斗区，提高顶煤采出率。同时，多放煤口群组智能(自动化)放煤有利于提高煤岩分界线的直线度，降低放煤口控制难度和出煤含矸率。因此，在放煤过程中，如何通过现代信息技术，沿着煤岩分界面最大程度地将顶煤放出，提升顶煤采出率，降低含矸率，是目前综放开采的研究热点[6-8]。

目前，国内已经就自动化、智能化的放煤方式展开了初步的试验探索。2006年，兖矿集团有限公司将综放开采技术应用到澳大利亚澳思达矿并探索了基于时间控制与人工干预相协调的自动化放煤方式[9-11]。2014年，黄陵矿业集团有限公司一号煤矿1001工作面实现了智能化无人开采[12-13]。文献[14-15]研究了一种基于记忆放煤时序控制的智能放煤模式，将人工放煤参数作为记忆样本，通过基于神经网络的自适应算法，针对不同情况下的放煤参数自动调整最佳放煤时间，以达到时序放煤控制的目的。文献[16]结合果蝇优化算法与径向基函数(Radial Basis Function，RBF)来预测放煤时间，使得放煤时间随煤层赋存条件自动调整。文献[17]通过对多传感器采集信号进行特征提取，以放煤特征范例库作为经验指导，对比二者相似度作出预警或控制，提出了以传感器感知控制为主的自动化记忆放煤控制方法。上述方法对综放工作面放顶煤智能控制理论的发展起到了积极的促进作用，但煤矸智能识别技术尚未取得突破进展，因此,放顶煤智能控制理论的发展在一定程度上受到了限制。

在放煤过程中，通过结合顶煤放出体实时状态特征与顶煤动态赋存特征，对放顶煤控制动作进行在线调整，设计基于智能决策机制的智能化放煤控制系统，使煤矸在顶煤放出过程中最大程度地分离，能有效提高顶煤采出率,降低出煤含矸率[18]。同时，通过对放煤口群组放煤的协同控制，将区域范围内的顶煤同时放出，减少顶煤相邻放出漏斗间的残留三角煤损失，可以提高顶煤采出率。

在上述参考文献的基础上，本文从智能决策控制角度出发，以提高顶煤采出率、降低出煤含矸率为目的，以合理调节群组放煤口控制动作为手段，提出了一种基于Q-learning模型的智能化放顶煤控制策略。针对多变量多约束条件下的复杂放煤工艺，生成群组放煤过程中各放煤口开闭实时控制策略，可优化多放煤口群组放煤过程，有效减少放煤过程中形成的放出漏斗，进一步提高放煤质量。

1 基于Q-learning模型的智能化放顶煤控制策略

1.1 放顶煤动态过程的强化学习机制

放顶煤过程中，每个放顶煤支架可以看作是一个智能体，而放煤口的决策过程则是一个非线性动态系统的多级决策过程，决策结果受当前顶煤放出体状态与顶煤赋存状态的共同影响。传统人工控制或自动化控制的放煤方式，其决策机制往往取决于顶煤放出体瞬时状态，不能很好地把握顶煤赋存状态，因此,无法应对放顶煤过程中遇到的混矸、夹矸等现象。

将基于动态规划思想的强化学习与放顶煤过程相结合，把一个完整的放煤过程离散成若干个相互关联的步，每一步关联前后2个状态。每个状态下的决策结果都将对整个放顶煤过程的总体收益产生影响，系统决策的依据不再仅仅来源于系统当前时刻的状态。强化学习通过把握工作面全局状态信息，学习环境状态与执行动作之间的映射关系，使执行动作从环境中收获最大的累积奖赏值。基于强化学习的智能放顶煤动态调节机制如图1所示。

图1 基于强化学习的智能放顶煤动态调节机制

在放顶煤过程中，放出体及顶煤赋存状态用s表示，且s∈S，S为状态空间。放煤口控制动作用a表示，且a∈An，A为动作空间，n为放煤口数量。根据系统当前状态s与放煤口动作空间A，结合奖赏函数可得智能体单步奖赏值r(s),且r∈R，R为动作回报值空间。放顶煤智能体选择执行最优动作a，系统收获最大单步奖赏值r(s,a)，环境接收该动作后系统状态从s转移至s′。单步执行的放顶煤控制动作不仅会影响到单步奖赏值，而且会影响系统下一时刻的状态及最终累积奖赏。因此，智能放顶煤控制系统在每个状态下都会选择能够实现全局最优的放顶煤控制动作。

Q-learning是一种用于求解马尔科夫过程最优决策的免模型强化学习算法[19-20]。Q-learning算法任务中，通过迭代学习状态-动作值函数Qπ(s,a)的最优形式来求解状态s条件下执行动作a的最优策略π。Qπ(s,a)的迭代学习机制为

(1)

式中：k为采样次数；α为学习率,α∈(0,1)；γ为折扣因子,γ∈(0,1)；a′为状态s′下的期望最优动作。

在保证算法收敛的情况下，为合理增加采样次数，本文在Qπ(s,a)的学习过程中引入了“探索”与“利用”均衡策略ε-greedy算法，实现动作选择。算法表达式为

(2)

式中：ε∈(0,1)；|A(s)|为状态s条件下可选的动作数量；A*为候选动作的最优值。

(3)

由式(2)可知，在状态s条件下,策略π(a|s)由概率值表示，其中候选动作是最优动作时a=A*，用于“利用”；而候选动作不是已知最优动作时a≠A*，用于“探索”；最后依据π(a|s)的概率最大值选择动作。

根据式(1)所述的迭代机制和式(2)所示的策略选择算法，经过若干次学习后，Qπ(s,a)和π(a|s)将同步收敛至最优值Qπ*(s,a)和π*(a|s)，此时有

(4)

采用基于Q-learning算法的智能放煤决策，结合放出体及顶煤赋存状态s、奖赏函数r(s,a)，以最大化期望累积奖赏Qπ(s,a)为主要目标，在线调整最优放顶煤控制动作A*，可优化多放煤口群组协同放煤过程，合理平衡顶煤采出率、出煤含矸率的关系。

1.2 放顶煤过程的基本要素及MDP建模

在综放开采过程中，当前状态下放顶煤的决策过程只与前一个状态相关，这是典型的马尔科夫决策过程(Markov Decision Process，MDP)。根据Q-learning算法对放顶煤过程建立MDP模型，MDP模型可用公式Μ{S;A;R}表示，需要确定3个核心要素：放煤口的状态空间S、动作空间A、动作回报值空间R。

(1) 状态空间S的物理含义及表示方法。在综放开采放顶煤过程中，指示放顶煤质量的主要参数为顶煤放出体中的煤矸含量。假设顶煤放出体单位体积中煤炭和矸石的数量分别为m和n，则通过放煤口的瞬时煤含量ω可表示为

(5)

放煤口的状态s可用ω表示。通过煤矸含量表示系统状态，系统整体状态空间可表示为S={si}={ωi}，i∈{1,2,…,N}，N为离散状态数量。

(2) 放煤口动作空间A的确立。根据智能体所处的环境和状态，从可选动作集合A中选择具有最大Q值的动作去执行。在综放现场放顶煤决策过程中，依据当前状态和控制策略决定放煤口应该打开还是关闭。为此，本文指定放煤口动作空间为

A={a1,a2}

(6)

式中：a1表示放煤口需要执行打开动作；a2表示放煤口需要执行关闭动作。

(3) 动作回报值空间R的量化方法。顶煤无法有效采出会造成巨大的资源浪费，出煤含矸率高会大幅提高运输成本和后期处理费用，因此,在智能放煤系给统中必须合理设计奖赏函数。结合某一时刻顶煤瞬时放出体单位体积中煤、矸数量mi,ni，奖赏函数设定为

(7)

式中Rm，Rn分别为顶煤放落过程中同等单位体积下的煤、矸奖赏值，为标量正值。

从式(7)可看出，在某一状态si下，煤含量ωi越大，执行放煤口打开动作获得的奖赏越多。随着顶煤放出体中矸石含量不断增加，若打开放煤口获得负奖赏，会导致期望累积奖赏不断减少，执行放煤口关闭动作更优。

结合上述参数，通过顶煤放出体中煤矸含量获取当前状态si，由决策算法给出决策动作Ai，动作执行后系统收获瞬时奖赏值ri，同时系统状态转移至si+1。上述过程不断循环，直至放顶煤过程结束。MDP模型下放顶煤过程的状态转移过程如图2所示。

图2 MDP模型下状态转移过程

1.3 基于Q-learning的放顶煤动态决策算法

算法步骤如下：

(1) 初始化Q(s,a)，∀s∈S，∀a∈An，给定参数α、γ。

(2) 生成初始随机策略π(s,a)。

(3) 对全部放顶煤训练过程重复执行下列操作：

当所有的Q(s,a)收敛时，跳出全部放顶煤训练过程。

2 仿真分析

2.1 放顶煤过程仿真平台

实际的综放开采工作面环境复杂，获取现场数据十分困难。智能放顶煤动态决策算法需要针对大量煤层数据进行训练以提高泛化能力。为满足需求，在DICE开源代码[21]基础上，对基于离散元方法的放顶煤过程进行Matlab仿真。仿真平台包括5个顶煤放出口，由煤炭、矸石、岩石3种材料作为顶板的构成成分，放煤动作包含开闭2种离散动作。在强化学习框架下，基于离散元的放煤过程的Matlab仿真结果如图3所示，x轴指示5个放煤口的宽度，每个放煤口宽度为1 m，y轴指示顶煤厚度。

(a) 初始时刻

(b) 放煤过程

2.2 顶板环境生成过程

设定在仿真环境中煤炭、矸石、岩石颗粒在自身重力作用下达到密实状态，模拟初始条件：颗粒初始速度为0，只受重力加速度g的作用，墙体速度与加速度为0。此外，颗粒四周及墙体作为仿真平台的外边界，其速度和加速度固定为0。模型材料颗粒力学参数见表1。

表1 模型材料颗粒力学参数

设置顶煤下部为煤炭，中部为基本顶，上部为直接顶，各分层粒子数总体占比见表2。

表2 各分层粒子数总体占比

训练过程中，系统状态转移应尽可能多覆盖整个状态空间，从而提高算法的普适性。各层粒子分布设定如图4(a)所示：煤层中煤炭粒子、矸石粒子比例为1∶1，位置服从随机分布；直接顶中煤炭粒子占比为6%，各层分布密度与其到煤岩分界线的距离成反比；基本顶只含有岩石粒子。测试过程中，各层的粒子遵循综放工作面的实际情况。各层粒子分布设定如图4(b)所示：煤层中矸石粒子占比为8%，位置服从随机分布；直接顶中煤炭粒子占比为6%，各层分布密度与其到煤岩分界线的距离成反比；基本顶只含有岩石粒子。

2.3 放顶煤过程仿真分析

对于单个离散元粒子，煤炭粒子奖赏值Rm取为1，矸石粒子奖赏值Rn取为-3。根据放煤口煤矸流中煤炭含量，对放煤口状态空间进行离散化定义，见表3。

(a) 训练用模拟环境

(b) 测试用模拟环境

表3 放煤口状态空间

结合MDP参数，对放顶煤动态决策算法展开训练。在给定的训练环境下，至各状态所对应的状态-动作值函数Q(s,a)收敛时，结束训练。训练结束后，随机生成4组测试用模拟环境，针对一组5个放煤口放煤过程进行煤矸分离测试，测试结果如图5所示。

(a) 第1组

(b) 第2组

(d) 第4组

顶煤采出率Wc和含矸率ρ的计算公式分别为

(8)

(9)

式中：QC为顶煤放出体中煤颗粒个数；QD为放煤区间内纯煤颗粒个数;QG为顶煤放出体中矸石颗粒个数；QA为放出体中全部颗粒个数。

根据式(8)和式(9)计算测试样本采出率与含矸率，结果见表4。

表4 测试样本采出率与含矸率

在放煤初期，可以放出纯顶煤，放出体完全由煤炭组成。随着放煤过程进行，直接顶逐渐破碎，顶煤放出体中出现混矸，但此时仍有一部分顶煤没有放出。为减少或避免直接顶矸石混入，目前的主要方法是提前关闭放煤口，但造成了大量的资源浪费。在放出适量的直接顶矸石后再关闭放煤口，则可以获得更大的煤炭采出率。

结合顶板环境生成过程，煤炭层中煤炭粒子占比为92%，而表4中采出率普遍高于92%，可知，在上述测试结果中，顶板煤炭层粒子已经全部采出。通过本文决策算法平衡采出率与含矸率，根据顶煤动态赋存特征，在直接顶破碎的情况下将含有部分矸石的顶煤适量放出，会导致出煤含矸率ρ偏高，但提高了顶煤采出率。

结合图5所示放煤测试结果可知，放顶煤过程结束后，顶板上方的煤炭已无法进行有效开采，若继续放煤势必会导致矸石含量快速上升。以全局收益最大化为约束的智能放煤决策通过生成合理的放煤口控制策略，实现了放顶煤过程中煤炭与矸石的有效分离。

2.4 对比分析

将智能化放顶煤控制策略与传统以“见矸关窗”为准则的放煤方式进行对比，对比要素为含矸率、采出率、全局奖赏值。其中，全局奖赏值RA用来衡量放煤总体效益，计算方式为

RA=QCRm-QGRn

(10)

采用传统放煤方式时，在现场很难通过观察做到非常精准的“见矸关窗”。为了更真实地模拟现场放煤过程，结合Rm和Rn值，在放煤过程中将放煤口煤矸流中矸石的比例为25%作为终止放煤的依据。

随机生成10组测试用煤层环境，在每组环境下进行仿真，2种方式的出煤含矸率与顶煤采出率如图6所示。

(a) 顶煤采出率

(b) 出煤含矸率

对比2种放煤方式下顶煤采出率和含矸率，分析得出如下结论：

(1) 采用智能化控制策略放煤，顶煤平均采出率为91.24%，下部纯煤层完全放出。此外，在直接顶破碎的情况下，可以将含有少量直接顶矸石的顶煤适量放出，顶煤采出率得到进一步提高。而以“见矸关窗”方式放煤时，为了避免夹矸、混矸情况，放煤口在顶煤层完全放出前关闭，放煤方式较为保守，顶煤平均采出率仅为78.81%，造成了部分资源的浪费。

(2) 采用智能化控制策略放煤，出煤平均含矸率为6.92%；以“见矸关窗”方式放煤时，出煤平均含矸率为5.81%。含矸率ρ受QG和QA共同影响。由于直接顶破碎，使得矸石颗粒上升速率ΔQG大于放出体颗粒上升速率ΔQA，含矸率ρ逐渐升高。因此，采用智能化控制策略放煤时出煤含矸率略高于“见矸关窗”放煤方式。

根据放顶煤原理，在提高顶煤采出率的同时会造成出煤含矸量增加，单独分析采出率或含矸率都存在一定的片面性。为协调二者关系，引入全局奖赏值RA对放顶煤质量进行评估，全局奖赏值对比结果如图7所示。

图7 全局奖赏值对比

由图7可知，智能化控制策略的平均全局奖赏值为685，“见矸关窗”方式的平均全局奖赏值为616。可见，应用智能化控制策略放煤所带来的全局收益更高，顶煤采出率提高约15.8%，放煤效益提高约11.2%。

3 结论

(1) 针对传统综放工作面放顶煤控制存在的顶煤采出率低、出煤含矸率高等问题，提出了基于Q-learning模型的智能化放顶煤控制策略。该控制策略兼顾工作面全局状态信息，以最大化放煤效益为主要目标，通过学习顶煤动态赋存与液压支架群组放煤控制的映射关系，合理平衡顶煤采出率与含矸率关系，显著减少了混矸、夹矸等现象对放顶煤开采的影响，在提高煤炭资源采出率的同时，提高了放顶煤开采效益，减少了煤炭资源的浪费。

(2) 仿真和对比分析结果表明，智能化控制策略的顶煤平均采出率为91.24%，比传统“见矸关窗”的放煤方式提高约15.8%；智能化控制策略的平均全局奖赏值为685，比传统放煤方式提高约11.2%。

(3) 本文算法仍然存在出煤含矸率不理想的问题。在后续研究中，将引入多智能体优化决策模型和方法，寻求顶煤采出率和出煤含矸率最佳匹配条件下的液压支架动作过程的全局最优。