基于启发式动态规划的盾构土压平衡优化控制

2018-09-22 03:30宇,胜,举,
大连理工大学学报 2018年5期
关键词:密封舱土压权值

刘 宣 宇, 许 胜, 张 凯 举, 曹 雨 濛

(1.辽宁石油化工大学 信息与控制工程学院,辽宁 抚顺 113001;2.吉林大学 数学学院,吉林 长春 130012)

0 引 言

随着城市化进程不断加快,土压平衡盾构已被广泛应用于软土地层的地下工程建设.各地地质条件不同,对盾构施工过程中盾构密封舱土压控制要求也就不同.施工过程中,盾构密封舱土压无法得到有效控制,易导致地表变形和严重的安全事故.因此,实现土压平衡盾构的密封舱土压平衡控制,是避免地表变形和保障施工安全的关键所在.

土压平衡盾构主要通过调整螺旋输送机转速,改变密封舱渣土体积,维持密封舱土压与开挖面压力平衡,有效控制地表变形[1].王林涛等[2]提出基于前馈-密封舱压力反馈的土压控制方法,通过调节推进速度实现土压平衡.张晓峰[3]以螺旋输送机转速为控制量,利用神经网络算法优化控制量,实现土压平衡控制.曹丽娟等[4]提出基于PID神经元的密封舱土压控制方法.Yang等[5]利用传统PID控制器控制密封舱土压,取得了较好控制效果.但以上控制方法均是以单变量优化控制密封舱土压,没有考虑其他控制参数的影响作用,密封舱土压控制精度有待进一步提高.

启发式动态规划 (heuristic dynamic programming,HDP)是自适应动态规划的一种,是解决传统动态规划“维数灾”问题的一种近似最优控制方法[6].其利用函数近似结构逼近代价函数,通过离线迭代或在线更新方式获得系统的最优代价函数及最优控制律,能有效解决非线性系统的多变量优化控制问题.其已被应用于倒立摆平衡控制[7]、水泥立磨生料细度控制[8]、储能系统优化控制[9]等实际系统中,成为现代科学理论与工程领域中对复杂系统研究的一种重要方法.

因此,本文提出基于HDP的密封舱土压优化控制方法.通过对盾构掘进经验数据分析,发现刀盘扭矩是影响密封舱土压平衡的重要因素,两者之间存在非线性依赖关系[10-11].为提高密封舱土压预测精度,本文将刀盘扭矩作为模型输入之一,建立密封舱土压预测模型,进而构建密封舱土压优化控制代价函数和HDP控制器.最后,通过实验仿真验证所提出方法的有效性.

1 HDP基本结构与原理

密封舱土压HDP控制器结构如图1所示.

图1 密封舱土压HDP控制器结构Fig.1 Structure of HDP controller for soil pressure in sealed cabin

图1 中,p(k)为k时刻密封舱土压;p(k+1)为k+1时刻密封舱土压;γ∈(0,1],为折扣因子;u(k)=(n(k) v(k) F(k) T(k))T,为k时刻控制向量,其中F(k)、n(k)、v(k)、T(k)分别为总推力、螺旋输送机转速、推进速度、刀盘扭矩;U(k)=f(p(k),u(k),k),为密封舱效用函数,对密封舱土压和控制向量做出评价;J(·)为密封舱土压优化控制代价函数.

各信号流向如实线所示,评价网络与执行网络的误差反馈路径如虚线所示.密封舱土压作为执行网络的输入,输出为控制向量;模型网络的输入为密封舱土压和控制向量,输出为下一时刻密封舱土压,其作为评价网络的输入,输出密封舱土压优化控制代价函数近似值.评价网络实现密封舱土压优化控制代价函数的近似,执行网络以最小化密封舱土压优化控制代价函数为目标,优化控制向量.各网络详细训练流程和参数优化过程,见下文HDP控制器设计部分.

HDP的基本原理是采用迭代形式训练评价网络以近似Bellman动态规划方程中的代价函数:

其中J(k)表示效用函数从k时刻开始的迭代值.通过折扣因子进行折算,显示效用函数迭代的时间效应.HDP的目标是选择最优控制向量,使得式(1)取极小值.

盾构机为高度复杂的非线性系统,本文假设盾构系统为下式所示的离散系统:

对于盾构系统式(2),式(1)可表示为

式(3)经过推导可表示为

根据Bellman优化原理,若以式(4)作为网络权值调整的目标,则可以通过网络训练使得代价函数逐步趋向当前控制策略下的最优值.本文以式(4)作为密封舱土压优化控制的代价函数,设计基于HDP的土压平衡控制器.为了使评价网络近似J(k),定义如下评价网络误差:

其中J*(k)为k时刻代价函数估计值,J*(k+1)为k+1时刻代价函数估计值.

执行网络的训练以最小化式(4)为目标,获得最优控制向量.因此,定义如下执行网络误差:

2 HDP控制器设计

2.1 密封舱土压预测模型建立

王洪新等[12-13]通过对盾构掘进过程机理分析,推导出盾构总推力、密封舱土压、螺旋输送机转速、推进速度等掘进参数间的关系表达式.根据该研究结果,设定本文的密封舱土压预测模型的输入变量为当前密封舱土压p(k)、当前螺旋输送机转速n(k)、当前推进速度v(k)、当前总推力F(k)、当前刀盘扭矩T(k);输出为下一时刻密封舱土压p(k+1).即有

BP神经网络因其强大的非线性映射能力,被广泛用于复杂工业控制系统的建模.本文将双极性函数和线性函数作为隐藏层和输出层的传递函数;隐藏层节点个数选择对模型的训练效果至关重要,因此本文首先统计了隐藏层节点个数为5~16的土压预测模型的土压预测误差;通过Matlab仿真验证,当网络隐藏层节点个数为9时,密封舱土压预测误差为10.5%,而其他的均超过12.2%.因而,构建基于3层BP神经网络的密封舱土压预测模型,结构如图2所示.

图2 密封舱土压预测模型Fig.2 Forecasting model of soil pressure in sealed cabin

2.2 密封舱土压效用函数

密封舱土压效用函数是整个HDP控制器设计过程中与密封舱土压直接相关的重要指标.实际上,在自适应动态规划中,设计效用函数的过程本质上就是优化设计HDP控制器的过程.在某种程度上,效用函数的选择决定了控制器动态控制的优劣.在对工业系统的控制过程中,效用函数必须能够反映实际系统的控制特效和系统自身属性,所设计的控制器才可满足控制要求.本文控制对象是密封舱土压,目的是使其稳定于0.18~0.22MPa,因此选择的效用函数为

2.3 评价网络的训练

隐藏层节点个数的选择方法同2.1节,通过仿真验证,当隐藏层节点个数为8时,代价函数收敛值为0.068,其他节点个数的代价函数收敛值大于0.1.因此,本文评价网络采用1-8-1结构的3层BP神经网络.评价网络的训练流程如图3所示,各信号流向如实线所示,反向传播路径如虚线所示.

根据Bellman优化原理,k时刻密封舱土压控制器的最优代价函数可表示为

由式(5)、(6)定义的误差,根据梯度下降算法和链式法则,评价网络隐藏层到输出层的权值更新规则如下:

输入层到隐藏层的权值更新规则如下:

式中:lc∈(0,1],为评价网络学习率;ΔWc(k)为k时刻评价网络权值增量;Wc1(k)为k时刻评价网络输入层到隐藏层的权值;Wc2(k)为k时刻评价网络隐藏层到输出层的权值;Wc(k+1)为k+1时刻评价网络权值.

2.4 模型网络的训练

本文模型网络采用如图2所示的3层BP神经网络结构.将该模型网络输出与上文基于BP神经网络的密封舱土压预测模型式(9)输出之间产生的误差em(k+1),用于模型网络权值更新.

根据梯度下降算法和链式法则,通过最小化下式定义的模型网络误差实现权值更新:

其中p(k+1)为密封舱土压预测模型输出,p*(k+1)为模型网络输出.

同理,模型网络隐藏层到输出层的权值更新规则如下:

输入层到隐藏层的权值更新规则如下:

式中:lm∈(0,1],为模型网络学习率;ΔWm(k)为k时刻模型网络权值增量;Wm1(k)为k时刻模型网络输入层到隐藏层的权值;Wm2(k)为k时刻模型网络隐藏层到输出层的权值;Wm(k+1)为k+1时刻模型网络权值.

2.5 执行网络的训练

隐藏层节点个数的选择方法同2.1节,通过仿真验证,相较于其他节点个数,当隐藏层节点个数为8时,由执行网络优化获得的控制向量更加近似实际参数值.因此,本文执行网络采用1-8-4结构的3层BP神经网络.执行网络目标是最小化评价网络输出的密封舱土压优化控制代价函数,获得最优控制向量.执行网络利用反向传播的评价网络误差,实现其权值更新.执行网络的训练流程如图4所示,各信号流向如实线所示,反向传播路径如虚线所示.

图4 执行网络的训练流程Fig.4 Training process of action network

根据Bellman优化原理,k时刻的最优土压控制向量可表示为

根据式(7)、(8)定义的误差,同理,执行网络隐藏层到输出层的权值更新规则如下:

输入层到隐藏层的权值更新规则如下:

式中:la∈(0,1],为执行网络学习率;ΔWa(k)为k时刻执行网络权值增量;Wa1(k)为k时刻执行网络输入层到隐藏层的权值;Wa2(k)为k时刻执行网络隐藏层到输出层的权值;Wa(k+1)为k+1时刻执行网络权值.

2.6 HDP控制器训练策略

(1)初始各网络的权值,赋值各网络学习率和折扣因子,并设置最大迭代步数qmax.

(2)设定初始密封舱土压p(k).将其作为执行网络输入,输出控制向量u(k)=(n(k) v(k)F(k) T(k))T.

(3)将p(k)输入评价网络,输出密封舱土压优化控制代价函数J*(k);同时,将当前密封舱土压p(k)与控制向量u(k)输入模型网络,获得k+1时刻密封舱土压p*(k+1).

(4)求解效用函数U(k).

(5)将p*(k+1)作为评价网络输入,输出下一时刻密封舱土压优化控制代价函数J*(k+1).

(6)依据评价网络误差ec(k),更新网络权值,逼近密封舱土压优化控制代价函数.

(7)执行网络根据评价反馈的误差ea(k),实现权值更新,优化控制向量.

(8)判断迭代误差.在误差允许范围内,执行下一步;反之,返回(5),循环更新网络权值.

(9)判断迭代步数,若q≤qmax,更新状态和控制向量,返回(3);否则,训练结束.

3 仿真实验

3.1 预测模型训练及仿真

为建立密封舱土压预测模型,需要足够多的样本数据才能反映实际掘进过程.本文实验所用数据来源于北京某地铁施工现场的实测数据.密封舱土压数据通过4个安置于密封舱隔板的压力传感器获取,传感器分布如图5所示.本文以传感器1的压力数据为例进行仿真实验.

图5 密封舱隔板压力传感器分布Fig.5 Pressure sensor distribution of the seal bulkhead

本次实验仿真采集了800组实测数据,经过数据处理,剔除一部分异常数据后得到650组有效数据,用其中的550组作为训练样本,另外100组作为测试样本.通过Matlab对密封舱土压预测模型进行仿真.有无刀盘扭矩的密封舱土压预测模型仿真如图6所示;密封舱土压预测误差如图7所示;两种预测模型均方误差如表1所示.

图6 有无刀盘扭矩的密封舱土压预测模型仿真Fig.6 Simulation of soil pressure prediction model for sealed cabin with or without cutterhead torque

图7 密封舱土压预测误差Fig.7 Prediction error of soil pressure in sealed cabin

表1 预测模型均方误差Tab.1 Mean square error of prediction models

由表1可知,当刀盘扭矩作为模型控制量之一时,其均方误差更小,说明考虑刀盘扭矩的土压预测模型具有更好的预测精度.如图6、7所示,考虑刀盘扭矩的模型,其预测值与实测值整体拟合效果较好.由于地质条件或工况的不确定性,个别点拟合效果较差,但误差基本在±0.02MPa(10%)以内,满足工程要求.

3.2 HDP控制器仿真

根据本文HDP控制器设计部分,通过Matlab对提出的控制方法进行实验仿真.系统初始密封舱土压p(k)=0.18MPa;la、lc初始值为0.7;折扣因子γ=1.

密封舱土压优化控制代价函数轨迹如图8所示;密封舱土压优化轨迹如图9所示;相应的,刀盘扭矩、总推力、推进速度、螺旋输送机转速的优化轨迹如图10所示.

图8 密封舱土压优化控制代价函数轨迹Fig.8 Cost function trajectory of optimization control of soil pressure in sealed cabin

图9 密封舱土压优化轨迹Fig.9 Optimization trajectory of soil pressure in sealed cabin

图10 控制量优化轨迹Fig.10 Optimization trajectory of control variables

为了验证HDP控制器对密封舱土压优化效果,本文采用文献[3]中盾构土压平衡控制器进行仿真对比,其密封舱土压控制轨迹如图11所示.

图11 盾构土压平衡控制器土压控制轨迹Fig.11 Soil pressure control trajectory of controller of soil pressure balance of shield

通过对土压优化和控制轨迹图9、11对比,可以看出,相较于文献[3]中设计的控制器,HDP控制器对密封舱土压优化调节时间更短,超调更小,优化控制过程更加稳定.文献[3]盾构土压平衡控制器仅可对螺旋输送机转速单变量控制,而HDP控制器可实现对刀盘扭矩、总推力、推进速度、螺旋输送机转速多变量同步协调控制.对4个控制量的调整过程及相应密封舱土压变化趋势,符合实际盾构施工时控制参数变化情况.

为了验证HDP控制器抗干扰能力,在迭代70步时加入干扰.如图8所示,密封舱土压优化控制代价函数仍能快速收敛,说明HDP控制器对密封舱土压优化控制是有效的,具有较好的动态性能.如图9、10所示,加入干扰后密封舱土压很快达到稳定状态,4个控制量同样达到最优,说明HDP控制器具有较强的抗干扰能力.

4 结 语

本文基于BP神经网络将刀盘扭矩作为预测模型控制量之一,建立密封舱土压预测模型.与不考虑刀盘扭矩模型相比,考虑刀盘扭矩能够有效提高预测模型的预测精度.针对密封舱土压难以稳定控制的问题,在上述密封舱土压预测模型的基础上,本文提出基于HDP的密封舱土压优化控制方法.相较于单变量控制,该方法可实现对刀盘扭矩、总推力、推进速度、螺旋输送机转速的多变量控制;并且该方法收敛速度更快,稳定性较好,具有强抗干扰能力.基于HDP的密封舱土压控制器,能够满足密封舱土压的控制要求,达到稳定土压目的,为实现盾构掘进过程的优化控制提供了一种新途径.如何提高密封舱土压模型的预测精度并增强HDP控制器的鲁棒性及其跟踪效果是今后的研究重点.

猜你喜欢
密封舱土压权值
载人充气密封舱飞行试验方案研究
一种融合时间权值和用户行为序列的电影推荐模型
CONTENTS
基于权值动量的RBM加速学习算法研究
浅谈土压平衡盾构下穿密集建筑群施工技术
基于多维度特征权值动态更新的用户推荐模型研究
载人航天器密封舱内除湿研究
南昌地铁土压平衡盾构机刀具设计及改进
土压平衡盾构泡沫剂性能与改良效能评价
土压平衡盾构施工引起公路地表沉降分析