一种基于最速下降法的无模型自适应控制

2018-05-18 05:32佃松宜
电光与控制 2018年5期
关键词:适应控制惩罚导数

吉 蕊, 佃松宜, 苏 敏

(四川大学电气信息学院,成都 610065)

0 引言

建立被控系统的模型是现代控制理论的基础,随着受控对象越来越复杂,建立其精确的模型非常困难,即使建立了系统模型,模型往往也经过诸多简化,基于此建立的控制器,在实际应用中常会出现问题,而且,模型越复杂,控制器的设计就越复杂,实现越困难[1-2]。文献[1-2]提出的无模型自适应控制(Model-Free Adaptive Control,MFAC)是一种基于数据驱动的先进智能控制方法,它在被控系统附近用一系列动态线性时变模型来代替一般非线性系统,不需要被控对象的任何知识,仅基于被控系统产生的输入输出信息设计控制器,与模型、结构、系统阶数无关,且能实现系统的自适应控制,并确保其闭环稳定,从本质上消除了未建模动态对系统的影响[3-5]。无模型自适应控制算法具有广泛的适用性,计算量小,鲁棒性强,很好地处理了非线性时变系统在实际应用中的各类控制问题,在工程应用中有广阔的前景,且已经在自动泊车、电力电网、化工、风力发电等领域取得了良好的控制效果[6-9]。

近年来,国内外许多研究学者对无模型控制算法进行了改进,文献[8]提出了一种新的伪偏导数(Pseudo-Partial Derivative,PPD)参数估计方法;文献[10]考虑到被控系统内部的信息未被充分利用的问题,提出一种无模型动态矩阵算法,将动态矩阵控制算法的预测模型与伪梯度向量结合,得到系统的动态模型,进而推导出控制律;文献[11]针对无模型自适应算法的干扰作用问题,分析了可测扰动对性能的影响,提出了一种带有滤波作用的改进方法并进行了鲁棒性证明,有效解决了对可测扰动的抑制问题;文献[12]考虑执行器输入受限时的情况,对系统输入准则函数引入了约束条件,用Hildreth方法求解数值,解决了执行器的执行能力存在上限的问题。在以上研究中,在控制律和伪偏导数估计算法中都采用了试凑法或固定常数法选取惩罚因子。在无模型自适应算法中,惩罚因子一般选取为大于零的常数,其值对控制系统收敛速度、超调量以及整体系统的自适应性能等影响都很大。

为使收敛速度更快、超调量更小、自适应控制性能更优,本文提出了一种可分别对控制律和伪偏导数估计算法中的惩罚因子自适应寻优的改进算法,并对其稳定性进行证明,进一步地,通过对非线性系统的仿真验证表明了该算法对收敛速度的提升作用和对抗扰性的增强作用。

1 原型MFAC算法

考虑如下的SISO离散非线性系统

y(k+1)=f(y(k),…,y(k-ny),u(k),…,u(k-nu))

(1)

式中:y(k)∈R,u(k)∈R分别表示系统在k时刻的输出和输入;f()∶Rnu+ny+2∈R为未知的非线性函数;nu,ny为未知的正整数。

为了得到系统的控制方案,对系统(1)作如下的假设。

假设1函数f()关于系统的控制输入u(k)的偏导数是连续的。

假设2系统式(1)满足广义Lipschitz条件,即对任意的时刻k1≠k2,k1,k2≥0时,当u(k1)≠u(k2)有

|Δy(k+1)|≤b|Δu(k)|

(2)

式中:Δy(k+1)=y(k+1)-y(k);b>0是一个常数;Δu(k)=u(k)-u(k-1)。

引理1[1-3]若非线性系统式(1)满足假设1、假设2,则当Δu(k)≠0时,一定存在一个称为PPD(Pseudo-Partial Derivative)的伪偏导数φ(k),使得非线性系统的泛模型成立,即

y(k+1)=y(k)+φ(k)Δu(k)

(3)

式中,|φ(k)|≤b。

考虑如下的准则函数

J(u(k))=(y*(k+1)-y(k+1))2+
λ(u(k)-u(k-1))2

(4)

式中:y*(k+1)为系统期望跟踪信号;λ为惩罚因子。

将式(3)泛模型代入准则函数式(4)中,并对u(k)求导,可得控制律算式为

(5)

式中:ρ为运算步长;φ(k)是未知的,需要对其进行在线辨识。

对伪偏导数进行估计,采用投影估计算法,从消除稳态偏差和保证系统稳定的角度出发,采用与控制策略成对称相似结构的控制输入目标函数

(6)

(7)

式中,η∈(0,1],为步长序列。

(8)

2 改进的MFAC算法

惩罚因子主要有2个作用:1) 对控制输入量和伪偏导数输入量的变化加以限制,影响系统响应的速度和超调量,同时减少系统稳态误差,保证控制输入信号的平滑性;2) 防止出现式(5)、式(7)中分母为零的奇异状况。选取合适的λ,μ值可以保证系统的稳定性,且在闭环系统响应速度和超调量之间得到最佳的平衡值,现有的方法对λ和μ的选取主要依靠经验,没有一种自动整定到最优的方法。本文中,对惩罚因子提出一种在线迭代自适应的改进方法,利用最优化中的最速下降法的思想,迭代寻找能使控制律和伪偏导数达到最优的惩罚因子值。

2.1 对控制律中的惩罚因子改进

对式(5)中的惩罚因子作如下离散迭代的改进

λ(k+1)=λ(k)-α1▽J(u(k))

(9)

式中,α1为学习速率。

为使控制率达到最优,其对控制律的梯度为

(10)

将式(9)改写为

λ(k+1)=λ(k)-α1A1B1

(11)

式中:

A1=2((φ(k)2+λ(k))Δu(k)-
(y*(k+1)-y(k))φ(k));

(12)

(13)

2.2 对伪偏导数式中的惩罚因子改进

对式(7)中的惩罚因子作如下离散迭代的改进

μ(k+1)=μ(k)-α2▽J(u(k))

(14)

式中,α2为学习速率。

同样,此改进的目的是获得控制器的最优解,其梯度为

(15)

将式(15)改写为

μ(k+1)=μ(k)-α2A2B2C2

(16)

式中:

A2=2((φ(k)2+λ(k))Δu(k)-
(y*(k+1)-y(k))φ(k));

(17)

(18)

(19)

由此得到伪偏导数估计算式为

(20)

进而,得到控制律

(21)

3 稳定性分析

为了对改进算法的闭环稳定性进行分析,做如下假设。

假设3对某个给定的有界期望输出信号y*(k+1),总存在一个有界的u*(k),使系统输入该信号时,输出等于y*(k+1)。

假设4对任意时刻k及Δu(k)≠0,系统伪偏导数的符号保持不变,即满足φ(k)>b1>0或φ(k)<-b1,其中,b1是一个小正数。

定理1对于非线性系统式(7),在满足假设1~4的情形下,当y*(k+1)=const时,使用式(21)、式(22)、式(30),总存在一个常数λmin>0,使得当λ>λmin时有:1) 系统输出跟踪误差单调有界收敛;2) 闭环系统BIBO (Bounded Input Bounded Output)稳定,即输出序列{y(k)}和输入序列{u(k)}是有界的。

证明:

(22)

将Δy(k)=φ(k-1)Δu(k-1)代入式(22)中,并在两边取绝对值,则

(23)

因为μ(k)>0且η∈(0,1),所以

ηΔu2(k-1)<Δu2(k-1)<μ(k)+Δu2(k-1)

(24)

(25)

因而

(26)

记 1-δ=d1,2b=c,则

(27)

Step 2 证明e(k)有界。

定义系统跟踪误差为

e(k+1)=y*(k+1)-y(k+1)

(28)

将式(3)、式(21)代入式(28)中,两边取绝对值,可得

(29)

同理可知0<λ(k)

(30)

又根据式(30),0<ρ≤1和λ>λmin,则一定存在一个常数d2<1,使得

(31)

结合式(29)、式(31),有

(32)

故e(k)有界收敛。定理1的第1)点得证。

Step 3 证明y(k),u(k)有界。

(33)

(34)

证得输入序列{u(k)}有界。定理1的第2)点得证。

4 仿真研究

考虑如下非线性系统

(35)

期望输出信号为

(36)

扰动信号为

a(k)=1+round(k/200)

(37)

b(k)=1+round(k/500)

(38)

d(k)=0.2。

(39)

将常规的无模型自适应算法(MFAC)和改进的无模型自适应算法(IMFAC)分别应用其中,利用Matlab进行仿真比对并分析。

图1 输出曲线比对图Fig.1 Comparison of output curves

为了对比两种算法的总体控制性能,分别计算其性能评价指标时间绝对误差积分(ITAE),计算式为

(40)

图2 输入曲线比对图Fig.2 Comparison of input curves

图3 误差曲线比对图Fig.3 Comparison of error curves

2种算法性能指标比较如表1所示。

表1 2种算法性能指标比较

由图1可以明显地看出,IMFAC方法在跟踪参考信号时具有更快的收敛速度,但超调量有所增加,同时,在受到干扰情况下,IMFAC方法能更快地达到稳定。由图3和表1可见,IMFAC方法相比MFAC方法,误差明显减小,性能指标明显增大,综合而言,IMFAC方法具有更优的控制性能。

5 总结

本文提出了一种改进的无模型自适应控制算法,通过对其控制律与伪偏导数估计式中的惩罚因子进行迭代优化控制,简化了原有方法中对惩罚因子试凑寻优的过程,提高了参数寻优能力,对其闭环稳定性进行了严格的证明,并对改进前后的算法进行了比对。仿真结果表明,改进后的方法收敛速度更快,抗扰性更强,控制性能更优,有效提高了系统的控制效果。另一方面,在线的求解增加运算的复杂度,而如何降低复杂度,减少运算量,改变其为离线求解,或离线和在线共同求解,或加入新的算法进行改进,将是下一步的研究重点。

参 考 文 献

[1] 侯忠生.非线性系统参数辨识、自适应控制和无模型学习自适应控制[D].沈阳:东北大学,1994.

[2] 侯忠生,金尚泰.无模型自适应控制:理论与应用 [M].北京:科学出版社,2013.

[3] 侯忠生.无模型自适应控制的现状与展望[J].控制理论与应用,2006,23(4):586-592.

[4] HOU Z S,JIN S T.Model free adaptive control:theory and applications [J].Brain Research,2013,281(2):202-205.

[5] ZHU Y M,HOU Z S.Controller dynamic linearisation-based model-free adaptive control framework for a class of non-linear system[J].IET Control Theory & Applications,2015,9(7):1162-1172.

[6] 侯忠生,董航瑞,金尚泰.基于坐标补偿的自动泊车系统无模型自适应控制[J].自动化学报,2015,41(4):823-831.

[7] 赵艺,陆超,韩英铎.多输入多输出无模型自适应广域阻尼控制器设计[J].清华大学学报:自然科学版,2013(4):453-458.

[8] XU D Z,JIANG B,SHI P.A novel model-free adaptive control design for multivariable industrial processes[J].IEEE Transactions on Industrial Electronics,2014,61(11):6391-6398.

[9] 鲁效平,李伟,林勇刚.基于无模型自适应控制器的风力发电机载荷控制[J].农业机械学报,2011,42(2):109-114,262.

[10] 侯立刚,徐利军,苏成利,等.基于紧格式线性化的无模型动态矩阵控制[J].控制工程,2013,20(2):246-249.

[11] 卜旭辉,侯忠生,金尚泰.扰动抑制无模型自适应控制的鲁棒性分析[J].控制理论与应用,2011,28(3):358-362.

[12] 程志强,朱纪洪,袁夏明.考虑执行器饱和的改进无模型自适应控制[J].自动化学报,2016,42(8):1158-1165.

[13] 刘颖超,张纪元.梯度下降法[J].华东工学院学报,1993(2):12-16.

猜你喜欢
适应控制惩罚导数
解导数题的几种构造妙招
神的惩罚
Jokes笑话
采用自适应控制的STATCOM-SEIG系统Matlab仿真
惩罚
关于导数解法
导数在圆锥曲线中的应用
考虑执行器饱和的改进无模型自适应控制
基于 L1自适应控制的无人机横侧向控制
真正的惩罚等