本发明涉及倒立摆控制,尤其涉及一种滑动自平衡偏置倒立摆的最优控制方法及系统。
背景技术:
1、自20世纪60年代开始,倒立摆的稳定问题一直是工程师和科研人员关注的焦点。由于倒立摆具有高阶次、非线性、多变量和不稳定性等特点,因此经常被用来验证各种控制算法的性能。在控制系统领域的现有文献中,存在大量关于倒立摆系统控制方案的研究和应用案例。随着研究的进展,解决倒立摆平衡问题和鲁棒性问题的控制方法及相关效果验证成为了当前研究的焦点。但是现有的研究中大多数倒立摆系统都未考虑具有外部扰动以及系统模型未知的情况。在实际中,倒立摆系统参数通常是不精确的甚至是未知的,同时也很容易受到外部干扰,对倒立摆控制带来了很大困难。
技术实现思路
1、为了解决上述技术问题,本发明的目的是提供一种滑动自平衡偏置倒立摆的最优控制方法及系统,能够在系统模型未知的情况下通过收集的系统状态求解出最优控制策略。
2、本发明所采用的第一技术方案是:一种滑动自平衡偏置倒立摆的最优控制方法,包括以下步骤:
3、构建滑动自平衡偏置倒立摆数学模型;
4、基于积分滑模控制设计滑动自平衡偏置倒立摆控制器;
5、基于神经网络对滑动自平衡偏置倒立摆数学模型进行逼近,得到抑制外部扰动的积分滑模控制律;
6、将抑制外部扰动的积分滑模控制律输入到滑动自平衡偏置倒立摆数学模型中,并基于强化学习算法求解最优反馈增益;
7、联合最优反馈增益和抑制外部扰动的积分滑模控制律得到控制器的复合控制律。
8、进一步,所述构建滑动自平衡偏置倒立摆数学模型这一步骤,其具体包括:
9、基于牛顿第二定律和拉格朗日方程得到滑动自平衡偏置倒立摆的运动方程;
10、在运动方程的平衡点出进行泰勒级数展开,得到线性化近似状态空间;
11、在线性化近似状态空间中添加外部扰动,得到滑动自平衡偏置倒立摆数学模型。
12、通过该优选步骤,将外部扰动添加到滑动自平衡偏置倒立摆数学模型中,使其能够考虑到外部扰动的情况。
13、进一步,所述基于积分滑模控制设计滑动自平衡偏置倒立摆控制器这一步骤,其具体包括:
14、设计积分滑动变量并求导,得到等价控制率;
15、基于等价控制率进行抑制外部扰动的积分滑模控制律设计;
16、基于稳定平衡点的控制策略和抑制外部扰动的积分滑模控制律构建滑动自平衡偏置倒立摆控制器。
17、通过该优选步骤,使得抑制外部扰动的积分滑模控制律能够准确的抑制住外部扰动。
18、进一步,所述基于神经网络对滑动自平衡偏置倒立摆数学模型进行逼近,得到抑制外部扰动的积分滑模控制律这一步骤,其具体包括:
19、基于权重更新率估计权重误差;
20、基于权重误差选择激活函数向量逼近滑动自平衡偏置倒立摆数学模型的参数;
21、基于滑动自平衡偏置倒立摆数学模型的参数求出抑制外部扰动的积分滑模控制律。
22、通过该优选步骤,使得滑动自平衡偏置倒立摆的控制不再依赖系统模型,便能够求出抑制外部扰动的积分滑模控制律。
23、进一步,所述将抑制外部扰动的积分滑模控制律输入到滑动自平衡偏置倒立摆数学模型中,并基于强化学习算法求解最优反馈增益这一步骤,其具体包括:
24、将抑制外部扰动的积分滑模控制律输入到滑动自平衡偏置倒立摆数学模型中,得到滑动模态动力学表示;
25、基于黎卡提方程求解滑动模态动力学表示的性能指标最小化第一参数;
26、基于性能指标最小化第一参数确定最优反馈增益矩阵表达式;
27、基于哈密顿量构建强化学习函数;
28、输入行为策略进行数据采集,得到线性方程;
29、基于线性方程的唯一解对最优反馈增益矩阵表达式进行求解,得到最优反馈增益。
30、通过该优选步骤,重复利用所收集的数据对最优反馈增益进行求解,提高了计算效率。
31、进一步,所述滑动自平衡偏置倒立摆数学模型,其表达式如下:
32、
33、其中,表示滑动自平衡偏置倒立摆数学模型,x(t)∈rn表示n维的系统状态向量,u(t)∈rm表示控制输入,fu(t)表示有界的外部扰动,a表示系统矩阵,b表示控制输入矩阵。
34、进一步,所述滑动自平衡偏置倒立摆控制器,其表达式如下:
35、u=u0 uc
36、uc=-ρsgn(s)
37、
38、其中,u表示滑动自平衡偏置倒立摆控制器,u0表示使原点成为标称动力学渐进稳定平衡点的控制策略,uc表示抑制外部扰动的积分滑模控制律,ρ>fu表示与外部扰动的上界相关的增益,s表示积分滑动变量。
39、进一步,所述滑动自平衡偏置倒立摆数学模型的参数,其表达式如下:
40、
41、
42、其中,分别表示理想神经网络权重,σa(·)、σb(·)表示理想的有界激活函数向量,l表示隐藏神经元的数量,εa(·)、εb(·)表示有界重构误差。
43、本发明所采用的第二技术方案是:一种滑动自平衡偏置倒立摆的最优控制系统,包括:
44、模型构建模块,用于构建滑动自平衡偏置倒立摆数学模型;
45、控制器设计模块,基于积分滑模控制设计滑动自平衡偏置倒立摆控制器;
46、分滑模控制律求解模块,基于神经网络对滑动自平衡偏置倒立摆数学模型进行逼近,得到抑制外部扰动的积分滑模控制律;
47、增益求解模块,用于将抑制外部扰动的积分滑模控制律输入到滑动自平衡偏置倒立摆数学模型中,并基于强化学习算法求解最优反馈增益;
48、控制律联合模块,用于联合最优反馈增益和抑制外部扰动的积分滑模控制律得到控制器的复合控制律。
49、本发明方法、系统的有益效果是:本发明考虑了滑动自平衡偏置倒立摆受到外部干扰,且系统参数不精确甚至是系统模型未知的情况,通过积分滑模控制设计滑动自平衡偏置倒立摆控制器,将神经网络引入积分滑模控制技术中,并结合强化学习算法,求解抑制外部扰动的积分滑模控制律和最优反馈增益,实现在系统模型未知的情况下通过收集的系统状态求解出最优控制策略。
1.一种滑动自平衡偏置倒立摆的最优控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种滑动自平衡偏置倒立摆的最优控制方法,其特征在于,所述构建滑动自平衡偏置倒立摆数学模型这一步骤,其具体包括:
3.根据权利要求1所述一种滑动自平衡偏置倒立摆的最优控制方法,其特征在于,所述基于积分滑模控制设计滑动自平衡偏置倒立摆控制器这一步骤,其具体包括:
4.根据权利要求1所述一种滑动自平衡偏置倒立摆的最优控制方法,其特征在于,所述基于神经网络对滑动自平衡偏置倒立摆数学模型进行逼近,得到抑制外部扰动的积分滑模控制律这一步骤,其具体包括:
5.根据权利要求1所述一种滑动自平衡偏置倒立摆的最优控制方法,其特征在于,所述将抑制外部扰动的积分滑模控制律输入到滑动自平衡偏置倒立摆数学模型中,并基于强化学习算法求解最优反馈增益这一步骤,其具体包括:
6.根据权利要求1所述一种滑动自平衡偏置倒立摆的最优控制方法,其特征在于,所述滑动自平衡偏置倒立摆数学模型,其表达式如下:
7.根据权利要求1所述一种滑动自平衡偏置倒立摆的最优控制方法,其特征在于,所述滑动自平衡偏置倒立摆控制器,其表达式如下:
8.根据权利要求1所述一种滑动自平衡偏置倒立摆的最优控制方法,其特征在于,所述滑动自平衡偏置倒立摆数学模型的参数,其表达式如下:
9.一种滑动自平衡偏置倒立摆的最优控制系统,其特征在于,包括: