变体飞行器鲁棒深度强化学习制导控制一体化方法-k8凯发

文档序号:37023116发布日期:2024-02-09 13:17阅读:66来源:国知局
导航:> 最新专利>
变体飞行器鲁棒深度强化学习制导控制一体化方法

本发明实施例涉及控制,尤其涉及一种变体飞行器鲁棒深度强化学习制导控制一体化方法。


背景技术:

1、目前,变体飞行器作为一种含有大范围、大尺度变形机构的飞行器,可根据任务需要和环境变化自主改变气动外形,以保证飞行器在任意飞行阶段均具有优良的气动特性和飞行性能。综合来看,变体飞行器制导控制方法设计面临以下突出问题:1)建模困难:跨大空域、宽速域飞行的变体飞行器受到来自环境和自身变构引起的快时变、强耦合的模型不确定性和干扰的影响,难以建立精确的数学模型;2)制导控制耦合:在高速飞行过程中,飞行器制导与姿态控制两子系统间的状态交互影响和耦合作用十分明显,且变形的存在会同时改变制导回路与控制回路的运动参数,传统制导控制分离设计方案的效果较差;3)多任务多约束:飞行器为保证飞行安全、满足制导控制精度要求存在多种复杂的过程约束和终端约束,同时还需要满足高机动能力要求和多样化任务需求,变形机构的存在提升了飞行器的气动性能,但也为多约束、强耦合的制导控制问题求解增大了难度。此外,人工智能和机器学习等领域的快速发展给飞行器飞行控制带来了很多新的思路,近年来涌现出大量基于学习的智能控制方法,其中结合深度强化学习的方法在处理上述难题时表现出巨大的优势。

2、可见,亟需一种能克服复杂环境、多约束、外界干扰和模型不确定性影响的快速、高精度、强鲁棒和强自主性的变体飞行器鲁棒深度强化学习制导控制一体化方法。


技术实现思路

1、有鉴于此,本发明实施例提供一种变体飞行器鲁棒深度强化学习制导控制一体化方法,至少部分解决现有技术中存在控制效率、精准度、鲁棒性和自主性较差的问题。

2、本发明实施例提供了一种变体飞行器鲁棒深度强化学习制导控制一体化方法,包括:

3、步骤1,建立飞行器纵向运动模型,并基于纵向运动模型和纵向航程控制建立制导方程,得到飞行器制导控制一体化模型及其对应的制导控制一体化问题描述;

4、步骤2,基于有限时间滑模控制理论和td3算法框架,设计滑模控制算法与td3算法联合的鲁棒深度强化学习方法,建立飞行器制导控制一体化问题的深度强化学习模型;

5、所述步骤2具体包括:

6、步骤2.1,构建以td3算法为基础的深度强化学习算法框架,所述深度强化学习算法框架包括构建6个深度神经网络和网络的训练及更新,6个深度神经网络包括:1个策略网络用于逼近最优策略,2个价值网络用于估计动作价值函数,3个网络各自对应一个目标网络,在更新价值网络的动作价值函数时,选择两个价值网络中较小的一组动作价值函数值为时间差分目标,并进行延迟网络更新操作和目标策略平滑操作;

7、步骤2.2,设计一个马尔科夫决策过程,据此建立变体飞行器制导控制一体化问题的深度强化学习模型;

8、步骤3,基于鲁棒深度强化学习方法和深度强化学习模型,离线训练鲁棒制导控制智能体;

9、步骤4,将鲁棒制导控制智能体在线部署,使其在线输出控制指令,实现观测量到控制量的端到端飞行控制。

10、根据本发明实施例的一种具体实现方式,所述飞行器纵向运动模型的表达式为

11、;

12、其中,为地心距,分别为飞行器质量和速度,分别为经度和纬度,是引力加速度矢量,分别为航迹倾角和航迹偏角,为攻角,为俯仰角速率,为飞行器绕体轴转动惯量,分别为总阻力和总升力,为俯仰通道的合力矩;

13、所述制导方程即为航迹倾角期望指令的计算公式,其根据飞行器在滑翔段的准平衡滑翔飞行条件和纵向航程控制得到,航迹倾角期望指令的表达式为

14、;

15、其中,为纵向待飞航程,是由球面几何确定的飞行器与终点之间的圆弧角度;分别为终端目标点的经度和纬度,为飞行器终端目标点地心距;

16、所述飞行器制导控制一体化模型的表达式为

17、;

18、其中,

19、;

20、;

21、其中,为各通道总扰动,为升力系数,为俯仰舵偏角,为大气密度,为参考面积,为平均气动弦长,为气动参数矩阵,为折叠翼变形机构的折叠角;

22、所述飞行器制导控制一体化问题包括:根据飞行任务,即从某一初始位置按照准平衡滑翔条件飞行至由经纬高坐标唯一确定的终端目标点,设计控制量使航迹倾角快速、准确地跟踪实时计算的期望航迹倾角指令,从而使飞行器精确到达终端目标点。

23、根据本发明实施例的一种具体实现方式,所述步骤2.2具体包括:

24、步骤2.2.1,基于状态分级和数据增强策略改进传统深度强化学习算法的状态空间形式,对飞行器可观测状态量进行分级,其具体形式如下:

25、;

26、其中,为飞行器可观测状态量,,分别为策略网络和价值网络的状态空间,为航迹倾角跟踪误差,为飞行器当前位置与目标点的相对距离,,为初始待飞航程,为待设计的滑模变量,基于有限时间滑模控制理论设计滑模变量实现对状态量输入信息的数据增强,所设计滑模变量的具体形式如下:

27、;

28、其中,均为正常数,均为正整数且均为奇数,且满足,sgn为符号函数,基于的特殊收敛形式,当时,可在有限时间内收敛至原点邻域,且满足:

29、;

30、由此,将航迹倾角的航迹跟踪控制问题转化为使的深度强化学习求解问题;

31、步骤2.2.2,将飞行器俯仰舵偏角作为动作空间,利用策略网络实现数据增强后的特征状态变量到控制量的映射;

32、步骤2.2.3,设计面向变体飞行器纵向制导控制一体化设计的混合奖励函数,其由航迹倾角跟踪误差连续奖励函数、滑模变量连续奖励函数、相对距离连续奖励函数、高度连续奖励函数、航迹倾角变化率连续奖励函数、攻角约束稀疏奖励函数、攻角变化率约束稀疏奖励函数、过载约束稀疏奖励函数和位置误差终端奖励函数加权组合得到,其中所述航迹倾角跟踪误差连续奖励函数表示为,

33、所述滑模变量连续奖励函数表示为,

34、所述相对距离连续奖励函数表示为,

35、所述高度连续奖励函数表示为,

36、所述航迹倾角变化率连续奖励函数可表示为,

37、所述攻角约束稀疏奖励函数可表示为,

38、所述攻角变化率约束稀疏奖励函数可表示为,

39、所述过载约束稀疏奖励函数可表示为,

40、所述位置误差终端奖励函数可表示为,

41、其中,为初始地心距,和分别为攻角边界约束,为攻角变化率约束,为过载约束,为终端误差边界;

42、将面向变体飞行器纵向制导控制一体化设计的混合奖励函数的形式表示为,其中为待设计正常数;

43、步骤2.2.4,设计深度强化学习算法的神经网络结构,所述策略网络和价值网络均由包含2个隐藏层的全连接神经网络实现,每个隐藏层都由256个神经元组成,并使用relu作为激活函数,其中策略网络输入层的1个神经元对应一维状态量,智能体的一维动作由输出层的1个神经元给出,激活函数为tanh,价值网络五维状态量与一维动作拼接后经过两个隐藏层,最终输出动作价值函数值,激活函数为linear。

44、根据本发明实施例的一种具体实现方式,所述步骤3具体包括:

45、步骤3.1,初始化价值网络1、价值网络2、策略网络,初始化对应网络的参数、、;

46、步骤3.2,初始化目标网络,复制价值网络和策略网络参数,,;

47、步骤3.3,初始化容量为的记忆缓存单元;

48、步骤3.4,设置最大回合数,在每个回合中执行预设的更新操作;

49、步骤3.5,直到达到最大回合数,结束本次训练,得到训练好的鲁棒制导控制智能体。

50、根据本发明实施例的一种具体实现方式,所述步骤3.4具体包括:

51、步骤3.4.1,设置每回合最大限定步数;

52、步骤3.4.2,根据当前状态,选取动作,其中噪声服从均值为0,标准差为的正态分布,即,得到新状态、相应的奖励值;

53、步骤3.4.3,将记忆样本存入记忆缓存单元;

54、步骤3.4.4,随机从记忆缓存单元中取出个样本进行参数更新;

55、步骤3.4.5,在目标策略的输出动作中加入噪声,其中噪声服从均值为0,标准差为的正态分布,即;

56、步骤3.4.6,计算时间差分目标;

57、步骤3.4.7,计算价值网络的损失函数

58、;

59、步骤3.4.8,更新价值网络参数和:,其中,为折扣因子,、和分别为策略网络和价值网络的学习率,表示策略更新的时间步,为软更新率;

60、步骤3.4.9,每隔j轮更新一次策略网络和3个目标网络的参数;

61、步骤3.4.10,直到步数达到最大限定步数,结束本回合。

62、根据本发明实施例的一种具体实现方式,所述步骤3.4.9具体包括:

63、步骤3.4.9.1,计算策略网络的损失函数:

64、;

65、步骤3.4.9.2,对策略网络参数,按照下式进行更新:

66、;

67、步骤3.4.9.3,更新目标网络参数,和:

68、。

69、根据本发明实施例的一种具体实现方式,所述步骤3.4.1之前,所述方法还包括:

70、在每回合训练初始时刻,在一个确定随机域中选取飞行器的初始状态量,在另一确定随机域中选择参数不确定项的和干扰项的拉偏量。

71、根据本发明实施例的一种具体实现方式,所述步骤4具体包括:

72、将训练得到的鲁棒制导控制智能体进行在线部署,然后将状态输入通过鲁棒制导控制智能体策略网络的前向传播得到动作,即俯仰舵偏角,实现对航迹倾角期望指令的精确跟踪,完成变体飞行器滑翔段纵向位置姿态一体化控制。

73、本发明实施例中的变体飞行器鲁棒深度强化学习制导控制一体化方案,包括:步骤1,建立飞行器纵向运动模型,并基于纵向运动模型和纵向航程控制建立制导方程,得到飞行器制导控制一体化模型及其对应的制导控制一体化问题描述;步骤2,基于有限时间滑模控制理论和td3算法框架,设计滑模控制算法与td3算法联合的鲁棒深度强化学习方法,建立飞行器制导控制一体化问题的深度强化学习模型;步骤3,基于鲁棒深度强化学习方法和深度强化学习模型,离线训练鲁棒制导控制智能体;步骤4,将鲁棒制导控制智能体在线部署,使其在线输出控制指令,实现观测量到控制量的端到端飞行控制。

74、本发明实施例的有益效果为:1)基于深度强化学习理论将变体飞行器制导控制一体化问题转化为强化学习优化问题,采用所提出的鲁棒深度强化学习方法来训练强化学习制导控制智能体,生成从观测量到行为映射的端到端确定性策略,所提出方法不仅不依赖于飞行器精确数学模型,且能适应变形及环境引入的模型不确定性和干扰,实现了良好的制导控制性能;

75、2)基于有限时间滑模控制理论和td3算法框架,设计了滑模控制算法与 td3算法联合的鲁棒深度强化学习方法,有效提升了强化学习方法的鲁棒性和抗干扰能力;

76、3)采用数据增强和域随机化的手段改进了传统深度强化学习的马尔科夫决策过程建模和智能体训练,有效提升了深度强化学习方法应对未知不确定环境的适应能力和泛化能力。通过本发明的方案,提高了控制效率、精准度、鲁棒性和自主性。

当前第1页1  
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
网站地图