
2025《CJA》亮点文章永隆配资
本文针对宽域飞行的吸气式高超飞行器研究了一种基于强化学习的智能辅助容错控制方法。为应对控制舵面效率下降/卡死、模型参数摄动等故障干扰,提出一种“增量模型在线快速辨识—强化学习辅助控制”的智能容错控制框架,并构建由飞行器本体、基础控制器和指令模型组成的强化学习环境线性时变增量模型,根据实时辨识数据在线更新神经网络参数,优化辅助控制策略。相比于单纯的使用强化学习控制方法,该控制系统保障了较优的稳定性、平稳性可评估性,数值仿真表明该方法可有效实现故障干扰下的高度/姿态平稳跟踪,为吸气式高超飞行器智能容错控制提供一种新的方案。
论文标题:Reinforcement learning based intelligent fault-tolerant assistance control for air-breathing hypersonic vehicles
论文作者:Yi DENG (邓毅), Liguo SUN*(孙立国*), Yonghao PAN (潘永豪), Jiayi YAN (燕佳艺), Yuanji LIU (刘元吉)
作者单位:北京航空航天大学
出版信息:Chinese Journal of Aeronautics, 2025, https://doi.org/10.1016/j.cja.2025.103708
识别以下二维码下载论文全文
01 研究背景
飞行速度超过5马赫的吸气式高超声速飞行器(AHV)凭借高空高速、大航程、全球快速响应等核心优势,在军事和民用领域均具有重要战略意义和广阔发展前景。作为一类典型的强非线性、强耦合、强不确定性被控对象,设计安全可靠的容错控制系统是AHV顺利完成飞行任务的重要前提。尤其在高动压、高热流的恶劣飞行环境下,AHV容易遭遇舵面效率下降/卡死、气动/构型参数摄动等多类突发故障干扰,如果不能及时识别应对,不仅飞行性能会严重退化,甚至可能引发解体坠毁。目前,非线性动态逆、反步控制、动态面控制、滑模控制、模糊逻辑控制、神经网络智能控制等方法已陆续应用于AHV控制律设计中。近年来,基于贝尔曼最优性原理的强化学习方法能够提供近似最优的控制策略并避免“维数灾难”,成为智能应对突发故障干扰,保障飞行安全的一种潜在可行方案。
在强化学习中,智能体(即控制器)通过与环境(即被控对象)的“试错”交互,基于实时奖励调整自身策略以最大化累积回报。在工程实践上,将强化学习引入AHV容错控制系统设计面临诸多挑战:一方面,AHV缺乏充足试飞与风洞实验数据,难以构建准确的训练模型,若直接采用强化学习输出全量控制指令,训练成功率低,安全性不足;而现有机载控制器在正常工况下有可靠性能保证,需要充分加以利用。另一方面,突发舵面故障或气动/构型参数摄动会改变AHV本体动态特性,导致智能体交互的强化学习环境在实际应用中持续变化且难以预测,大量耗时的离线训练难以覆盖全部故障干扰,面对未预料突发情况的控制策略未必可行。综上,如何在现有机载控制器基础上引入强化学习方法,提升AHV控制系统对突发故障和干扰的容错性能,值得进一步深入探究。
02 研究亮点
考虑吸气式高超飞行器任务环境复杂多变、离线训练难以覆盖全部故障干扰等工程实际因素,提出了一种“增量模型在线快速辨识—强化学习辅助控制”的智能容错控制框架,实现机载基础控制器与强化学习智能方法的有效融合。在辅助控制框架下,构建由飞行器本体、基础控制器和指令模型组成的强化学习环境线性时变增量模型,并采用改进递推最小二乘法(RLS)实时快速辨识故障干扰引起的模型变化。最后,基于增量型双启发式动态规划方法(IDHP)设计强化学习辅助控制器,利用在线辨识结果更新网络参数,调整辅助控制策略,达到故障干扰下期望的容错控制性能。
03 研究成果
1)智能辅助容错控制框架与强化学习环境的线性增量(闭环)模型表征永隆配资
论文提出了一种“增量模型在线快速辨识—强化学习辅助控制”的AHV智能容错控制框架(图1)。其中,基础控制器全天候执勤,由强化学习方法设计的辅助控制器(智能体)根据增量模型在线辨识结果,实时优化神经网络参数,产生与基础控制器并联的辅助控制信号,持续提升整个控制系统的跟踪性能和面对突发故障、干扰的容错能力。
图1 采用强化学习辅助控制器的AHV智能容错控制框图
控制舵面故障或气动/构型参数摄动会改变AHV本体动态特性,进而造成智能体交互的强化学习环境持续变化。论文在辅助控制场景下,建立由飞行器本体、基础控制器和指令模型构成的强化学习环境的线性时变增量模型表征,降低在线辨识计算负担和实施困难;最后融合得到闭环增广系统误差动态的时变系数矩阵,为智能体策略更新提供有效信息。
2)基于IDHP方法的强化学习智能辅助容错控制律设计
为应对突发故障和参数摄动造成的强化学习环境动态变化,论文采用IDHP方法设计强化学习智能辅助容错控制律。智能体根据增量模型在线辨识结果,实时更新行动器和评判器的神经网络参数,以最小化累积跟踪误差为优化目标,动态调整控制策略并输出辅助控制指令,其结构框图如图2所示。同时引入开-关准则和投影修正机制改进RLS辨识算法,有效抑制激励不足或噪声导致的参数估计偏差,提升在线辨识精度和稳定性,保障强化学习成功率。
图2 基于IDHP方法的智能辅助容错控制结构框图
3)高度/姿态跟踪任务中面对典型故障干扰的容错性能综合仿真验证(与几种经典非线性方法对比)
分别在内环迎角跟踪任务和外环高度跟踪任务中检验所设计强化学习智能辅助控制器的效果。在内环迎角跟踪任务中,先后开展了升降舵效率下降(图3)、升降舵卡死(图4)、气动/构型参数变化(图5)等多种故障干扰下的数值仿真验证。图3对比了三种容错控制器在第20 s舵效下降故障后的跟踪性能,强化学习智能辅助的控制系统能够更快地恢复对迎角指令的精确跟踪(图3(a)-(b)),增量模型在线辨识结果(图3(d))能够实时反映故障引起的模型变化,驱动智能体更新神经网络权重,产生合理辅助控制指令(图3(c))。
图3 三种典型的容错控制器在舵效下降故障的迎角跟踪性能对比
图4 舵面卡死故障的容错控制效果
图5 气动/构型参数变化的容错控制效果
将带强化学习辅助的内环姿态控制子系统与外环轨迹控制子系统结合,检验高度跟踪任务下的控制效果(图6)。在故障发生前,智能体产生较小的强化学习辅助指令以提升瞬态过程跟踪精度;在第20 s舵效下降故障后,随着增量模型辨识结果变化,强化学习辅助指令迅速增大以应对故障,恢复对内环迎角指令和外环高度指令的有效跟踪。
图6 高度跟踪任务中升降舵故障的容错控制效果
团队及作者介绍
>>团队介绍
北京航空航天大学飞行力学与人机一体化智能控制研究室(屈香菊教授,谭文倩副教授,孙立国副教授,王维军副教授,王衍洋助理教授,郁嘉助理教授等)隶属于航空科学与工程学院飞行力学与控制系,主要从事飞行器复杂非线性多体动力学建模、故障容错智能飞行控制、先进制导与轨迹优化方法、人机系统建模与飞行品质评估研究。
>>作者介绍
孙立国(通信作者),北京航空航天大学副教授,博士生导师,主讲本科《自动控制原理》、《飞行器飞行控制》和研究生《先进飞行控制》等多门核心课程,出版《控制原理教程:航空宇航工程类》教材一部。主要研究领域为故障容错智能飞行控制、飞行器人机混合决策与控制、高超声速飞行器跨速域飞发一体化建模/控制/轨迹优化、舰载有人/无人机编队智能协同控制,主持基础加强、自然基金、航空基金等项目20余项,在《CJA》《航空学报》《AIAA JGCD》《AST》等国内外重要学术期刊发表论文30余篇,兼任《Drones》期刊客座编委、《飞行力学》和《飞机设计》编委。
邓毅(第一作者),北京航空航天大学自动化科学与电气工程学院博士研究生,本科和硕士阶段就读于北京航空航天大学航空科学与工程学院,目前主要研究方向为航天器抗干扰控制理论与应用、飞行器容错控制。
潘永豪,北京航空航天大学航空科学与工程学院研究生,主要研究方向为飞行器大迎角机动控制、空战决策理论与方法。
燕佳艺,北京航空航天大学航空科学与工程学院研究生,主要研究方向为无尾布局飞机非线性控制器设计及评估、飞机复杂动力学建模。
刘元吉,北京航空航天大学航空科学与工程学院博士研究生,主要研究方向为飞机非线性控制器设计及验证、智能容错飞行控制方法。
供稿:孙立国
编辑:李丹,许雅婷
审核:蔡斐,滕雄
恒正网配资提示:文章来自网络,不代表本站观点。