针对现有基于深度确定性策略梯度(deep deterministic policy gradient,DDPG)算法的再入制导方法计算精度较差,对强扰动条件适应性不足等问题,在DDPG算法训练框架的基础上,提出一种基于长短期记忆-DDPG(long short term memory-DDPG,LSTM-DDPG)的再入制导方法。该方法采用纵、侧向制导解耦设计思想,在纵向制导方面,首先针对再入制导问题构建强化学习所需的状态、动作空间;其次,确定决策点和制导周期内的指令计算策略,并设计考虑综合性能的奖励函数;然后,引入LSTM网络构建强化学习训练网络,进而通过在线更新策略提升算法的多任务适用性;侧向制导则采用基于横程误差的动态倾侧反转方法,获得倾侧角符号。以美国超音速通用飞行器(common aero vehicle-hypersonic,CAV-H)再入滑翔为例进行仿真,结果表明:与传统数值预测-校正方法相比,所提制导方法具有相当的终端精度和更高的计算效率优势;与现有基于DDPG算法的再入制导方法相比,所提制导方法具有相当的计算效率以及更高的终端精度和鲁棒性。
针对火箭基组合循环(Rocket Based Combined Cycle,RBCC)动力系统工作模态复杂、与飞行状态耦合程度高的特性,建立了一种适用于RBCC动力高超声速飞行器的动力段轨迹优化模型。同时,针对RBCC动力飞行器,基于凸优化理论建立了上升段轨迹优化设计框架和求解策略。在此基础上,进行了上升段末端机械能最大算例仿真。仿真结果表明,相关模型和轨迹优化方法具备良好的可行性,优化结果符合RBCC动力系统工作特点。论文提出的轨迹优化方法可有效处理复杂工作模态下RBCC助推飞行器上升段轨迹优化问题,为未来关于这一类轨迹设计与优化的工作提供了一些新的思路。