您的位置: 专家智库 > >

文献类型

  • 1篇中文专利

主题

  • 1篇学习算法
  • 1篇制导
  • 1篇制导方法
  • 1篇强化学习算法
  • 1篇最大熵
  • 1篇向量
  • 1篇向量组
  • 1篇决策过程

机构

  • 1篇南开大学

作者

  • 1篇董飞
  • 1篇张晓宇

年份

  • 1篇2024
2 条 记 录,以下是 1-1
排序方式:
基于最大熵强化学习算法的模型训练方法及规划制导方法
本发明提供一种基于最大熵强化学习算法的模型训练方法及规划制导方法,包括:构建动作评论模型,动作评论模型包括行动网络模块和评论网络模块;动作评论模型根据状态向量得到决策过程向量组,状态向量为从预设环境中得到的;根据决策过程...
张晓宇王晨飞刘烨坤董飞
共1页<1>
聚类工具0