您的位置: 专家智库 > >

王学宁

作品数:7 被引量:35H指数:4
供职机构:国防科学技术大学机电工程与自动化学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇期刊文章
  • 2篇学位论文

领域

  • 7篇自动化与计算...

主题

  • 2篇机器人
  • 2篇计算机
  • 1篇动力模型
  • 1篇学习算法
  • 1篇移动机器人
  • 1篇越野
  • 1篇越野环境
  • 1篇智能机器人
  • 1篇视觉
  • 1篇强化学习算法
  • 1篇装甲
  • 1篇装甲车
  • 1篇装甲车辆
  • 1篇误差分析
  • 1篇系统设计
  • 1篇先验
  • 1篇先验知识
  • 1篇力模型
  • 1篇码盘
  • 1篇计算机生成

机构

  • 7篇国防科学技术...

作者

  • 7篇王学宁
  • 4篇贺汉根
  • 4篇徐昕
  • 2篇吴涛
  • 2篇陈伟
  • 1篇唐修俊
  • 1篇舒利忠

传媒

  • 1篇计算机学报
  • 1篇系统仿真学报
  • 1篇控制与决策
  • 1篇广东自动化与...
  • 1篇智能系统学报

年份

  • 2篇2007
  • 1篇2006
  • 1篇2005
  • 1篇2004
  • 2篇2002
7 条 记 录,以下是 1-7
排序方式:
高性能无人驾驶压路机系统设计被引量:1
2002年
本文首先论述了国家“863”智能机器人主体支持下的项目——“高性能无人驾驶压路机”系统的设计和实现,在此基础之上,讨论了无人驾驶压路机中的串口通信。
王学宁唐修俊舒利忠
关键词:智能机器人计算机
策略梯度强化学习中的最优回报基线被引量:6
2005年
尽管策略梯度强化学习算法有较好的收敛性,但是在梯度估计的过程中方差过大,却是该方法在理论和应用上的一个主要弱点.为减小梯度强化学习算法的方差,该文提出一种新的算法———Istate Grbp算法:在策略梯度算法Istate GPOMDP中加入回报基线,以改进策略梯度算法的学习性能.文中证明了在Istate GPOMDP算法中引入回报基线,不会改变梯度估计的期望值,并且给出了使方差最小的最优回报基线.实验结果表明,和已有算法相比,该文提出的算法通过减小梯度估计的方差,提高了学习效率,加快了学习过程的收敛.
王学宁徐昕吴涛贺汉根
视觉量角计修正定位算法及其误差分析
2007年
针对移动机器人在室外环境中的定位提出了一种基于视觉量角计的定位算法。首先简单介绍一种使用码盘和惯导的定位方法,并且描述了视觉量角计的主要思想,然后给出了定位算法,并且对它进行了误差分析以确保该算法的可行性。同时在本实验室自主开发的机器人上进行了验证,从而从理论和实验两方面确保了本算法的可靠、有效。
陈伟王学宁吴涛徐昕贺汉根
关键词:移动机器人码盘
增强学习中的直接策略搜索方法综述被引量:8
2007年
对增强学习中各种策略搜索算法进行了简单介绍,建立了策略梯度方法的理论框架,并且根据这个理论框架的指导,对一些现有的策略梯度算法进行了推广,讨论了近年来出现的提高策略梯度算法收敛速度的几种方法,对于非策略梯度搜索算法的最新进展进行了介绍,对进一步研究工作的方向进行了展望.
王学宁陈伟张锰徐昕贺汉根
越野环境中坦克动力学建模研究
坦克的机动性仿真的研究是建立虚拟战场环境的基础任务之一。本文在详细分析坦克直线行驶力学和转向行驶力学的基础之上,立足于虚拟环境这个应用背景,建立了坦克的机动性仿真模型,并进行了动态仿真。 在分析坦克的运动学过程中...
王学宁
关键词:装甲车辆动力模型计算机生成兵力
文献传递
策略梯度增强学习的理论、算法及应用研究
增强学习(Reinforcement Learning)又称为强化学习或再励学习,是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增强学习不需要给定输入状态下的期望输出,而强调在与环境的交互中进行学习,以极...
王学宁
关键词:MARKOV决策过程先验知识
文献传递
求解部分可观测马氏决策过程的强化学习算法被引量:5
2004年
针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.
王学宁贺汉根徐昕
共1页<1>
聚类工具0