您的位置: 专家智库 > 作者详情>魏海军

魏海军

作品数:2 被引量:2H指数:1
供职机构:中南大学信息科学与工程学院更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇智能体
  • 2篇智能体系统
  • 2篇多智能
  • 2篇多智能体
  • 2篇多智能体系
  • 2篇多智能体系统
  • 2篇高斯
  • 1篇维数
  • 1篇维数灾
  • 1篇维数灾难
  • 1篇多智能体强化...

机构

  • 2篇中南大学

作者

  • 2篇魏海军
  • 1篇曹卫华
  • 1篇吴敏
  • 1篇陈鑫

传媒

  • 1篇自动化学报

年份

  • 2篇2013
2 条 记 录,以下是 1-2
排序方式:
基于高斯回归的连续空间多智能体跟踪学习被引量:2
2013年
提高适应性、实现连续空间的泛化、降低维度是实现多智能体强化学习(Multi-agent reinforcement learning,MARL)在连续系统中应用的几个关键.针对上述需求,本文提出连续多智能体系统(Multi-agent systems,MAS)环境下基于模型的智能体跟踪式学习机制和算法(MAS MBRL-CPT).以学习智能体适应同伴策略为出发点,通过定义个体期望即时回报,将智能体对同伴策略的观测融入环境交互效果中,并运用随机逼近实现个体期望即时回报的在线学习.定义降维的Q函数,在降低学习空间维度的同时,建立MAS环境下智能体跟踪式学习的Markov决策过程(Markov decision process,MDP).在运用高斯回归建立状态转移概率模型的基础上,实现泛化样本集Q值函数的在线动态规划求解.基于离散样本集Q函数运用高斯回归建立值函数和策略的泛化模型.MAS MBRL-CPT在连续空间Multi-cart-pole控制系统的仿真实验表明,算法能够使学习智能体在系统动力学模型和同伴策略未知的条件下,实现适应性协作策略的学习,具有学习效率高、泛化能力强等特点.
陈鑫魏海军吴敏曹卫华
关键词:多智能体系统
基于高斯回归的连续空间多智能体强化学习算法研究
本文以多智能体系统为研究对象,研究应用强化学习智能获取多智能体系统的行为策略,其中关键问题主要包括空间泛化与学习降维两个方面。最初,强化学习理论及其相关定义是以离散环境为基础展开讨论的,而实际应用环境的内在连续性大大地限...
魏海军
关键词:多智能体系统维数灾难
共1页<1>
聚类工具0