谢建平
- 作品数:5 被引量:27H指数:3
- 供职机构:长沙交通学院更多>>
- 发文基金:国家自然科学基金湖南省教育厅科研基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 激励学习的最优判据研究被引量:8
- 2001年
- 激励学习智能体通过最优策略的学习与规划来求解序贯决策问题 ,因此如何定义策略的最优判据是激励学习研究的核心问题之一。本文讨论了一系列来自动态规划的最优判据 ,通过实例检验了各种判据对激励学习的适用性和优缺点 。
- 陈焕文谢建平
- 关键词:智能体学习算法人工智能
- 一类值函数激励学习的遗忘算法被引量:20
- 2001年
- 大状态空间值函数的激励学习是当今国际激励学习领域的一个热点和难点问题 .将记忆心理学中有关遗忘的基本原理引入值函数的激励学习 ,形成了一类适合于值函数激励学习的遗忘算法 .首先简要介绍了解决马尔可夫决策问题的基本概念 ,比较了离策略和在策略激励学习算法的差别 ,概述了标准的 SARSA(λ)算法 .在分析了人类记忆和遗忘的一些特征后 ,提出了一个智能体遗忘准则 ,进而将 SARSA(λ)算法改进为具有遗忘功能的 Forget-SARSA(λ)算法 。
- 陈焕文谢丽娟谢建平
- 关键词:MARKOV决策过程值函数人工智能
- 函数联接神经网络的实验研究被引量:3
- 2000年
- 函数联接神经网络具有结构简单 ,易于实现 ,扩展性和通用性强等许多优点 .利用面向对象方法实现了函数联接神经网络的几种模型 ,探讨了该网络的变结构调整问题 ,并通过实际的例子对网络的不同模型进行了实验研究 。
- 陈焕文龚红舫谢建平
- 关键词:离线学习
- 一类基于有效跟踪的广义平均奖赏激励学习算法被引量:1
- 2002年
- 取消了平均奖赏激励学习的单链或互通MDPs假设,基于有效跟踪技术和折扣奖赏型SARSA(λ)算法,对传统的平均奖赏激励学习进行了推广,提出了一类广义平均奖赏激励学习算法,并对算法的性能进行了初步的比较实验。
- 陈焕文谢建平
- 关键词:MARKOV决策过程平均奖赏
- 一个因素化SARSA(λ)激励学习算法被引量:9
- 2001年
- 基于状态的因素化表达 ,提出了一个新的 SARSA(λ)激励学习算法 .其基本思想是根据状态的特征得出状态相似性启发式 ,再根据该启发式对状态空间进行聚类 ,大大减少了状态空间搜索与计算的复杂度 ,因此比较适用于求解大状态空间的 MDPs问题 .
- 陈焕文谢建平谢丽娟