您的位置: 专家智库 > >

国家自然科学基金(60404009)

作品数:17 被引量:204H指数:5
相关作者:唐昊周雷韩江洪程文娟吴玉华更多>>
相关机构:合肥工业大学教育部安徽财经大学更多>>
发文基金:国家自然科学基金安徽省自然科学基金安徽高校省级自然科学研究基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 17篇期刊文章
  • 7篇会议论文

领域

  • 24篇自动化与计算...

主题

  • 9篇性能势
  • 4篇遗传算法
  • 4篇神经元动态规...
  • 4篇网络
  • 4篇马尔可夫决策...
  • 4篇Q学习
  • 4篇SMDP
  • 4篇MDP
  • 3篇以太
  • 3篇以太网
  • 3篇鲁棒
  • 3篇马尔可夫
  • 3篇控制器
  • 3篇半MARKO...
  • 3篇MARKOV...
  • 2篇带宽
  • 2篇多AGENT
  • 2篇学习算法
  • 2篇网络系统
  • 2篇鲁棒控制

机构

  • 24篇合肥工业大学
  • 1篇安徽财经大学
  • 1篇教育部

作者

  • 15篇唐昊
  • 12篇周雷
  • 7篇韩江洪
  • 5篇王跃飞
  • 4篇程文娟
  • 3篇吴玉华
  • 3篇毕翔
  • 2篇魏振春
  • 2篇程燕
  • 2篇李豹
  • 2篇陈栋
  • 2篇丁丽洁
  • 1篇袁继彬
  • 1篇陆阳
  • 1篇李正荣
  • 1篇周森鑫
  • 1篇郑淑丽
  • 1篇吴慧
  • 1篇于筑国
  • 1篇刘春

传媒

  • 6篇系统仿真学报
  • 3篇合肥工业大学...
  • 2篇控制理论与应...
  • 2篇计算机应用研...
  • 2篇吉林大学学报...
  • 1篇华南理工大学...
  • 1篇控制与决策
  • 1篇2005年“...
  • 1篇2007系统...
  • 1篇第二十六届中...

年份

  • 1篇2010
  • 2篇2009
  • 4篇2008
  • 6篇2007
  • 6篇2006
  • 5篇2005
17 条 记 录,以下是 1-10
排序方式:
CSPS模型基于Q学习的Look-Ahead控制
探讨基于 Look-Ahead 控制的传送带服务生产加工站(Conveyor-Serviced Production Station,CSPS)的优化控制问题。通过建模为半 Markov 决策过程(SMDP),基于性能势...
吴慧唐昊周雷
关键词:LOOK-AHEADQ学习
文献传递
半Markov决策过程的数值迭代优化被引量:4
2006年
针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。
唐昊吴玉华周雷
关键词:计算机应用半MARKOV决策过程
SMDP基于性能势的M步向前策略迭代被引量:1
2006年
运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。
吴玉华唐昊周雷
关键词:计算机应用半MARKOV决策过程性能势
离散事件控制系统规则化描述方法的研究被引量:19
2005年
离散事件控制系统(DECS)是离散事件系统(DES)在控制领域的一个应用类别,具有并发性、多值性、时序性和需求易变等特点。文章分析了现有的各类逻辑层DES建模方法在DECS建模和分析方面存在的缺陷,在此基础上,运用专家系统中的规则表达方法和递阶DECS简约技术,从逻辑层角度,建立了一套规范、简洁、贴近自然语言和易于理解的DECS规则化描述方法。
韩江洪郑淑丽陆阳魏振春于筑国
关键词:离散事件系统
搬运系统作业分配问题的小脑模型关节控制器Q学习算法被引量:4
2009年
研究两机器人高速搬运系统的作业分配问题.在系统的Markov决策过程(MDP)模型中,状态变量具有连续取值和离散取值的混杂性,状态空间复杂且存在"维数灾"问题,传统的数值优化难以进行.根据小脑模型关节控制器(CMAC)具有收敛速度快和适应性强的特点,运用该结构作为Q值函数的逼近器,并与Q学习和性能势概念相结合,给出了一种适用于平均或折扣性能准则的CMAC-Q学习优化算法.仿真结果说明,这种神经元动态规划方法比常规的Q学习算法具有节省存储空间,优化精度高和优化速度快的优势.
唐昊丁丽洁程文娟周雷
关键词:MARKOV决策过程Q学习CMAC
基于OSGi的多Agent家庭网络系统的研究
从家庭网络目前发展中存在的问题出发,将Agent技术引入到家庭网络的研究中,建立了多Agent家庭网络系统的三层混合式体系结构。讨论了中间件技术,分析了利用中间件实现多Agent家庭网络系统的技术优势,在此基础上提出了家...
王跃飞韩江洪张利张建军毕翔
关键词:家庭网络AGENT多AGENTOSGI
文献传递
平均和折扣准则MDP基于TD(0)学习的统一NDP方法被引量:12
2006年
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.
唐昊周雷袁继彬
关键词:MARKOV决策过程性能势神经元动态规划
网络速率控制的博弈模型被引量:3
2007年
传统的网络速率控制方案需要端系统用户合作以达到最优的网络性能.但是,当存在不合作端系统用户时,这些方案不可避免地会出现拥塞崩溃.为此,提出了一种非合作博弈网络速率控制框架,该方案基于非合作博弈论的Nash解的思想,博弈的各用户支付网络使用费并选择愿付价格以最大化自己的净收益.文中还设计了一种网络带宽定价机制,驱使自私用户流向社会最优解操作,并证明了该速率控制博弈可达惟一的Nash均衡点且带宽分配是有效与公平的.
钟伯成韩江洪
关键词:博弈论NASH均衡网络速率控制带宽分配
基于对等SAP的Q学习在机器人作业分配中的应用
基于强化学习,文章讨论了高速搬运系统中多个机器人的作业分配问题。针对状态空间随机器人个数增加呈指数增大这一难题,提出对等状态-行动对(State-Action Pair)概念,设计了一种改进的Q学习算法。在该算法中,每次...
丁丽洁唐昊周雷
关键词:Q学习
文献传递
多链MDP的鲁棒控制策略求解
2008年
马尔可夫决策过程(MDP)的许多优化算法一般依赖系统的转移速率,而系统参数的不确定性使得MDP的转移速率往往很难精确得知。针对一类不确定多链MDP模型,基于性能势对参数不相关和相关两种情况下的鲁棒控制问题进行了探讨,并分别给出求解系统最优鲁棒性能的策略迭代和并行遗传算法。最后,通过一个数值例子分析相关算法的有效性。
周雷唐昊程燕
关键词:性能势鲁棒控制并行遗传算法
共3页<123>
聚类工具0