公共文化服务平台

2024年7月6日星期六

|

欢迎来到贵州省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

国家自然科学基金(60404009): 作品数：17 被引量：204H指数：5; 相关作者：唐昊周雷韩江洪程文娟吴玉华更多>>; 相关机构：合肥工业大学教育部安徽财经大学更多>>; 发文基金：国家自然科学基金安徽省自然科学基金安徽高校省级自然科学研究基金更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

17篇期刊文章
7篇会议论文

领域

24篇自动化与计算...

主题

9篇性能势
4篇遗传算法
4篇神经元动态规...
4篇网络
4篇马尔可夫决策...
4篇Q学习
4篇SMDP
4篇MDP
3篇以太
3篇以太网
3篇鲁棒
3篇马尔可夫
3篇控制器
3篇半MARKO...
3篇MARKOV...
2篇带宽
2篇多AGENT
2篇学习算法
2篇网络系统
2篇鲁棒控制

机构

24篇合肥工业大学
1篇安徽财经大学
1篇教育部

作者

15篇唐昊
12篇周雷
7篇韩江洪
5篇王跃飞
4篇程文娟
3篇吴玉华
3篇毕翔
2篇魏振春
2篇程燕
2篇李豹
2篇陈栋
2篇丁丽洁
1篇袁继彬
1篇陆阳
1篇李正荣
1篇周森鑫
1篇郑淑丽
1篇吴慧
1篇于筑国
1篇刘春

传媒

6篇系统仿真学报
3篇合肥工业大学...
2篇控制理论与应...
2篇计算机应用研...
2篇吉林大学学报...
1篇华南理工大学...
1篇控制与决策
1篇2005年“...
1篇2007系统...
1篇第二十六届中...

年份

1篇2010
2篇2009
4篇2008
6篇2007
6篇2006
5篇2005

共 17 条记录，以下是 1-10

全选清除导出

排序方式：

CSPS模型基于Q学习的Look-Ahead控制: 探讨基于 Look-Ahead 控制的传送带服务生产加工站（Conveyor-Serviced Production Station,CSPS）的优化控制问题。通过建模为半 Markov 决策过程（SMDP）,基于性能势...; 吴慧唐昊周雷; 关键词：LOOK-AHEAD Q学习; 文献传递

半Markov决策过程的数值迭代优化被引量：4: 2006年; 针对半Markov决策过程在紧致行动集上的数值迭代优化,提出了折扣和平均准则下直接基于等价无穷小生成子的统一的标准数值迭代算法,并证明了其收敛性。另外,讨论了两种性能准则下统一的异步数值迭代算法,包括Gauss-Seidel异步迭代和随机异步迭代,特别是基于样本轨道仿真的数值迭代等,并运用性能势思想对上述算法进行改进。结果表明,该算法可直接适用于连续时间Markov决策过程。最后通过一个数值例子来比较各种算法的特点。; 唐昊吴玉华周雷; 关键词：计算机应用半MARKOV决策过程

SMDP基于性能势的M步向前策略迭代被引量：1: 2006年; 运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的一种M步向前策略迭代算法。该算法不仅对标准策略迭代算法和一般的异步策略迭代算法都适用,而且对SMDP在折扣和平均准则下的优化也是统一的;另外给出了两种性能准则下基于即时差分学习的M步向前仿真策略迭代。最后通过一个数值算例比较了各种算法的特点。; 吴玉华唐昊周雷; 关键词：计算机应用半MARKOV决策过程性能势

离散事件控制系统规则化描述方法的研究被引量：19: 2005年; 离散事件控制系统(DECS)是离散事件系统(DES)在控制领域的一个应用类别,具有并发性、多值性、时序性和需求易变等特点。文章分析了现有的各类逻辑层DES建模方法在DECS建模和分析方面存在的缺陷,在此基础上,运用专家系统中的规则表达方法和递阶DECS简约技术,从逻辑层角度,建立了一套规范、简洁、贴近自然语言和易于理解的DECS规则化描述方法。; 韩江洪郑淑丽陆阳魏振春于筑国; 关键词：离散事件系统

搬运系统作业分配问题的小脑模型关节控制器Q学习算法被引量：4: 2009年; 研究两机器人高速搬运系统的作业分配问题.在系统的Markov决策过程(MDP)模型中,状态变量具有连续取值和离散取值的混杂性,状态空间复杂且存在"维数灾"问题,传统的数值优化难以进行.根据小脑模型关节控制器(CMAC)具有收敛速度快和适应性强的特点,运用该结构作为Q值函数的逼近器,并与Q学习和性能势概念相结合,给出了一种适用于平均或折扣性能准则的CMAC-Q学习优化算法.仿真结果说明,这种神经元动态规划方法比常规的Q学习算法具有节省存储空间,优化精度高和优化速度快的优势.; 唐昊丁丽洁程文娟周雷; 关键词：MARKOV决策过程 Q学习 CMAC

基于OSGi的多Agent家庭网络系统的研究: 从家庭网络目前发展中存在的问题出发,将Agent技术引入到家庭网络的研究中,建立了多Agent家庭网络系统的三层混合式体系结构。讨论了中间件技术,分析了利用中间件实现多Agent家庭网络系统的技术优势,在此基础上提出了家...; 王跃飞韩江洪张利张建军毕翔; 关键词：家庭网络 AGENT 多AGENT OSGI; 文献传递

平均和折扣准则MDP基于TD(0)学习的统一NDP方法被引量：12: 2006年; 为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.; 唐昊周雷袁继彬; 关键词：MARKOV决策过程性能势神经元动态规划

网络速率控制的博弈模型被引量：3: 2007年; 传统的网络速率控制方案需要端系统用户合作以达到最优的网络性能.但是,当存在不合作端系统用户时,这些方案不可避免地会出现拥塞崩溃.为此,提出了一种非合作博弈网络速率控制框架,该方案基于非合作博弈论的Nash解的思想,博弈的各用户支付网络使用费并选择愿付价格以最大化自己的净收益.文中还设计了一种网络带宽定价机制,驱使自私用户流向社会最优解操作,并证明了该速率控制博弈可达惟一的Nash均衡点且带宽分配是有效与公平的.; 钟伯成韩江洪; 关键词：博弈论 NASH均衡网络速率控制带宽分配

基于对等SAP的Q学习在机器人作业分配中的应用: 基于强化学习,文章讨论了高速搬运系统中多个机器人的作业分配问题。针对状态空间随机器人个数增加呈指数增大这一难题,提出对等状态-行动对（State-Action Pair）概念,设计了一种改进的Q学习算法。在该算法中,每次...; 丁丽洁唐昊周雷; 关键词：Q学习; 文献传递

多链MDP的鲁棒控制策略求解: 2008年; 马尔可夫决策过程(MDP)的许多优化算法一般依赖系统的转移速率,而系统参数的不确定性使得MDP的转移速率往往很难精确得知。针对一类不确定多链MDP模型,基于性能势对参数不相关和相关两种情况下的鲁棒控制问题进行了探讨,并分别给出求解系统最优鲁棒性能的策略迭代和并行遗传算法。最后,通过一个数值例子分析相关算法的有效性。; 周雷唐昊程燕; 关键词：性能势鲁棒控制并行遗传算法

全选清除导出

共3页<1 2 3>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有©2014－2015 Chongqing VIP Information., Ltd., 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张