教育部“新世纪优秀人才支持计划”(NCET-11-0626)
- 作品数:9 被引量:26H指数:3
- 相关作者:唐昊周雷江琦谭琦程文娟更多>>
- 相关机构:合肥工业大学更多>>
- 发文基金:教育部“新世纪优秀人才支持计划”国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术电气工程理学电子电信更多>>
- 服务率不确定的单站点传送带给料加工站系统鲁棒优化控制
- 2015年
- 研究了服务率不确定情况下的单站点传送带给料加工站(CSPS)系统的鲁棒优化控制问题。在仅知服务率区间的条件下,以CSPS系统的前视距离作为控制变量,将鲁棒优化控制问题建模成不确定参数的半马尔可夫决策过程(SMDP)的极大极小优化问题,在状态相关的情况下,给出全局优化算法进行鲁棒控制策略求解。首先,运用遗传算法求解固定策略下的最差性能值;其次,根据求解得到的最差性能值,运用模拟退火算法求解最优鲁棒控制策略。仿真结果表明,服务率不确定的CSPS系统的最优鲁棒性能代价与服务率固定为区间中值系统的最优性能代价相差不大,并且随着不确定区间的缩小,两者的差值越小,说明了全局优化算法的有效性。
- 黄浩唐昊周雷程文娟
- 关键词:半马尔可夫决策过程全局优化鲁棒控制策略
- 无线协作网络中的能量有效性中继选择算法被引量:1
- 2013年
- 研究了无线协作网络中的中继选择问题,允许中继具有缓存数据的能力,提出了一种带有buffer的能量有效性中继选择算法,以延长网络生命周期并提高系统吞吐量。该算法综合考虑链路信息,中继的队列状态以及节点的剩余能量信息,通过加权效用公式选择最优接收数据中继与最优发送数据中继。考虑源节点与中继节点间的功率分配,以降低因源节点到中继节点以及中继节点到目的节点间的信道速率不一致所引起的系统丢包率。仿真实验结果表明,该算法有效地延长了网络的生命周期,随着中继个数的增加网络吞吐量有明显的提高,考虑功率分配后,有效降低了系统丢包率。
- 苏红唐昊周雷江琦
- 关键词:中继选择网络吞吐量网络生命周期功率分配
- 多用户区域微网的能量优化调度
- 研究了实时电价机制下,含有多区域用户多储能装置微网的能量管理问题.考虑到微网内部的新能源发电系统出力具有随机性,因此根据新能源发电系统出力、实时电价、以及各区域用户需求的动态特性,建立微网用电经济性的优化目标函数,将多储...
- 吕凯唐昊李怡瑾苗刚中
- 关键词:微网优化控制
- 文献传递
- 基于SMDP的光柴储独立微网能量控制策略优化被引量:4
- 2016年
- 考虑含光伏发电装置、储能装置和柴油发电机组的独立微网系统,以提高微网长期运行经济性为目标,研究微网能量管理优化问题。首先对系统的随机动态特性进行建模,即针对光伏发电和负荷变化的随机特性,将微网系统的能量控制建模为半马尔可夫决策过程(SMDP);然后采用随机动态规划算法对最优策略进行求解,得到微网在不同的光伏发电功率、负荷需求、储能荷电状态等级和柴油发电机组运行数量下对柴油发电机组和储能装置的最优控制行动。仿真结果说明了所建随机模型的合理性和优化方法的有效性。
- 周康唐昊江琦吕凯蒋兰海
- 关键词:光伏发电储能半马尔可夫决策过程
- 一种基于多Agent强化学习的无线传感器网络多路径路由协议被引量:7
- 2016年
- 文章研究了无线传感器网络中存在的多条最短路径路由选择问题。将无线传感器网络看作多Agent系统,采用强化学习理论,提出了一种基于多Agent强化学习的无线传感器网络多路径路由协议MRLMPRP(Multi-agent Reinforcement Learning based Multiple-path Routing Protocol)。该协议综合考虑了所要发送数据的优先级、节点间的链路质量以及节点数据缓冲队列的拥堵情况,为不同优先级的数据选择出当前网络状况下最优的路径进行数据的传输。仿真结果表明了该协议在降低网络平均端—端延时、提升数据包成功投递率方面的有效性。
- 乔阳唐昊程文娟江琦马学森
- 关键词:无线传感器网络多路径路由协议多AGENT系统
- 服务率可变的单站点CSPS系统优化控制
- 研究一类服务率可变的单站点传送带给料生产加工站(Conveyor-Serviced Producvion Stavion,简称为CSPS)的优化控制问题。在实际生产中,服务率可变反映了生产中劳动强度的变化,也是调整系统生...
- 庆琪琛唐昊周雷江琦
- 关键词:半MARKOV决策过程
- 文献传递
- 两类品种工件混流的多站点CSPS系统优化控制被引量:2
- 2017年
- 研究一种两类品种工件混流的多站点传送带给料加工站系统的优化控制问题.系统中的站点如何协同工作完成工件加工任务,是提高系统生产率的重要课题.将前视距离作为各站点的决策变量,通过站点间的局部信息交互,提出一种品种均衡工作模式,并运用一种模型无关的串行反馈式多agent强化学习算法求解系统的最优策略.实验结果验证了该工作模式的合理性和算法的有效性,并分析了部分参数变化对系统性能的影响.
- 唐昊李博川王彬谭琦
- 关键词:多AGENT强化学习
- 基于连续时间半马尔可夫决策过程的Option算法被引量:2
- 2014年
- 针对大规模或复杂的随机动态规划系统,可利用其分层结构特点或引入分层控制方式,借助分层强化学习(Hierarchical Reinforcement Learning,HRL)来解决其"维数灾"和"建模难"问题.HRL归属于样本数据驱动优化方法,通过空间/时间抽象机制,可有效加速策略学习过程.其中,Option方法可将系统目标任务分解成多个子目标任务来学习和执行,层次化结构清晰,是具有代表性的HRL方法之一.传统的Option算法主要是建立在离散时间半马尔可夫决策过程(Semi-Markov Decision Processes,SMDP)和折扣性能准则基础上,无法直接用于解决连续时间无穷任务问题.因此本文在连续时间SMDP框架及其性能势理论下,结合现有的Option算法思想,运用连续时间SMDP的相关学习公式,建立一种适用于平均或折扣性能准则的连续时间统一Option分层强化学习模型,并给出相应的在线学习优化算法.最后通过机器人垃圾收集系统为仿真实例,说明了这种HRL算法在解决连续时间无穷任务优化控制问题方面的有效性,同时也说明其与连续时间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快的优势.
- 唐昊张晓艳韩江洪周雷
- 关键词:分层强化学习Q学习
- 可变服务率模式下基于需求驱动的传送带给料加工站系统的优化控制被引量:2
- 2015年
- 本文主要研究可变服务率模式下基于需求驱动的传送带给料加工站(CSPS)系统的优化控制问题,主要目标是对系统的随机优化控制问题进行建模和提供解决方案.论文以缓冲库和成品库剩余容量为联合状态,以站点前视距离和工件服务率为控制变量,将其最优控制问题描述为半马尔科夫决策过程(SMDP)模型.该模型为利用策略迭代等方法求解系统在平均准则或折扣准则下的最优控制策略提供了理论基础,特别地,据此可引入基于模拟退火思想的Q学习算法等优化方法来寻求近似解,以克服理论求解过程中的维数灾和建模难等困难.仿真结果说明了本文建立的数学模型及给出的优化方法的有效性.
- 唐昊许玲玲周雷谭琦
- 关键词:Q学习
- 面向多品种部件的单站点CSPS系统优化控制模型
- 主要研究了一类多个品种工件到达的单站点传送带给料加工站(CSPS)的优化控制问题。该系统中,不同品种工件按照独立泊松过程随机到达并独立存放在相应品种的缓冲库中,各品种工件的加工时间服从不同参数的Erlang分布。本文采用...
- 周旸旻唐昊周雷李博川
- 关键词:半MARKOV决策过程
- 文献传递