您的位置: 专家智库 > >

刘磊

作品数:8 被引量:14H指数:2
供职机构:河海大学理学院更多>>
发文基金:国家自然科学基金中国博士后科学基金江苏省博士后科研资助计划项目更多>>
相关领域:自动化与计算机技术理学电气工程更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 6篇自动化与计算...
  • 3篇理学
  • 1篇电气工程

主题

  • 3篇事件触发
  • 2篇一致性
  • 2篇异步
  • 2篇智能体
  • 2篇智能体系统
  • 2篇多智能
  • 2篇多智能体
  • 2篇多智能体系
  • 2篇多智能体系统
  • 1篇导航
  • 1篇导航系统
  • 1篇电机
  • 1篇移动机器人
  • 1篇异步风力发电
  • 1篇异步风力发电...
  • 1篇有界
  • 1篇有界性
  • 1篇噪声
  • 1篇值分布
  • 1篇输出层

机构

  • 8篇河海大学
  • 1篇东南大学
  • 1篇南京邮电大学
  • 1篇教育部

作者

  • 8篇刘磊
  • 1篇鞠平
  • 1篇秦川
  • 1篇吴峰

传媒

  • 3篇应用数学和力...
  • 2篇南通大学学报...
  • 1篇华中科技大学...
  • 1篇南京信息工程...
  • 1篇中国科学:技...

年份

  • 5篇2023
  • 1篇2022
  • 1篇2019
  • 1篇2013
8 条 记 录,以下是 1-8
排序方式:
基于值分布最大熵Actor-Critic算法的投资组合管理被引量:1
2023年
针对投资组合管理问题,提出一种基于值分布强化学习算法(VD-MEAC)的投资组合框架.首先,以投资组合收益最大化为目标建立强化学习框架,智能体的动作就是投资组合的权重变化;然后,选择股票因子做为智能体观察到的状态信息.在算法设计上通过新颖的技巧来平衡风险与收益:在控制风险方面,Critic网络学习未来收益的整个分布,并排除过度自信的决策信息从而避免过估计带来的风险;在提高收益方面,增加熵正则,鼓励投资者探索动作空间,避免过早陷入局部最优.在数值实验方面,选择真实的股票数据做为金融环境,多次进行测试以验证策略的稳定性.实验结果表明:VD-MEAC策略的收益均值为2.490,夏普比率均值为2.978,并且在收益率、最大回撤和夏普比率等指标上明显优于对照组(等权重,沪深300,DDPG,TD3,SAC),证明了该策略的有效性.
刘磊陈浩
关键词:投资组合管理
基于事件触发策略的多智能体系统的最优主-从一致性分析被引量:9
2019年
研究了具有领导者的线性多智能体系统的主-从一致性问题.借助各智能体间的通讯拓扑所构成的无向图,提出一种基于事件触发的自适应动态规划方法,并使用神经网络的逼近性质设计出了近似最优控制.利用Lyapunov稳定性定理,分析了多智能体误差系统的稳定性,并找到一个该误差系统最终有界的充分条件.数值仿真结果进一步验证了理论分析的有效性.
刘晨刘磊
关键词:多智能体系统事件触发自适应动态规划
控制器参数的可区分性分析及其在双馈风力发电系统的应用被引量:1
2013年
电力系统中许多控制器的参数众多,所提出的可区分性是指在参数的优化整定过程中,能否唯一确定某个参数,也即最优解的唯一性.由于在大多数情况下,无法获得优化目标与控制器参数之间的解析关系,这时要靠解析方法分析可区分性就非常困难.为此,提出一种基于轨迹灵敏度的可区分性数值分析方法,揭示了控制器参数的可区分性与轨迹灵敏度之间的内在联系.提出通过分析参数灵敏度的大小得到影响控制器性能的主导参数,通过分析灵敏度曲线的相位确定不可区分的控制器参数.以双馈异步风力发电机组控制器为背景进行应用研究,算例结果验证了上述方法的有效性.
秦川鞠平吴峰刘磊
关键词:轨迹灵敏度双馈异步风力发电机
基于actor-critic算法的分数阶多自主体系统最优主-从一致性控制被引量:4
2022年
研究了分数阶多自主体系统的最优主-从一致性问题.在考虑控制器周期间歇的前提下,将分数阶微分的一阶近似逼近式、事件触发机制和强化学习中的actor-critic算法有机整合,设计了基于周期间歇事件触发策略的强化学习算法结构.最后,通过数值仿真实验证明了该算法的可行性和有效性.
马丽新刘晨刘磊
关键词:事件触发
安全屏障机制下基于SAC算法的机器人导航系统
2023年
为了提高移动机器人自主导航系统的智能化水平和安全性,设计了安全屏障机制下基于SAC(Soft Actor-Critic)算法的自主导航系统,并构建了依赖于机器人与最近障碍物距离、目标点距离以及偏航角的回报函数.在Gazebo仿真平台中,搭建载有激光雷达的移动机器人以及周围环境.实验结果表明,安全屏障机制在一定程度上降低了机器人撞击障碍物的概率,提高了导航的成功率,并使得基于SAC算法的移动机器人自主导航系统具有更高的泛化能力.在更改起终点甚至将静态环境改为动态时,系统仍具有自主导航的能力.
马丽新刘磊刘晨
关键词:移动机器人激光雷达自主导航
基于输出层具有噪声的DQN的无人车路径规划
2023年
在DQN算法的框架下,研究了无人车路径规划问题.为提高探索效率,将处理连续状态的DQN算法加以变化地应用到离散状态,同时为平衡探索与利用,选择仅在DQN网络输出层添加噪声,并设计了渐进式奖励函数,最后在Gazebo仿真环境中进行实验.仿真结果表明:①该策略能快速规划出从初始点到目标点的无碰撞路线,与Q-learning算法、DQN算法和noisynet_DQN算法相比,该文提出的算法收敛速度更快;②该策略关于初始点、目标点、障碍物具有泛化能力,验证了其有效性与鲁棒性.
李杨闫冬梅刘磊
关键词:路径规划
基于间歇事件触发牵制控制的多智能体系统的有界性
2023年
针对具有扰动的多智能体系统难以在有限时间内收敛到有界范围内的问题,采用两种间歇事件触发牵制控制,探讨了多智能体系统的有限时间有界性。通过间歇事件触发牵制控制、Lyapunov方法以及不等式放缩技巧,建立了多智能体系统有限时间有界性的充分判据。最后,通过数值实验验证了所提方法的有效性。
朱润玉刘磊
关键词:多智能体系统牵制控制
基于注意力机制的A3C量化交易策略
2023年
针对传统交易策略无法有效长期消除市场噪声和非线性影响的问题,提出一种基于注意力机制的异步优势动作评价(squeeze-and-excitation asynchronous advantage actor-critic,SE-A3C)量化交易策略。以历史技术指标因子为环境状态,利用卷积网络和注意力机制模块提取数据特征,判断交易动作,并采用异步训练的方式将多智能体与环境进行交互,有效提升策略的自适应能力。采用该策略对沪深300和上证50股指期货进行交易,结果表明:在测试阶段,沪深300的收益率为12.23%,胜率为58.82%,最大回撤率为2.47%;上证50的收益率为18.82%,胜率为57.56%,最大回撤率为1.05%。
符甲鑫刘磊钱成
共1页<1>
聚类工具0