公共文化服务平台

2024年7月29日星期一

|

欢迎来到贵州省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

周如益: 作品数：4 被引量：42H指数：2; 供职机构：南京大学更多>>; 发文基金：国家自然科学基金国家杰出青年科学基金更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

高阳南京大学计算机科学与技术系计算...
王皓南京大学
葛屾南京大学计算机科学与技术系计算...

作品列表
供职机构
相关作者
所获基金
研究领域

文献类型

3篇期刊文章
1篇学位论文

领域

4篇自动化与计算...

主题

2篇学习算法
2篇性能势
1篇迭代
1篇算法语言
1篇平均奖赏
1篇强化学习算法
1篇马尔可夫
1篇马尔可夫决策...
1篇半马尔可夫决...

机构

4篇南京大学

作者

4篇周如益
3篇高阳
1篇葛屾
1篇王皓

传媒

1篇计算机学报
1篇广西师范大学...
1篇计算机科学

年份

3篇2007
1篇2006

共 4 条记录，以下是 1-4

全选清除导出

排序方式：

平均奖赏强化学习算法研究被引量：40: 2007年; 顺序决策问题常用马尔可夫决策过程(MDP)建模.当决策行为执行从时刻点扩展到连续时间上时,经典的马尔可夫决策过程模型也扩展到半马尔可夫决策过程模型(SMDP).当系统参数未知时,强化学习技术被用来学习最优策略.文中基于性能势理论,证明了平均奖赏强化学习的逼近定理.通过逼近相对参考状态的性能势值函数,研究一个新的平均奖赏强化学习算法——G-学习算法.G-学习算法既可以用于MDP,也可以用于SMDP.不同于经典的R-学习算法,G-学习算法采用相对参考状态的性能势值函数替代相对平均奖赏和的相对值函数.在顾客访问控制和生产库存仿真实验中,G-学习算法表现出优于R-学习算法和SMART算法的性能.; 高阳周如益王皓曹志新; 关键词：性能势马尔可夫决策过程半马尔可夫决策过程

应用机器学习于Chi平方密写分析的研究被引量：1: 2007年; 回顾当前的密写和密写分析技术,并将机器学习方法应用到经典的χ2密写分析上。给出了方法的框架并进行了实验,然后对实验结果进行分析和比较,得出了应用机器学习方法的χ2密写分析优于简单χ2密写分析的结论从而肯定了机器学习方法的有效性。最后指出了在密写分析技术中进一步应用机器学习方法的方向。; 葛屾高阳周如益

平均奖赏强化学习研究: 强化学习是一种以环境反馈作为输入的，特殊的、适应环境的机器学习方法．agent在与环境交互中通过“试—错”的方式对不同状态下各动作的期望反馈进行学习，以最优化长期收益。按照长期收益定义方式，强化学习分为有限无折扣强化学习...; 周如益; 关键词：学习算法算法语言

一种基于性能势的无折扣强化学习算法被引量：2: 2006年; 传统基于性能势的学习算法能获得马尔可夫决策问题的最优策略。这些算法主要采用单路径采样的方法,使得学习算法效率不高。将性能势与强化学习相结合,提出了一种基于性能势的无折扣值迭代学习算法——G学习,并将其与经典的无折扣强化学习算法(R学习)相比较,获得了较好的实验结果。; 周如益高阳; 关键词：性能势

全选清除导出

共1页<1>

执行隐藏清空

网站首页| 关于我们| 联系我们| 产品服务| 客服中心| 版权声明

版权所有©2014－2015 Chongqing VIP Information., Ltd., 客户热线：400-638-5550

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张