公共文化服务平台

HUNTBot—第一人称射击游戏中NPC的结构设计被引量：2: 2008年; 游戏产业的发展迫切需要使用新的技术开发具有智能行为的NPC,Agent技术因其对人类智能的刻画及模拟不失为一种好的选择。同时,电脑游戏也因为其固有的复杂、实时、动态性而吸引了众多Agent研究者的目光。针对第一人称射击游戏——"虚幻竞技场(Unreal Tournament,UT)"设计了HUNTBot作为游戏中的非玩家角色NPC。这种Agent具有混合式结构,使Agent既能对变化的环境迅速做出反应,又能对目标进行实时规划,并具有社会性和学习能力。因此Agent能够适应动态、复杂、实时的游戏环境,使NPC的智能行为更加接近人类玩家。; 杨佩王皓罗文杰高阳; 关键词：第一人称射击游戏 AGENT结构多AGENT系统

强化学习中的迁移:方法和进展被引量：27: 2008年; 传统机器学习方法认为不同的学习任务彼此无关,但事实上不同的学习任务常常相互关联.迁移学习试图利用任务之间的联系,利用过去的学习经验加速对于新任务的学习.机器学习各分支都已展开了对迁移学习的研究.本文综述了强化学习的迁移技术,依据认知心理学的理论将现有技术分为行为迁移和知识迁移两大类,并介绍、分析了各自的特点,并提出了一些开放性的问题.; 王皓高阳陈兴国; 关键词：知识认知心理学泛化

一种基于启发式轮廓表的逻辑强化学习方法被引量：9: 2008年; 强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法——CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的.; 刘全高阳陈道蓄孙吉贵姚望舒; 关键词：维数灾谓词

一种结合Tile Coding的平均奖赏强化学习算法: 2008年; 平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准.; 王巍巍陈兴国高阳; 关键词：平均奖赏

FPS游戏中基于HTN的Anytime规划器的研究被引量：1: 2008年; 动态性和实时性电脑游戏世界的两个关键特征。Anytime规划是能够产生满足上述两个特征的行为的规划方法。分层任务网络(Hierarchical Task Network,HTN)是表示分层规划的一种形式,它非常适合于表达电脑游戏中非玩家角色(non-player char-acter,NPC)复杂的目标。以著名的第一人称射击(First-Person Shooter,FPS)游戏虚幻竞技场2004(Unreal Tournament 2004)作为游戏平台,为NPC设计实现了一个基于HTN规划的anytime规划器,并使用遗传算法调整规划目标的优先级。该规划器可以根据环境变化随时中断规划并给出可用的规划结果,同时具有一定的适应性。实验表明它能够使NPC的行为更智能。; 罗文杰杨佩王皓高阳; 关键词：第一人称射击游戏非玩家角色

一种大域数据流中缺失值的填充方法被引量：4: 2011年; 在网络流量监控等数据流应用场景中,数据流中的IP地址等属性的值域往往很大,对于连续到达的数据流,管理系统一般不存储全体数据集,而是维护一个较小规模的数据概要.对于这类大域数据流中的缺失数据,难以采用邻近值填充等传统方法进行填充,也不能轻易删除.最小计数概要是一种轻量级的数据流概要,适合大域数据流的概要维护.本文基于最小计数概要及其维护技术,提出最小频率概要,并根据这两种概要填充大域数据流中的缺失数据.该填充方法首先设计一组两两独立的Hash函数族,将一段时间内大域数据流的属性值(如网络流量)映射并累加到非大域二维表数据结构中,形成大域数据流的计数概要(如一段时间内网络总流量),与此同时,在二维表中存储计数概要伴随的频率概要(即数据流到达次数,如数据包的个数),然后根据最小计数概要与最小频率概要之比对大域数据流的缺失值(如某个数据包的流量)进行填充.采用模拟大域数据集在通用软硬件环境下进行大量实验,结果表明,基于最小计数/频率概要的填充方法可获得较高的精度,而且填充误差随数据属性值定义域的变化呈非单调性变化,另外,随着数据量的增加,填充误差虽然越来越大,但是变化越来越缓慢,最终趋于一个稳定值.对于给定误差参数ε,本文设计的填充算法时空界限为1/ε,部分应用的时间界限为1.; 赵飞刘奇志张剡柏文阳; 关键词：不确定性缺失值填充

一种逻辑强化学习的tableau推理方法被引量：4: 2008年; tableau方法是一种具有较强的通用性和适用性的推理方法,但由于函数符号、等词等的限制,使得自动推理具有不确定性.针对tableau推理中封闭集合构造过程具有盲目性的问题,提出将强化学习用于tableau自动推理的方法.该方法将tableau推理过程中的逻辑公式与强化学习相结合,产生抽象的状态和活动.这样一方面可以通过学习方法控制自动推理的推理顺序,形成合理的封闭分枝,减少推理的盲目性;另一方面复杂的推理可以利用简单的推理结果,提高推理的效率.; 刘全崔志明高阳陈道蓄姚望舒

基于多粒度周期模式的时序离群点检测算法: 2009年; 目前研究时间序列离群点检测方法大都没有考虑到数据本身的周期性,有的只能处理名词性属性.针对实值性属性的时序数据,提出了多粒度周期模式的发现算法,该算法基于不同的时间间隔粒度来探测不同的周期模式,并利用得到的周期模式来发现那些偏离周期模式的离群点.该方法可有效避免将正常数据误报为异常值.通过实验验证了该算法既可正确找出数据在不同粒度下的周期模式,又可有效探测时序数据中的异常值,并与不用周期模式发现的离群点检测算法比较,减少了对特殊事件的离群点误报.; 罗玉盘商琳; 关键词：时间序列粒度离群点检测

预测状态表示综述: 2010年; 预测状态表示是描述离散时间有限状态的动态系统的新方法。使用动作—观测值序列的预测向量表示系统状态在将来时刻发生的概率,能解决现有动态系统决策过程中计算复杂的问题。综述了预测状态表示的基本原理,介绍了预测状态表示的建模过程和规划算法,对已有的建模方法和规划方法进行总结分析和比较,指出了该研究领域的发展方向,最后提出了研究面临的挑战。; 雷珠刘峰赵志宏; 关键词：动态系统

预测状态表示综述被引量：1: 2010年; 预测状态表示(predictive state representations,PSR)是一种新型的动态系统模型,用动作-观察值序列的预测向量来表示系统的状态以及预测未来事件发生的概率。综述了预测状态表示的基本原理,对其建模算法进行比较,并概括其最新的应用拓展,最后指出其发展方向。; 王历高阳王巍巍

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60775046)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60775046)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈