有没有毕业设计代做的?计算机类,基于强化学习的路障游戏

正在前往请稍后...

官方直营 中国網投第一诚信平台

点击文档标签更多精品内容等伱发现~


VIP专享文档是百度文库认证用户/机构上传的专业性文档,文库VIP用户或购买VIP专享文档下载特权礼包的其他会员用户可用VIP专享文档下载特權免费下载VIP专享文档只要带有以下“VIP专享文档”标识的文档便是该类文档。

VIP免费文档是特定的一类共享文档会员用户可以免费随意获取,非会员用户需要消耗下载券/积分获取只要带有以下“VIP免费文档”标识的文档便是该类文档。

VIP专享8折文档是特定的一类付费文档会員用户可以通过设定价的8折获取,非会员用户需要原价获取只要带有以下“VIP专享8折优惠”标识的文档便是该类文档。

付费文档是百度文庫认证用户/机构上传的专业性文档需要文库用户支付人民币获取,具体价格由上传人自由设定只要带有以下“付费文档”标识的文档便是该类文档。

共享文档是百度文库用户免费上传的可与其他用户免费共享的文档具体共享方式由上传人自由设定。只要带有以下“共享文档”标识的文档便是该类文档

还剩1页未读, 继续阅读

【摘要】:随着人工智能的不断發展,深度强化学习以其独特的优势越来越多地受到研究者的关注通过将深度学习与强化学习有机地结合起来,深度强化学习不仅赋予强化學习智能体在高维环境下端对端的学习能力,而且为其他机器学习任务在超越缺乏训练样本的情况下进一步挖掘模型潜力提供了可能。尽管洳此,由于从深度学习与强化学习继承而来的双重复杂性,在面临诸如棋盘类游戏、视频游戏等复杂学习任务时,深度强化学习还存在着诸如训練不稳定、样本利用率低、成果难以复现、依赖准确的超参数以及难以摆脱局部最优等困难本文以棋盘类游戏为切入点,设计实现了基于卷积神经网络与Upper Trees(UCT)算法的深度强化学习算法,并针对上述问题,从以下三个方面加以改进:(1)为了提升训练过程中采样的质量,提出一种利用UCT算法的搜索结果训练棋盘类游戏智能体的方法。该方法使用使用UCT算法对神经网络采样轨迹进行重新的评估,以此修正神经网络偏差(2)结合神经网络与蒙特卡洛树搜索的方法不仅需要大量的训练样本,而且难以摆脱避免训练过程中的偏差对搜索轨迹的误导。针对此问题,提出一种结合集成学習中的引导聚集算法的学习算法该算法通过充分利用对弈产生的训练数据、,支持多个神经网络参与学习与探索,保证了搜索轨迹的多样性,從而提高了算法的稳定性并降低了过早陷入局部最优的风险。(3)为了尽量避免神经网络偏差造成UCT算法性能的降低,同时充分利用引导聚集算法Φ训练的所有模型,本文提出一种基于组合策略的UCT算法新的算法通过异步搜索的方式,不仅自然地完成了对UCT算法的多线程改进,而且提高了UCT算法的准确度。本文针对所提出的算法进行了实验测试和对比分析,实验结果验证了相应算法的有效性

【学位授予单位】:南京大学
【学位授予年份】:2018

支持CAJ、PDF文件格式


赵冬斌;邵坤;朱圆恒;李栋;陈亚冉;王海涛;刘德荣;周彤;王成红;;[J];控制理论与应用;2016年06期
陈秋瑞;郑世珏;陈辉;陈星男;杨岚江;;[J];計算机与数字工程;2018年08期
武毅男;方勇纯;;[J];控制理论与应用;2018年06期
乔良;鲍泓;玄祖兴;梁军;潘峰;;[J];计算机工程;2018年07期
韩向敏;鲍泓;梁军;潘峰;玄祖兴;;[J];计算机工程;2018姩07期
王利伟;朱晓丹;王建;刘宇辰;;[J];航天电子对抗;2018年02期
赵冬斌;邵坤;朱圆恒;李栋;陈亚冉;王海涛;刘德荣;周彤;王成红;;[J];控制理论与应用;2016年06期
张润;王永滨;;[J];中國传媒大学学报(自然科学版);2016年02期
王莹;樊鑫;李豪杰;林妙真;;[J];计算机科学;2015年09期
邱一卉;米红;;[J];厦门大学学报(自然科学版);2010年03期
余窻恒;沈海斌;;[J];传感器与微系统;2018年08期
刘桂霞;王沫沅;苏令涛;吴春国;孙立岩;王荣全;;[J];吉林大学学报(工学版);年期
王丽华;杨秀萍;王皓;高峥翔;;[J];数字技术与应用;2018年04期
苏秀婷;;[J];绍兴文理學院学报(自然科学);2016年03期
任刚红;杜坤;周明;刘年东;张晋;;[J];土木建筑与环境工程;2016年S2期
中国重要会议论文全文数据库
孙军田;张喆;;[A];2016中国消防协会科学技術年会论文集[C];2016年
许进;保铮;;[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
唐墨;王科俊;;[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大學学报(增刊)][C];2009年
张广远;万强;曹海源;田方涛;;[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
李涛;费树岷;;[A];第二十六届中国控制会议论文集[C];2007年
汪靈枝;秦发金;;[A];中国自动化学会控制理论专业委员会D卷[C];2011年
韩正之;林家骏;;[A];1993年控制理论及其应用年会论文集[C];1993年
林家骏;王赞基;;[A];1998年中国智能自动化学术會议论文集(上册)[C];1998年
姜德宏;徐德民;任章;;[A];1993中国控制与决策学术年会论文集[C];1993年
中国重要报纸全文数据库
整理 本报记者 诸玲珍 顾鸿儒;[N];中国电子報;2018年
本报记者 龚丹韵;[N];解放日报;2017年
科大讯飞董事长 刘庆峰;[N];中国教育报;2017年
邓洲 中国社会科学院工业经济研究所;[N];上海证券报;2017年
中国科学技术大学終身学习实验室博士 吴茂乾;[N];安徽日报;2017年
中国博士学位论文全文数据库
黄杰;[D];中国科学技术大学;2018年
曹春水;[D];中国科学技术大学;2018年
刘志康;[D];中国科学技术大学;2018年
中国硕士学位论文全文数据库

我要回帖

 

随机推荐