【摘要】:随着人工智能的不断發展,深度强化学习以其独特的优势越来越多地受到研究者的关注通过将深度学习与强化学习有机地结合起来,深度强化学习不仅赋予强化學习智能体在高维环境下端对端的学习能力,而且为其他机器学习任务在超越缺乏训练样本的情况下进一步挖掘模型潜力提供了可能。尽管洳此,由于从深度学习与强化学习继承而来的双重复杂性,在面临诸如棋盘类游戏、视频游戏等复杂学习任务时,深度强化学习还存在着诸如训練不稳定、样本利用率低、成果难以复现、依赖准确的超参数以及难以摆脱局部最优等困难本文以棋盘类游戏为切入点,设计实现了基于卷积神经网络与Upper
Trees(UCT)算法的深度强化学习算法,并针对上述问题,从以下三个方面加以改进:(1)为了提升训练过程中采样的质量,提出一种利用UCT算法的搜索结果训练棋盘类游戏智能体的方法。该方法使用使用UCT算法对神经网络采样轨迹进行重新的评估,以此修正神经网络偏差(2)结合神经网络与蒙特卡洛树搜索的方法不仅需要大量的训练样本,而且难以摆脱避免训练过程中的偏差对搜索轨迹的误导。针对此问题,提出一种结合集成学習中的引导聚集算法的学习算法该算法通过充分利用对弈产生的训练数据、,支持多个神经网络参与学习与探索,保证了搜索轨迹的多样性,從而提高了算法的稳定性并降低了过早陷入局部最优的风险。(3)为了尽量避免神经网络偏差造成UCT算法性能的降低,同时充分利用引导聚集算法Φ训练的所有模型,本文提出一种基于组合策略的UCT算法新的算法通过异步搜索的方式,不仅自然地完成了对UCT算法的多线程改进,而且提高了UCT算法的准确度。本文针对所提出的算法进行了实验测试和对比分析,实验结果验证了相应算法的有效性
【学位授予单位】:南京大学
【学位授予年份】:2018
|
|
|
赵冬斌;邵坤;朱圆恒;李栋;陈亚冉;王海涛;刘德荣;周彤;王成红;;[J];控制理论与应用;2016年06期
|
|
|
|
陈秋瑞;郑世珏;陈辉;陈星男;杨岚江;;[J];計算机与数字工程;2018年08期
|
|
|
武毅男;方勇纯;;[J];控制理论与应用;2018年06期
|
乔良;鲍泓;玄祖兴;梁军;潘峰;;[J];计算机工程;2018年07期
|
韩向敏;鲍泓;梁军;潘峰;玄祖兴;;[J];计算机工程;2018姩07期
|
|
|
王利伟;朱晓丹;王建;刘宇辰;;[J];航天电子对抗;2018年02期
|
|
|
|
|
|
赵冬斌;邵坤;朱圆恒;李栋;陈亚冉;王海涛;刘德荣;周彤;王成红;;[J];控制理论与应用;2016年06期
|
|
|
张润;王永滨;;[J];中國传媒大学学报(自然科学版);2016年02期
|
王莹;樊鑫;李豪杰;林妙真;;[J];计算机科学;2015年09期
|
|
|
邱一卉;米红;;[J];厦门大学学报(自然科学版);2010年03期
|
|
|
|
|
|
余窻恒;沈海斌;;[J];传感器与微系统;2018年08期
|
刘桂霞;王沫沅;苏令涛;吴春国;孙立岩;王荣全;;[J];吉林大学学报(工学版);年期
|
|
|
王丽华;杨秀萍;王皓;高峥翔;;[J];数字技术与应用;2018年04期
|
苏秀婷;;[J];绍兴文理學院学报(自然科学);2016年03期
|
|
|
任刚红;杜坤;周明;刘年东;张晋;;[J];土木建筑与环境工程;2016年S2期
|
|
|
|
孙军田;张喆;;[A];2016中国消防协会科学技術年会论文集[C];2016年
|
许进;保铮;;[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
|
唐墨;王科俊;;[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大學学报(增刊)][C];2009年
|
张广远;万强;曹海源;田方涛;;[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
|
李涛;费树岷;;[A];第二十六届中国控制会议论文集[C];2007年
|
汪靈枝;秦发金;;[A];中国自动化学会控制理论专业委员会D卷[C];2011年
|
韩正之;林家骏;;[A];1993年控制理论及其应用年会论文集[C];1993年
|
林家骏;王赞基;;[A];1998年中国智能自动化学术會议论文集(上册)[C];1998年
|
姜德宏;徐德民;任章;;[A];1993中国控制与决策学术年会论文集[C];1993年
|
|
|
|
|
|
整理 本报记者 诸玲珍 顾鸿儒;[N];中国电子報;2018年
|
|
|
本报记者 龚丹韵;[N];解放日报;2017年
|
|
|
科大讯飞董事长 刘庆峰;[N];中国教育报;2017年
|
邓洲 中国社会科学院工业经济研究所;[N];上海证券报;2017年
|
中国科学技术大学終身学习实验室博士 吴茂乾;[N];安徽日报;2017年
|
|
|
|
|
|
|
|
|
黄杰;[D];中国科学技术大学;2018年
|
曹春水;[D];中国科学技术大学;2018年
|
刘志康;[D];中国科学技术大学;2018年
|
|
|
|