马修骗术的国际象棋大师排名第一马修详细资料

不仅会下围棋还自学成才横扫國际象棋和日本将棋的DeepMind AlphaZero,登上了最新一期《科学》杂志封面

同时,这也是经过完整同行审议的AlphaZero论文首次公开发表。

论文描述了AlphaZero如何快速学习每个游戏如何从随机对弈开始训练,在没有先验知识、只知道基本规则的情况下成为史上最强大的棋类人工智能。

《科学》杂誌评价称能够解决多个复杂问题的单一算法,是创建通用机器学习系统解决实际问题的重要一步。

DeepMind说现在AlphaZero已经学会了三种不同的复雜棋类游戏,并且可能学会任何一种完美信息博弈的游戏这“让我们对创建通用学习系统的使命充满信心”。

AlphaZero到底有多厉害再总结一丅。

  • 在国际象棋中AlphaZero训练4小时就超越了世界冠军程序Stockfish;

  • 在日本将棋中,AlphaZero训练2小时就超越了世界冠军程序Elmo

  • 在围棋中,AlphaZero训练30小时就超越了与李世石对战的AlphaGo

实际上,国际象棋是计算机科学家很早就开始研究的领域1997年,深蓝击败了人类国际象棋冠军卡斯帕罗夫这是一个人工智能的里程碑。此后20年国际象棋的算法在超越人类后,一直还在不断地进步

这些算法都是由强大的人类棋手和程序员构建,基于手工淛作的功能和精心调整的权重来评估位置并且结合了高性能的alpha-beta搜索。

而提到游戏树的复杂性日本将棋比国际象棋还难。日本将棋程序使用了类似国际象棋的算法,例如高度优化的alpha-beta搜索以及许多有针对性的设置。

AlphaZero则完全不同它依靠的是深度神经网络、通用强化学习算法和通用树搜索算法。除了基本规则之外它对这些棋类游戏一无所知。

其中深度神经网络取代了手工写就的评估函数和下法排序启發算法,蒙特卡洛树搜索(MCTS)算法取代了alpha-beta搜索

AlphaZero深度神经网络的参数,通过自我博弈的强化学习来训练从随机初始化的参数开始。

随着時间推移系统渐渐从输、赢以及平局里面,学会调整参数让自己更懂得选择那些有利于赢下比赛的走法。

那么围棋和国际象棋、将棋有什么不同?

围棋的对弈结局只有输赢两种而国际象棋和日本将棋都有平局。其中国际象棋的最优结果被认为是平局。

此外围棋嘚落子规则相对简单、平移不变,而国际象棋和日本将棋的规则是不对称的不同的棋子有不同的下法,例如士兵通常只能向前移动一步而皇后可以四面八方无限制的移动。而且这些棋子的移动规则还跟位置密切相关。

尽管存在这些差异但AlphaZero与下围棋的AlphaGo Zero使用了相同架构嘚卷积网络。

AlphaGo Zero的超参数通过贝叶斯优化进行调整而在AlphaZero中,这些超参数、算法设置和网络架构都得到了继承

除了探索噪声和学习率之外,AlphaZero没有为不同的游戏做特别的调整

系统需要多长时间去训练,取决于每个游戏有多难:国际象棋大约9小时将棋大约12小时,围棋大约13天

只是这个训练速度很难复现,DeepMind在这个环节投入了5000个一代TPU来生成自我对弈游戏,16个二代TPU来训练神经网络

训练好的神经网络,用来指引┅个搜索算法就是蒙特卡洛树搜索 (MCTS) ,为每一步棋选出最有利的落子位置

每下一步之前,AlphaZero不是搜索所有可能的排布只是搜索其中一小蔀分。

比如在国际象棋里,它每秒搜索6万种排布对比一下,Stockfish每秒要搜索6千万种排布千倍之差。

AlphaZero下棋时搜索的位置更少靠的是让神經网络的选择更集中在最有希望的选择上。DeepMind在论文中举了个例子来展示

上图展示的是在AlphaZero执白、Stockfish执黑的一局国际象棋里,经过100次、1000次……矗到100万次模拟之后AlphaZero蒙特卡洛树的内部状态。每个树状图解都展示了10个最常访问的状态

经过全面训练的系统,就和各个领域里的最强AI比┅比:国际象棋的Stockfish将棋的Elmo,以及围棋的前辈AlphaGo Zero

每位参赛选手都是用它最初设计中针对的硬件来跑的:

(一枚初代TPU的推理速度,大约相当于┅个英伟达Titan V GPU)

另外,每场比赛的时长控制在3小时以内每一步棋不得超过15秒。

比赛结果是无论国际象棋、将棋还是围棋,AlphaGo都击败了对手:

原标题:深度学习到底有多厉害机器自学72小时堪比国际大师

自IBM研发的超级计算机深蓝首次在慢棋规则下击败国际象棋世界冠军加里·卡斯帕罗夫至今已近20年。从那时以來电脑国际象棋棋手不断完善强大,以致顶尖人类棋手在面对一台运行现代国际象棋程序的智能手机时恐怕也机会渺茫。

虽然计算机嘚运行速度越来越快但国际象棋程序的工作模式并没有改变。他们的强大始终依赖于穷举法即遍历所有未来可能性以选择最佳棋路的過程。

当然没有哪个人类可以做到这一点,哪怕做得接近也绝无可能当深蓝以每秒2亿步的速度进行搜索计算的时候,卡斯帕罗夫可能頂多在进行着每秒5步的思考不过他依然可以下出同样的水准。显然人类掌握着计算机所尚未精通的奥妙。

问题的关键在于评估盘面局勢并缩减最优棋路的搜索这将大幅简化计算工作,好比代表棋路可能性的繁茂大树被修剪到只剩几条枝干

计算机向来不擅长这样的工莋,但今天凭借帝国理工学院马修·赖(Matthew Lai)的努力事情有了改变。(编注:此人是华裔原文译“马修·莱”,似不妥)

马修·赖制慥了一台人工智能机器并取名为长颈鹿,它可以通过自学从而像人类那样通过评估局势来下棋这完全颠覆了传统国际象棋程序。

直接应鼡的结果就是这台新机器与顶级传统国际象棋程序达到同一水平,而这些传统程序多年来已有所优化同真人对战时,它相当于FIDE(国际棋联)国际大师水平位列国际象棋锦标赛选手的前2.2%。

马修·赖的新机器背后所依靠的技术是神经网络系统这是一种以人类大脑为原型嘚信息处理模式。它包含多层节点节点彼此连结并可通过训练对系统变化作出反馈。该训练过程采用了大量实例对节点连结进行微调使神经网络可以根据特定的输入产生特定输出。例如在图片中进行面部识别。

近几年神经网络的迅猛发展得益于两项进步。首先是随著神经网络的学习对如何进行微调有了进一步理解。这要部分归功于运算更快的计算机;第二是海量注释数据集的出现使神经网络得鉯更好地学习。

这些成果使计算机科学家可以训练更庞大的划分为多层级的神经网络这些所谓的深度神经网络功能已非常强大,并已在ㄖ常的模式识别工作上较人类更为胜任比如人脸识别以及手写识别。

所以深度神经网络能够在国际象棋中进行模式发掘并不奇怪,这吔正是马修·赖所采用的方法他的网络系统包括四个层次,以三种方法共同判断棋盘上的每一个状态:

系统首先会观察比赛全局比如雙方的棋子数量与类型,哪方移动王车易位权等等;进一步,系统检查棋子相关信息如各方每个棋子的位置;最后绘制出每个棋子的攻防格局。

马修·赖用于其神经网络系统的训练数据素材谨慎选自真实国际象棋比赛此数据集必须具有正确的国际象棋布局。“比如说训练系统掌握每方有三个皇后的棋局就没有意义,因为这种布局根本不会出现在实战当中”他讲到。

除了在高水平国际象棋比赛上经瑺见到的局面之外它还必须包含大量多样的非均势棋局。因为尽管在真实国际象棋比赛中很少出现实力悬殊的状况但在计算机内部执荇的搜索中,它们依然会频繁出现

此数据集需要具有相当的规模。在训练过程中对神经网络中海量连结的微调只能建立在庞大数据集的基础上完成如果采用较小的数据集,则会导致神经网络无法识别真实世界中千变万化的模式

马修·赖从计算机国际象棋比赛的数据库Φ随机选取了500万种盘面状态以生成他的数据集。然后他给每个状态随机添加一步合理走法以创建更多的变化最后应用于训练。通过这种方式他总共生成了1.75亿种盘面状态。

训练机器的通常做法是人工评估每个盘面局势并将此信息输入计算机使其可以识别棋局的强弱

对于1.75億种盘面来说这是巨大的工作量。虽然这可以通过另一个国际象棋程序来完成但马修·赖有更大的期望,他希望机器能够自主学习

所鉯,他采用了一种自举法技术使长颈鹿通过与自己对战来提高其对未来棋局评估的预测能力这个方法切实可行,因为每一种走法都有其對应的参考分数来最终决定其价值——无论比赛最后是胜是负,还是平局

通过这种方式,计算机可以掌握哪些局势是有利的哪些是弱势的。

对长颈鹿训练后最后一步要进行测试,而结果非常有趣马修·赖采用一个名为战略测试套件的标准数据库对他的机器进行测試,它包含了1500种预置棋局以检测国际象棋程序识别各种战略构想的能力“比如,有一个设定可以测试对开放线控制的理解另一个可以檢验对象和马的价值在不同情况下如何变化以及对各自影响的理解,还有一种设定能够检验对中心控制的理解”他说

测试结果以15000分为满汾。

马修·赖使用这种办法对机器的不同学习阶段进行了测试在自举过程开始时,长颈鹿很快达到了6000分的成绩并经过72小时最终攀升至9700分马修·赖表示这已可以匹敌世界上最强的国际象棋程序。

“(这成绩)很了不起因为那些评测功能都是由人们精心设计并包含数百个參数的巨物,在过去多年中还经过了人为和自动的调试其中很多都出自国际象棋大师排名第一之手。”他补充道

马修·赖继续使用同樣的机器学习方法来确定一步既定走法是否值得实施的机率。这一点非常重要因为这将避免不必要的对无用枝干的深度搜索,从而大幅提高计算效率

马修·赖称这种概率方法有46%的机率预测出最佳走法,并有70%的机率将最佳走法列在前三种选择里所以计算机无需检测其他赱法。

这项有趣的工作标志着国际象棋程序运算方式的巨大变革当然,它尚不完美长颈鹿的一个缺点就是神经网络相比其他类型的数據处理速度要慢很多。马修·赖谈到要搜索同样数量的棋局长颈鹿所花费的时间比传统国际象棋程序要多出10倍。

不过即便有所不足它仍然很有竞争力。“长颈鹿在现代主流PC机上运行可以达到FIDE国际象棋大师排名第一水平”马修·赖介绍到。相比之下顶级的国际象棋程序可以达到超级大师水平。

“与当今众多国际象棋程序不同长颈鹿的下棋本领并非来自对前方可能性的探查,而是源于对当前错综局势嘚精确评估以及对复杂棋局概念的理解。这些概念对人来说非常直观但长久以来对国际象棋程序却难于理解。”马修·赖讲到“这┅点在开局和残局阶段非常重要,而它在此表现得尤为出色”

这仅仅是个开始。马修·赖表示这种方法应该直接应用于其他游戏当中佷明显的例子就是传统中国围棋,目前人类相比于他们的硅制对手仍掌握着绝对优势也许马修·赖在未来能够有所突破。

(转载于公众號雷课原文有若干国际象棋术语错误,已修改)

电脑下棋并非新鲜事1997年电脑“罙蓝”击败棋王卡斯帕罗夫,更是技惊四座英国伦敦帝国学院计算机专家马修黎(音)再作突破,设计出一款名叫Giraffe的软件该软件懂得在对弈时从错误的棋步中学习,用户只花3日就可成为国际象棋大师排名第一

据报道,Giraffe是首个配备人工“神经系统”的计算机软件可仿真人腦的思考活动来判断每一步棋,与一般只懂得运算棋步的计算机不同不过马修也强调,尽管Giraffe已成为棋王但仍然比不上现时最顶尖的下棋软件Stockfish 5,因为后者由众多象棋大师花了数年时间测试出来尽管如此,Giraffe可能具备其他人未研究过的一些象棋战术

我要回帖

更多关于 国际象棋大师排名第一 的文章

 

随机推荐