北京pk拾七码雪球计划 北京pk10三码全天计划 北京pk10走势软件 北京pk10八码在线计划 北京pk10冠军杀1码 pk10高手论坛交流区 分分pk10技巧 赛车北京pk10官网 pk10赛车玩法介绍 靠赌博每天收入2000 pk10最牛6码定位方法 北京pk10大小特技巧 北京pk10庄家靠什么赢 pk10赛车大小单双技巧 pk10 一天赢10块 pk10模拟盘 pk10出现过的最长的龙 北京pk赛车稳定计划 北京pk10两个平台对刷 pk10免费计划软件安卓 pk10冠亚11算小1.86 北京pk10三码在线计划 网上赛车赌博解密 北京pk10计划免费软件 北京pk10庄家改单视频 北京pk10如何赚取反水 北京pk10冠亚和值规律 去一尾什么意思图解 北京pk10五码全天计划 全程打闲一年100万
700)imgload[i].width=700;">
登录  
飘剑的博客
  个人资料

用户:飘剑
网名积分:1500
实名积分:1500
博客等级:0
博客访问:184397
关注粉丝:8
  好友
暂无好友
  正文

今天登上Science封面

文汇报

百家号12-0714:31

不仅会下围棋,还自学成才横扫国际象棋和日本将棋,史上最?#31185;?#31867;AI降临!

今天,DeepMind的通用棋类算法,也是迄今最强的棋类AI——AlphaZero,经过同行评议,被顶级期刊《科学》以封面论文的?#38382;剑?#27491;式引入学界和公众的视野。

同时,这也是经过完整同行审议的AlphaZero论文,首次公开发表。

论文描述了AlphaZero如何快速学习每个游戏,如何从随机对弈开始训练,在没有先验知识、只知道基本规则的情况下,成为史上最强大的棋类人工智能。

《科学》杂志评价称,能够解决多个复杂问题的单一算法,是创建通用机器学习系统,解决实际问题的重要一步。

DeepMind说,现在AlphaZero已经学会了三种不同的复杂棋类游戏,并且可能学会任?#25105;?#31181;完美信息博弈的游戏,这“让我们对创建通用学习系统的使命充满信心”。

AlphaZero?#38477;?#26377;多厉害?总结如下:

?在国际象棋中,AlphaZero训练4小?#26412;?#36229;越了世界冠军程序Stockfish;

?在日本将棋中,AlphaZero训练2小?#26412;?#36229;越了世界冠军程序Elmo。

?在围棋中,AlphaZero训练30小?#26412;?#36229;越了与李世石对?#38477;腁lphaGo。

一年前,DeepMind静静地在arXiv贴出了AlphaZero的预印版论文,当即就在圈内引发轰动:AlphaZero从零开始训练,2小?#34987;?#36133;最强将棋AI,4小?#34987;?#36133;最强国际象棋AI,8小?#34987;?#36133;最强围棋AI(李世石版AlphaGo)。

现在,DeepMind将完整评估后的AlphaZero公之于众,不仅验证了上述结果,还补充了新的提升。

AlphaZero没有使用人类知识(除了棋类基本规则),从零开始训练,快速掌握日本将棋、国际象棋和围棋这三种复杂棋类游戏,展现出令人耳目一新的独道风格,拓展了人类智慧,并证明了机器拥有创造性的可能。

国际象棋大师卡斯帕罗夫——20年前输给IBM深蓝的国际象棋世界冠军,今天在Science发表社论,表示他很高?#19997;?#21040;AlphaZero展现出了像他一样“动态、开放”的棋风:

“传统观点以为,机器将通过无休止的枯燥操作趋近完美,最终导致平局。但据我观察,AlphaZero优先考虑棋子的活动而非盘面上的点数优势,更?#19981;对?#25105;看来有风险?#22270;?#36827;的地方落?#21360;?/p>

“计算机程序通常会?#20174;?#20986;编程者的侧重和偏见,但由于AlphaZero通过自我对弈训练,我认为它体现了棋的真谛(truth)。正是这种出色的理解使其能够超越世界顶级的传统棋类引擎,而且每秒计算的落?#28216;?#32622;要少得多。”

AlphaZero证明了机器也能成为专家,机器生成的知识也值得人类去学习。“AlphaZero以这样一种强大而有用的方式超越了我们,”卡斯帕罗夫写道:“只要在虚拟知识(virtual knowledge)能够生成的领域,这个模型都可能复制到任何其他任务上。”

IBM深蓝的共同创造者之一Murray Campbell,也在Science发表评论文章,指出DeepMind论文使用通用的搜索方法,结合蒙特卡罗树搜索(MCTS),增强了深度强化学习。

“尽管MCTS已经成为围棋程序中的标准搜索方法,但迄今为止,几乎没有证据表明它在国际象棋或将棋中有用。”Campbell写道:“DeepMind展示了深度强化学习与MCTS算法相结合的力量,从随机初始化的?#38382;?#24320;始,让神经网络通过自我对弈不断更新?#38382;!?/p>

AlphaZero有什么不同?

国际象棋有什么难的?

实际上,国际象棋是计算机科学家很早就开始研究的领域。1997年,深蓝击败了人类国际象棋冠军卡斯帕罗夫,这是一个人工智能的里程碑。此后20年,国际象棋的算法在超越人类后,一直还在不?#31995;?#36827;步。

这些算法?#38469;?#30001;强大的人类棋手和程序员构建,基于手工?#35889;?#30340;功能和精心调整的权重来评估位置,并且结合了高性能的alpha-beta搜索。

而提到游戏树的复?#26377;裕?#26085;本将棋比国际象棋还难。日本将棋程序,使用了类似国际象棋的算法,例如高度优化的alpha-beta搜索,以及许多有针对性的设置。

AlphaZero则完全不同,它依靠的是深度神经网络、通用强化学习算法和通用树搜索算法。除了基本规则之外,它对这些棋类游戏一无所知。

其中,深度神经网络取代了手工写就的评估函数和下法排序启发算法,蒙特卡洛树搜索(MCTS)算法取代了alpha-beta搜索。

AlphaZero深度神经网络的?#38382;?#36890;过自我博弈的强化学习来训练,从随机初始化的?#38382;?#24320;始。

随着时间推移,系统渐渐从输、赢以及平局里面,学会调整?#38382;?#35753;自己更懂得选择那些有利于赢下比赛的走法。

那么——

围棋和国际象棋、将棋有什么不同

围棋的对弈结局只有输赢两种,而国际象棋和日本将棋都有平局。其中,国际象棋的最优结果被认为是平局。

此外,围棋的落子规则相对简单、平移不变,而国际象棋和日本将棋的规则是不对称的,不同的棋子有不同的下法,例如士兵通常只能向前移动一?#21073;?#32780;皇后可以四面八方无限制的移动。而且这些棋子的移动规则,还跟位置密切相关。

尽管存在这些差异,但AlphaZero与下围棋的AlphaGo Zero使用了相同架构的卷积网络。

AlphaGo Zero的超?#38382;?#36890;过贝叶斯优化进行调整。而在AlphaZero中,这些超?#38382;?#31639;法设置和网络架构都得到了继?#23567;?/p>

除了探索噪声和学习率之外,AlphaZero没有为不同的游戏做特别的调整。

下面就让我们一起来看看,AlphaZero的论文作者David Silver、Thomas Hubert、Julian Schrittwieser和Demis Hassabis亲自撰文,阐述他们如何用5000个TPU,让AlphaZero快速掌握将棋、国际象棋和围棋。

用5000个TPU,快速掌握将棋、围棋和国际象棋

传统国际象棋的引擎依赖于由人类高手玩家“手工?#35889;鰲?#30340;数千条规则和启发式方法,它们?#38469;?#22270;解释游?#20998;?#21487;能发生的每一种结果。

日本将棋程序也是特定于游戏的,使用与国际象棋程序类似的搜索引擎和算法。

AlphaZero则采用了一种完全不同的方法,用深度神经网络和通用算法取代了这些“手工?#35889;鰲?#30340;规则,而这些算法对基本规则之外的游戏却一无所知。

▲在国际象棋中,AlphaZero仅用了4个小时便首次超越了Stockfish;在日本将棋中,AlphaZero在2小时后首次超过Elmo;在围棋方面,AlphaZero在2016年的比赛中,经过30个小时的鏖?#21073;?#39318;次击败了传奇棋手李世石。注?#22909;?#20010;训练步骤代表了4096个落?#28216;?#32622;。

为了学习每一个游戏,一个未经训练的神经网络通过强化学习与自己对打数百万次。

一开始,它完全是随机的,但是随着时间的推移,系统从输赢中开始学习,并根据神经网络的?#38382;?#36827;行调整,使其在未来可以选择更有利的走法。

网络需要的训练量取决于游戏的风格和复?#26377;裕?span style="COLOR: rgb(51,51,51); FONT-SIZE: 18px; FONT-WEIGHT: 700" class="bjh-strong">国际象棋需要9小时,将棋需要12小时,围棋需要13天。

“AlphaZero的一些举动,例如将王将移至棋盘中央是有违将棋理论的,从人类的角度来看,它的这些举动似乎是将自己置于危险境地。但令人难以置信的是,它仍然控?#35889;?#23616;面。AlphaZero独特的游戏风格向我们展示了将棋的新可能性。”羽生善治这样说。羽生善?#21361;?#26085;本将棋棋士,获得七项头衔的“永世称号”,亦是日本将棋史上第一个达成七冠王与“永世七冠”的人,改写了将棋界多项历史纪录。

训练后的网络用于指导搜索算法(蒙特卡罗树搜索,MCTS),选择游?#20998;?#26368;有有利的动作。对于每?#25105;?#21160;,AlphaZero仅搜索传统国际象棋引擎所考虑的一小部分位置。

例如,在国际象棋中,它每秒仅搜索6万个位置,相比之下,Stockfish大约有6千万个位置。

这些经过全面训练的系统是在国际象棋(Stockfish)和将棋(Elmo)最强大的“手工引擎”以及我们之前自学的AlphaGo Zero系统(已知最强大的围棋选手)的帮助下进行测试的。

*每个程序都在它们所设计的硬件上运行。Stockfish和Elmo使用了44个CPU核,而AlphaZero和AlphaGo Zero使用了一台拥有4个第一代TPU和44个CPU核的机器。第一代TPU在?#35780;?#36895;度上与NVIDIA Titan V GPU等商用硬件大致相似,但架构并不具有直接?#26432;?#24615;。

*所有的比赛都有时间控制,每场比赛3小时,外?#29992;?#19968;步额外的15秒。

在每次评估中,AlphaZero都毫无悬念地击败了对手:

*在国际象棋比赛中,AlphaZero击败了2016年TCEC(第九季)世界冠军Stockfish,赢得155场比赛,在1000场比赛中只输了6场。为了验证AlphaZero的稳健性,我们还进行了一系列比赛,这些比赛?#38469;?#20174;常见的“人类开局方式”开始的。在每一种开局情况下,AlphaZero都击败了Stockfish。我们还与最新开发版本的Stockfish以及它的变体打过比赛,在所有的比赛中,AlphaZero?#21152;?#20102;。

*在将棋比赛中,AlphaZero击败了2017年CSA世界冠军版Elmo,赢得了91.2%的比赛。

*在围棋比赛中,AlphaZero击败了AlphaGo Zero,赢得了61%的比赛。

独创棋风,拓展人类智慧,迈向通用学习系统重要一步

然而,让人感到最着迷的是AlphaZero的行棋风格。例如,在国际象棋中,AlphaZero在自我训?#20998;?#29420;立发现并走出了人类棋手常用的定?#21073;?#22914;开局、王不立险地(King safety)和兵的走法。

但是,由于这些?#38469;?#33258;学的,因此不会受传统观念的影响,AlphaZero还开创出了自己的?#26412;?#21644;策略,产生了一系列令人兴奋的新颖思路,为几个世纪以来国际象棋战略战术的思考提供了有益的补充。

过去一个多世纪以来,国际象棋一直被用作衡量人类和机器认知水?#38477;幕平?#26631;准。 AlphaZero取得的非凡成果,刷新了这门古老的棋盘游戏?#22270;?#31471;科学之间的显著联系。前国际象棋世界冠军加里·卡斯帕罗夫如是说。

在与AlphaZero对弈时,棋手注意?#38477;?#31532;一件事就是它的行棋风格,国际象棋大师Matthew Sadler说道,“它会怀着明确的目的和力量来瓦解对手的王”。Sadler和女子国际象棋大师Natasha Regan一起分析AlphaZero,并写作出版了专著《Game Changer:AlphaZero的颠覆性国际象棋策略和人工智能潜力》。

AlphaZero的行棋风格非常灵活,最大限度地提升己方子力配备的灵活性和机动性,同时最大限度地降低对手子力的灵活性和机动性。

与我们的通常想法不同的是,AlphaZero似乎对“子力”本身的重视程度?#31995;停?#32780;重视“子力”是现代国际象棋的基本行棋思路,棋盘上每个子都具有价值,如果一个玩?#20197;?#26827;盘上的子力高于对手,那么他就拥有子力优势。而AlphaZero甚至愿意在棋局早期牺牲子力,以获得长期收益。

“令人印象深刻的是,AlphaZero在行棋时能将这种风格应用在各种各样的开局和定式中。”Matthew说道,他也观察?#21073;珹lphaZero从走第一步开始就体现出了这种明确的的性,且一以贯之,其风格体现得非常明显。

“过去的传统国际象棋软件已经非常稳定,几乎不会出现明显错误,但在面对没有具体和可计算解决方案的时,其行棋会发生偏差,”他说:“正是在这种时候,才是AlphaZero发挥其'感觉'、'洞察'或'?#26412;?#39;的地方。”

这种独特的能力,在其他传统的国际象棋引擎中?#24378;?#19981;?#38477;摹?#30446;前,AlphaZero已经被用来在世界国际象棋锦标赛上为棋迷们提供有关Magnus Carlsen和Fabiano Caruana(现男子国际象棋等级分前两名)对局的?#24405;?#35299;和评论。

“我?#24378;?#20197;看看AlphaZero的分析,与顶级国际象棋大师对棋局的分析,甚至和棋手实战着法有何不同,这真是令人着迷的一件事。AlphaZero可以作为整个国际象棋社区的强大教学工具。”

AlphaZero的“教诲”,让我们想起了2016年AlphaGo与围棋世界冠军李世乭对弈时的场景。在那次比赛中,AlphaGo走出了许多极具创造性的致胜着法,包括在第2局比赛中的执黑第37手,这手棋推翻了人类数百年的思路。这些着法已经?#35805;?#25324;李世乭本人在内的所有级别的棋手和爱好者研究过。

他们对此表示:“我之前还认为AlphaGo是基于概?#19990;?#35745;算的,它只是一台机器。但当我看到这手棋时,我改变了想法。毫无疑问,AlphaGo是有创造性的。

“人机大战”的影响力已经?#23545;?#36229;出了国际象棋本身。这些自学成才的专家级机器不仅表现优异,棋力非凡,而且从自己创造的新知识中学习。前国际象棋世界冠军加里·卡斯帕罗夫说。

和围棋一样,我们对AlphaZero在国际象棋上的创造性?#40644;?#24863;到兴奋,自从计算机时代以来,人工智能时时面临着巨大挑?#21073;?#21253;括巴贝奇、图灵、冯·诺依曼在内的早期计算机先驱人物,都曾试图设计国际象棋程序,但AlphaZero的用途不仅仅是国际象棋、将棋和围棋。

为了创建能够解决各种现实问题的智能系统,它们需要更加灵活,能够?#35270;?#26032;情况。虽然目前在实现这一目标方面取得了一些进展,但AI的通用化问题仍然是研究中的一项重大挑?#21073;?#32463;过训练的AI系统面对特定任务时能够以极高标准完成,但任务只要稍有变化往往就会失败。

AlphaZero掌握了三种不同的复杂游戏,这可能是朝着解决这一问题迈出的重要一步。尽管目前还处于早期阶?#21361;?#20294;AlphaZero取得的进?#21073;?#20197;及在蛋?#23383;收?#21472;系统AlphaFold等其他项目上的令人鼓舞的结果,让我们对实现通用学习系统的使命充满信心,相信未来我们能够找到一些新的解决方案,解决最重要、最复杂的科学问题。

编辑:顾军

责任编辑:樊丽萍

来源:综合自新智元、量?#28216;?#24494;信号

阅读(1628) | 评论(0) | 转载(0) | 举报
评论
暂无评论
我要评论:

匿名评论  


大师网博客 | 注册须知
电话:13603119508  电子邮箱:[email protected]    © 2006,版权所有(象棋大师网)    冀ICP备06022471
北京pk10杀1码推荐
吃鸡名字大全 洛基传奇电子游艺 波斯波利斯复原想象图 上海麻将app mg东方珍兽赚反水 尤文对斯帕尔比赛视频 哈德斯菲尔德为什么叫哈镇 闪亮骑士APP 福利彩票走势图厂家 香港六合彩管家婆资料 北京赛车pk官网 冒险丛林登陆