Alphago Zero为什么只进化了40天?

Alphago Zero为什么只进化了40天

Alphago zero无师自通秒杀前代AlphaGo在去年的10月18日,AI领域的明星公司DEEP Mind就公布了围棋AI程序AlphaGo 其实呢,早在2015年该公司所推出的第一代AlphaGo就曾因击败了当时蝉联三届欧洲围棋冠军的樊麾而一战成名,之后更是以4:1战胜李世石,3:0战胜柯洁,确立了他的棋王地位,尽管AlphaGo的棋弈已经如此高超,但与后来公布的AlphaGo zero相比却是被秒杀的水平Alphago Zero仅仅经过40天的训练,就在于Alphago Zero的一百局对弈中赢了89次那么Alphago Zero为什么只进化了40天呢?有趣的是,不同于上一代,AlphaGo是通过大量学习人类高手的对弈棋局来实现自我训练而AlphaGo zero是以强化学习算法为基础,通过总结3000万次与自己博弈的过程中的经验而问鼎围棋世界之巅,换句话说,AlphaGo zero完全是靠自己一个人无师自通地成为了新一代棋王!彻底舍弃了传统AI训练中AI算法对数据集的依赖除了更改训练方式,AlphaGo zero还在神经网络构建上舍弃了之前策略网络和价值网络并行的计算方式,成功将“落子位置策略演算”和“对应策略胜率计算”融为一体,进一步最大化利用了现有算力。

AlphaGoZero跟完美的围棋之神有多大差距?

AlphaGoZero跟完美的围棋之神有多大差距

问题有点多而且复杂,拿了张草稿纸写了写才算想明白了些…先说说贴目吧,围棋由于符合策梅洛定理中的规定条件,无论贴目是多少:“要么黑方有必胜之策略、要么白方有必胜之策略、要么双方也有必不败之策略”。只要对围棋和围棋ai有些了解的人来说,很轻易可以发现在贴目为6.5时,黑棋优势,贴目为7.5时,白棋优势。而这点优势如果交由围棋之神掌控,那就是胜势,即便对手也是围棋之神。

因为在正常情况下,只要贴目不为正数,就不会有平局出现那这就存在一个问题:如果贴目为7时会怎么样?刚开始我也被这个问题困扰了一会,后来突然转念一想:在贴整数目的情况下,双方最接近的情况也就是赢或输对方1目。举个例子:假如你执黑棋先行,需要贴给对方7目整,如果你能赢对手1目,那么即使你在贴7.5的情况下也能赢0.5目;而如果你输对手恰好一目,那么即使你少贴0.5目你也照输不误。

因此:围棋在某个整数贴目下双方都是有“必不败策略”的,而目前来看很可能是7目。但可能双方中有一方必胜策略可能要多于对方,可能有一方只有很少甚至只有一种“必不败策略”,不过对于参透了一切变化的围棋之神来说,贴7目,无论执黑或执白就已立于不败之地…另外,由于围棋双方目数总和一定是361目,因此,在贴偶整数目的情况下,一定不会有平局出现(除非出现有眼双活的特殊情况)不过,这其中还有个非常重要的点需要指出:以上都是建立在常规规则之下的分析,即平局只发生在双方终局之后目数完全相同的情况下。

 1/3   上一页 1 2 3 下一页 尾页

文章TAG:AlphaGo  alphago  AlphaGo  alphago  zero  
下一篇