AlphaGo项目首席研究员大卫·席尔瓦说,“我可以代表我们团队说,我们对它的表现感到惊喜,它最终超过了我们的所有预期,它的胜率一直上升,直到过了40天左右,我们发现它击败了过去所有版本的AlphaGo,成为世界上最强大的围棋程序。”
他介绍,初代AlphaGo是以自身的强大计算能力作为基础,再通过学习海量人类棋谱来练就超强棋力,当初AlphaGo打败李世石就用了3000万盘比赛作为训练数据。而如今的最新版本AlphaGo Zero,已经基本不再需要学习人类经验就能自学成才,它学习的是490万盘自己和自己对弈的比赛数据。
完虐
只用1台机器和4个TPU
许多走法“极具创造性”
经过3天的训练,AlphaGo Zero就以100:0的比分赢下了李世石版AlphaGo,并且只用了1台机器和4个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。而李世石版AlphaGo则用了48个TPU。
AlphaGo Zero除了独立地学会了人类花费数千年时间来发现的围棋规则,还自行学会了非常有趣的围棋策略,并且许多走法都“极具创造性”。
那么AlphaGo Zero是如何实现这种飞跃的?
在训练过程中,AlphaGo Zero每下一步需要思考的时间是0.4秒。但正是通过对围棋游戏的模拟和训练,神经网络变得越来越好。值得一提的是,AlphaGo Zero相比之前的版本,仅使用了单一的神经网络。
重/大/突/破
“白板理论”
程序成自己的老师
不需要人类的知识
英国《电讯报》指出,最新版的AlphaGo Zero最重大的突破在于实现了“白板理论”。在这个白板式的学习过程中,程序成了自己的老师,通过与自己下围棋(或其他游戏)而取得不断提高,这个过程中不需要人类的知识、数据或任何形式的干预。
...
...
...
...
...
...
...