简阳新闻:新版阿尔法围棋能自学成才可彻底摆脱人类知识(2)

发布时间：2017-10-20 19:31 来源：成都新闻网 Tag：

新闻导读：新版阿尔法围棋能自学成才可彻底摆脱人类知识(2)由成都新闻网采编：AlphaGo项目首席研究员大卫席尔瓦说，我可以代表我们团队说，我们对它的表现感到惊喜，它最终超过了我们的所有预期，它的胜率一直上升，直到过了4...

AlphaGo项目首席研究员大卫·席尔瓦说，“我可以代表我们团队说，我们对它的表现感到惊喜，它最终超过了我们的所有预期，它的胜率一直上升，直到过了40天左右，我们发现它击败了过去所有版本的AlphaGo，成为世界上最强大的围棋程序。”

他介绍，初代AlphaGo是以自身的强大计算能力作为基础，再通过学习海量人类棋谱来练就超强棋力，当初AlphaGo打败李世石就用了3000万盘比赛作为训练数据。而如今的最新版本AlphaGo Zero，已经基本不再需要学习人类经验就能自学成才，它学习的是490万盘自己和自己对弈的比赛数据。

完虐

只用1台机器和4个TPU

许多走法“极具创造性”

经过3天的训练，AlphaGo Zero就以100：0的比分赢下了李世石版AlphaGo，并且只用了1台机器和4个TPU（谷歌专为加速深层神经网络运算能力而研发的芯片）。而李世石版AlphaGo则用了48个TPU。

AlphaGo Zero除了独立地学会了人类花费数千年时间来发现的围棋规则，还自行学会了非常有趣的围棋策略，并且许多走法都“极具创造性”。

那么AlphaGo Zero是如何实现这种飞跃的？

在训练过程中，AlphaGo Zero每下一步需要思考的时间是0.4秒。但正是通过对围棋游戏的模拟和训练，神经网络变得越来越好。值得一提的是，AlphaGo Zero相比之前的版本，仅使用了单一的神经网络。

重/大/突/破

“白板理论”

程序成自己的老师

不需要人类的知识

英国《电讯报》指出，最新版的AlphaGo Zero最重大的突破在于实现了“白板理论”。在这个白板式的学习过程中，程序成了自己的老师，通过与自己下围棋（或其他游戏）而取得不断提高，这个过程中不需要人类的知识、数据或任何形式的干预。

简阳新闻:新版阿尔法围棋能自学成才 可彻底摆脱人类知识(2)