简阳新闻:新版阿尔法围棋能自学成才 可彻底摆脱人类知识(2)

发布时间:2017-10-20 19:31   来源: 成都新闻网  Tag:
新闻导读:新版阿尔法围棋能自学成才 可彻底摆脱人类知识(2)由成都新闻网采编:AlphaGo项目首席研究员大卫席尔瓦说,我可以代表我们团队说,我们对它的表现感到惊喜,它最终超过了我们的所有预期,它的胜率一直上升,直到过了4...

AlphaGo项目首席研究员大卫·席尔瓦说,“我可以代表我们团队说,我们对它的表现感到惊喜,它最终超过了我们的所有预期,它的胜率一直上升,直到过了40天左右,我们发现它击败了过去所有版本的AlphaGo,成为世界上最强大的围棋程序。”

他介绍,初代AlphaGo是以自身的强大计算能力作为基础,再通过学习海量人类棋谱来练就超强棋力,当初AlphaGo打败李世石就用了3000万盘比赛作为训练数据。而如今的最新版本AlphaGo Zero,已经基本不再需要学习人类经验就能自学成才,它学习的是490万盘自己和自己对弈的比赛数据。

完虐

只用1台机器和4个TPU

许多走法“极具创造性”

经过3天的训练,AlphaGo Zero就以100:0的比分赢下了李世石版AlphaGo,并且只用了1台机器和4个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。而李世石版AlphaGo则用了48个TPU。

AlphaGo Zero除了独立地学会了人类花费数千年时间来发现的围棋规则,还自行学会了非常有趣的围棋策略,并且许多走法都“极具创造性”。

那么AlphaGo Zero是如何实现这种飞跃的?

在训练过程中,AlphaGo Zero每下一步需要思考的时间是0.4秒。但正是通过对围棋游戏的模拟和训练,神经网络变得越来越好。值得一提的是,AlphaGo Zero相比之前的版本,仅使用了单一的神经网络。

重/大/突/破

“白板理论”

程序成自己的老师

不需要人类的知识

英国《电讯报》指出,最新版的AlphaGo Zero最重大的突破在于实现了“白板理论”。在这个白板式的学习过程中,程序成了自己的老师,通过与自己下围棋(或其他游戏)而取得不断提高,这个过程中不需要人类的知识、数据或任何形式的干预。

新版阿尔法围棋能自学成才 可彻底摆脱人类知识(2)相关报道