零号机突破——AlphaGo围棋大师


视频截图

# 这费是法 投递(不是译稿)

人类在数千年年间累积了围棋的知识,总结提炼为定式,棋谚和书籍。在数天的时间内,阿法狗零号机能够从一张白纸开始重新发现大部分的围棋知识,以及对这一古老游戏有着深刻洞见的新策略。

DeepMind在自然上新文章——《无人类知识的情况下精通围棋》的最后一段,如同科幻小说的开篇。某种意义上说我们低估了人工智能特定领域的发展速度,毕竟在五年前,绝大部分人的预期是我们仍要一代人的努力才能够创造出能够接近人类水平的电脑围棋选手。


对战过程

零号机和樊号机(和樊辉下棋的第一代)以及李号机(和李世石下棋的第二代)的差别在于,后者是通过监督学习完成的。亦即通过人类已有的围棋棋谱训练策略网络和价值网络(两个深度卷积的神经网络),最后通过蒙特卡洛树搜索结合确定落子。这样的训练效果受制于已知的专家数据(之前的围棋棋谱)。零号机的网络训练是通过强化学习完成的。亦即通过随机的初始状态进行大量的情景模拟,并驱动网络朝着最优化的方向发展。原有的两个分离的价值网络和策略网络被整合成一个残差网络(这个应该是上年计算机视觉领域的一个大突破,微软研究院的成果),最后通过蒙特卡洛树搜索来完成对局的模拟并进行学习。

抛开细节不谈,我们看一张论文中的图片,对于一个经典的角部定式,零号机的学习和变化过程。真正让人觉得激动的是中间的时间轴。50多个小时的时候我们看到了常见的定式,70个小时的时候便已经是人类未知的领域了。

相关的强化学习微软研究院也有一篇《强化学习的混合奖励架构》的文章,提出的深度强化学习的做法,利用多个代理的混合决策玩吃豆人游戏。拿到了超过人类最强玩家的分数。

这一次零号机的突破可以说非常直观的展示一个AI在特定领域越过“奇点”后的状态。人类数千年累积的知识,在AI面前只需要数小时。

# 这费是法:作为一个蛋友,容我虚妄的做出一些建议。我们可能需要更加疯狂的运用我们的想象力,为即将到来的巨变做好更多的准备。毕竟塞内卡说过“折磨我们的往往是想象,而不是真实”。

# dodww 发在无聊图的对战图(GIF):

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

赞助商
2017-10-20
零号机突破——AlphaGo围棋大师
这费是法 投递:人类在数千年年间累积了围棋的知识,总结提炼为定式,棋谚和书籍。在数天的时间内,阿法狗零号机能够从一张白纸开始重新发现大部分的围棋知识,以及对这一古老游戏有着深刻洞见的新策略。

长按扫码 阅读全文