深度强化学习(deep reinforcement learning)在游戏界的成功已经在 AI 界产生了轰动 ,不管是玩出历史高分的微软AI,还是继围棋之后,人工智能又攻克的德州扑克,亦或是利用“左右互博”来增强学习的OpenAI。人工智能在不同的游戏中的最新得分已经超越了人类的水平。
那么,这种深度强化学习是如何进行的呢?下面我们则以Maluuba、冷扑大师、OpenAI为例来进行阐释。
《吃豆小姐(Ms.PAC-MAN)》是一款诞生自80年代的休闲街机游戏,由于该游戏的幽灵行动模式存在不确定性,具有很大的挑战性和难度。,然而,Maluuba开发的AI在《吃豆小姐》Atari2600版本中却玩出了历史最高分:999990。
Maluuba是微软于2017年1月收购的加拿大深度学习创业公司,其专注于强化学习技术,这种强化学习可以帮助系统自主做出决策。
对于微软玩出历史高分,它的解决方案是创造一个混合式奖赏架构(Hybrid Reward Architecture),也就是一种把游戏里的大问题分解成小问题,再把小问题分发给AI代理来解决的分治策略。
Maluuba利用一个顶级的AI吃豆小姐和150多个普通AI吃豆小姐,让她们协作处理。每个普通AI代理都是相互独立的,它们分别精通《吃豆小姐》的一部分技巧:有的负责吃水果,有的负责吃豆子,有的负责躲避幽灵。
顶级的AI吃豆小姐的工作,就是综合考虑每个普通AI吃豆小姐的意见,然后以此来做出往哪边走的决策。决策的考虑因素有两个:一个是建议往某方向走的普通AI吃豆小姐的数量,另一个是普通AI吃豆小姐建议的强度。
同样,根据德州扑克规则设计的冷扑大师,也是能够进行相关自我学习的一款程序。
冷扑大师相对于“阿尔法围棋”的不同在于,开发者并没有教给它人类打牌的方法,只是向它描述了德扑的规则,由它“左右互搏”,摸索出德扑应该怎么玩。因而,冷扑大师的打法完全脱离了人类经验。
除此之外,纳什均衡是德扑算法的核心,即AI的目标是找到一个无论对方怎么做,自己都不会产生损失的策略。而残局解算器和自我学习则是对纳什均衡的一个辅助,残局解算器会在残局时实时评估场上的情况,以判断第一模块中算出的纳什均衡是否符合实时情况。自我强化学习会反思AI在比赛中的表现,找出曾被人类利用过的“套路”,清除这些可循的痕迹。
2017年8月12日,埃隆·马斯克旗下旨在研究通用人工智能解决方案的公司OpenAI,所训练的一款人工智能算法在著名的电子竞技游戏Dota2国际邀请赛The International中,参与了1V1比赛环节,并压倒性的击败了顶级电子竞技选手Dendi。
马斯克的OpenAI,究竟是如何在dota2中击败顶级人类选手的?OpenAI自身还没公布算法细节,只是初步表示他们并未使用任何模仿学习(Imitation Learning)或者类似于alphago的树搜索技术,纯粹使用了self-play即俗称 “左右互搏”的增强学习(reinforcement learning)方式训练。
采取这种训练方式的主要原因可能在于dota 2中有100多个英雄角色可选择,每个英雄的属性和技能均不一样,这就意味着要对每个英雄做优化训练,再者,获取dota 2 1v1的大量对局数据也是十分困难的。
目前,OpenAI通过增强学习,已经训练出了一个单挑solo能力非常强悍的算法,不过,这个算法离Dota 2的5V5对抗中取胜还有非常大的距离。
值得注意的是,人工智能在游戏中不断地超越人类的水平、创造历史新高,但是这些成果又能在多大程度上说明人工智能已经可以像人类一样去思考游戏中的事物,是我们依旧要不断去探讨的一个话题。
关注【AI商业报道】,回复【2017白皮书】,可获得干货《2017人工智能产业发展白皮书》!
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。