雷锋网 ai 科技评论按:ai 在游戏战场上的进展到哪了?去年 8 月份,openai 的 5v5 dota ai 「openai five」完胜人类让我们惊喜连连,不过现在,deepmind 也给我们交出了一份让人热血澎湃的答卷。日前,deepmind 和暴雪联合官宣,将于当地时间周四下午 6 点(北京时间周五凌晨 2 点)以线上直播的方式公布《星际争霸 ii》ai 的最新进展!
deepmind ceo demis hassabis 也发 twitter 称:《星际争霸 ii》是一款复杂的实时战略游戏,对 ai 来说是一个长期而巨大的挑战——很高兴我们将在周四展示我们的最新进展,各位肯定不想错过直播!:-)
截图自 demis hassabis twitter亚博平台app下载主页
deepmind 与《星际争霸 ii》的这场「较量」,最早要追溯到 2016 年,当时,在使用 alphago 击败了围棋世界冠军李世石后,deepmind 就开始把注意力转向了经典的实时战略游戏《星际争霸 ii》,并在 11 月份一年一度的 blizzcon 上宣布与著名游戏公司暴雪达成协议,共同合作《星际争霸》系列游戏,至此算是定下了 deepmind 与《星际争霸 ii》这长达 2 年多的渊源。
用 ai 打游戏,从来都不是 ai 研究者的最终目的,而是他们用来「进化」ai 能力并将其应用到现实世界中的「测试场景」。相比于围棋和国际象棋来说,《星际争霸》这类实时战略游戏要远复杂得多,自然也与「复杂的现实世界」更近得多,因此,这款游戏也成为了人工智能研究者们立志「攻破」的目标。
正如当时 deepmind 团队负责人 oriol vinyals 所提到的:「能玩《星际争霸》的人工智能必须能够有效利用记忆,能够进行长期战略规划,同时还得根据不断出现的新情况做出反应调整。以这种标准开发的机器学习系统,最终完全可以应用到现实世界中的任务中去」。
对于用 ai 来打《星际争霸 ii》的复杂性,想必大家也都能够想象得到:
游戏实时进行时,玩家不仅需要掌控生产,探索地图,开采水晶和气矿,然后开拓新的矿点;还需要同时具有长期战略规划与应变对手的快速决策能力。此外,在整个对战过程中,玩家不仅无法充分把握对手的信息,而且他们的规划、决策、行动的结果在一段时间后才会呈现出来。
deepmind 也在博客上描述了这个项目的难度:
玩家必须派出他们的队伍去侦察未知地图,以获取敌人的信息,并需要长时间记住获取到的信息。同时,周围环境只有部分可见,这使得挑战更为复杂——这也是星际争霸和象棋和围棋这类有完整信息的游戏之间一个有趣的不同之处。这是一款实时战略游戏,双方玩家都同步进行游戏,因此必须快速高效地计算出每一个决定。一个人或者 ai 要能玩星际争霸,就需要有效利用记忆力,具有进行长期规划并根据新的信息调整游戏策略的能力。
对于研究者来说,要设计出将所有因素考虑进去,并同时处理规划、决策和行动等任务的系统,难度可想而知。
至于 ai 何时能在《星际争霸 ii》中实现像 alphago 那样的光辉成绩,vinyals 连同《星际争霸 ii》的执行制作人 chris sigaty 当时都持保留态度,他表示:「从研究的角度来看,我们可能会取得很大的进步,但我认为我们现在还不知道我们能否击败最好的玩家。」
自 2016 年 3 月暴雪在 wcs 中国区总决赛上确认 deepmind ai 将挑战《星际争霸 ii》的消息,到如今即将直播《星际争霸 ii》ai 首秀,在这两年多的时间里,deepmind 的《星际争霸 ii》ai 项目是如何一步步走到今天的呢?我们不妨来简单回顾一下:
2016 年 3 月底,在 alphago 五局四胜赢了李世石之后,暴雪娱乐制作总监 tim morten 就在 wcs 中国区总决赛上确认deepmind ai 将挑战《星际争霸 ii》的消息,不过当时 tim morten 直言 deepmind ai 不会在《星际争霸 ii》中战胜人类。
2016 年 11 月 5 日的暴雪嘉年华开幕式上,暴雪宣布了有关 deepmind 人工智能与《星际争霸 ii》在未来领域关于 ai 人工智能的发展计划,同时 oriol vinyals 登台简述了有关谷歌 deepmind 人工智能与《星际争霸 ii》紧密合作的最新进展及未来的计划,他透露,谷歌正在研制新一代的人工智能,将在未来的《星际争霸 ii》中为玩家、甚至是全人类带来帮助,并将与 alpha go 与人类对弈围棋一样,与人类对战《星际争霸 ii》。
接着在 11 月 6 日的暴雪嘉年华星际 2 人工智能未来座谈会上,《星际争霸 ii》工程师 kevin calderone 与谷歌 deepmind 团队科研人员 oriol vinyals 还具体讲述了这个未来「星际 ii alpha go」的具体计划。
2017 年 8 月 9 日,deepmind 在亚博平台app下载官网上宣布正式与暴雪娱乐合作,共同开发可以在《星际争霸 ii》中与人类玩家对抗的 ai。同时,双方发布了一个旨在加速实时战略游戏当中 ai 应用的工具集——sc2le,该工具集包括暴雪官方回收的包含 6 万 5 千场匿名游戏数据、由暴雪研发的《星际争霸 ii》机器学习编程入口、开源版本的 deepmind 工具箱 pysc2、一系列从《星际争霸 ii》里抽象出来的增强学习迷你游戏以及一篇专门讨论《星际争霸 ii》机器学习环境的论文。
2018 年 1 月份的《麻省理工科技评论》新兴科技峰会 emtech china 上,谷歌 deepmind 研究科学家 oriol vinvals 在题为《ai 对战星际争霸胜算几何?》的演讲中,向大家说明了《星际争霸 ii》ai 的研究进度:「我们还没有完成过整局游戏,但是完成了操作《星际争霸 ii》比较重要的 7 个操作,比如选择一个单位并让它移动过去。我们所使用的算法能做到这一步,而且和人类玩家操作的效果基本一样。而另一些任务,比如建造建筑、收集资源等,仍然是比较难的。我们测试的算法,表现会比随机的环境要好,但和专业玩家还是有一段距离的。」
2018 年 6 月,deepmind 在论文《relational deep reinforcement learning》中用关系性深度强化学习来玩《星际争霸 ii》里抽象出来的增强学习迷你游戏,并在 6 个小游戏中达到了当前最优水平,其中 4 个还实现了超越人类大师级玩家水平的突破性进展。
2018 年 11 月举行的暴雪嘉年华(blizzcon)上,暴雪也提到了 deepmind 的《星际争霸 ii》ai 进展:「deepmind 一直在努力训练人工智能模型,以更好理解《星际争霸 ii》规则。一旦模型掌握游戏的基本规则,它就可以开始进行一些有趣的行为,比如带农民 rush 开局。在与「疯狂」难度标准的星际争霸 2 ai 模型对阵的时候,获胜概率可以达到 50%。」
2019 年 1 月 23 日,deepmind 和暴雪联合官宣,将于北京时间周五凌晨 2 点以线上直播的方式公布《星际争霸 ii》ai 的最新进展!
作为与「复杂的现实世界」十分接近的一款游戏,《星际争霸》自然也引起 ai 巨头挑战星际争霸的角逐,其中包括 facebook 、微软、阿里巴巴、腾讯等巨头企业。
其中,facebook 虽然没有直接向《星际争霸 ii》发起挑战,但也围绕《星际争霸》做出了自己的努力。2017 年 8 月 7 日,facebook 的四名科学家 zeming lin, jonas gehring, vasil khalidov, gabriel synnaeve 公布了史上最大的《星际争霸:母巢之战》游戏数据集:内存 365gb,包含了 65646 条星际争霸游戏记录的数据库,包含了 15.35 亿帧和 4.96 亿玩家操作。
而国内的腾讯 ai lab,也于 2018 年 9 月联合罗切斯特大学和西北大学的研究人员发表了一篇预印本论文,介绍了基于扁平化动作结构的深度强化学习智能体 tstarbots1 和基于分层动作结构规则控制器的智能体 tstarbots2 两个 ai,它们首次在完整的虫族 vs 虫族比赛中击败了星际争霸ⅱ的内置 ai bot。虽然两个 ai 都不是严格意义上的「自学」,依旧高度依赖人为归纳的信息,但还是给《星际争霸 ii》ai 研究带来了较大的突破性意义。
实际上除了企业,一些学术界研究者也对这个项目有较大的热情。例如,2018 年 11 月,塔尔图大学的 roman ring 对《星际争霸 ii》深度强化学习(drl)智能体 reaver 进行开源。据悉,这种模块化的框架主要用于训练《星际争霸 ii》的各种任务,提供比大多数开源亚博电竞网的解决方案更快的单机环境并行化能力。
从最初对《星际争霸 ii》 ai 战胜人类「没那么有信心」,到如今直接呈上 ai 打《星际争霸 ii》的直播,deepmind 到底给大家准备了什么样的惊喜?deepmind ai 在游戏中又会有怎样的表现?想必各位《星际争霸 ii》游戏爱好者、ai 研究者,都充满了期待~小编最后也附上直播链接,跟大家一起「搓着小手」等直播!
twitch:
youtube: 雷锋网雷锋网