雷锋网 ai 科技评论按:昨晚,暴雪联合 deepmind 发出一则新闻,deepmind 开发的星际 2 ai「alphastar」很快就会出现在星际 2 欧洲服务器上的 1v1 天梯比赛中。人类玩家们不仅会有机会匹配到它们、和它们展开标准的比赛,比赛结果也会像正常比赛一样影响自己的天梯分数。
正如人尽皆知的围棋 ai alphago,deepmind 喜欢的强化学习 ai 研究过程是在某个比赛(博弈)环境中进行技术探索,在新技术的辅助下让智能体从历史数据中学习、从自我博弈中学习,然后与人类高手比赛,评估 ai 的水准。樊麾、李世石、柯洁都光荣地成为了「人工智能测试高级工程师」。
在此次星际 2 ai「alphastar」的研究过程中,deepmind 继续沿用这个思路,但这次他们更大胆一点,让大批不同水准的普通玩家参与到 ai 表现的评估中来,最终的比赛结果会写到论述星际 2 ai 科研项目的论文里,向期刊投稿。这就是暴雪和 deepmind 联手把 ai 送上天梯比赛的最重要原因。
进入星际 2 游戏,在 1v1 比赛设置了允许接入 deepmind(deepmind opt-in)之后,参加 1v1 天梯比赛的玩家们就可能会遇到 alphastar。为了控制所有的比赛都尽量接近正常的人类 1v1 天梯比赛,以及减小不同比赛之间的差异,alphastar 会随机匹配到一部分玩家的天梯比赛中,并且 ai 会在游戏保持匿名,匹配到的玩家和星际 2 后台都无法知道哪些比赛是有 alphastar 参与的。不过,设置了允许接入 ai 之后,相信玩家们立即就会开始对匹配到 ai 对手产生期待,而且在比赛开始之后也可能很快就会发现自己的对手有一些不寻常之处。
今年一月时 alphastar 就曾与人类职业选手比赛并取得了全胜。相比于当时的版本,此次更大规模测试的 alphastar 版本进行了一些改动,其中一些改动明显对人类有利:
一月的版本可以直接读取地图上所有的可见内容,不需要用操作切换视角,这次需要自己控制视角,和人类一样只能观察到视野内的单位,也只能在视野内移动单位;
一月的版本仅使用了神族,这次 alphastar 会使用人族、虫族、神族全部三个种族;
一月的版本在操作方面没有明确的性能限制,这次,在与人类职业选手共同商议后,对 alphastar 的平均每秒操作数、平均每分钟操作数(apm)、瞬时最高 apm 等一些方面都做了更严格的限制,减少操作方面相比人类的优势。
参与测试的 alphastar 都是从人类比赛 replay 和自我比赛中学习的,没有从与人类的对局中学习,同时 alphastar 的表现会在整个测试期间保持不变,不进行训练学习;这样得到的测试结果能直接反应 deepmind 目前的技术水准到达了怎么样的水平。另一方面,作为 alphastar 技术方案的一大亮点,参与测试的 alphastar 也会是 alphastar 种群(alphastar league,详见下文)中的多个不同个体,匹配到的不同 alphastar 个体可能会有迥异的游戏表现。
在今年一月 deepmind 首次公开 alphastar 与人类职业选手的比赛结果时,雷锋网 ai 科技评论就结合 deepmind 官方博客对 alphastar 的技术特点进行了报道。这里我们再把 alphastar 的技术特点总结如下:(详细可以参见)
模型结构 - alphastar 使用的是一个长序列建模模型,模型从游戏接口接收的数据是单位列表和这些单位的属性,经过神经网络计算后输出在游戏中执行的指令。这个神经网络的基础是 transformer 网络,并且结合了一个深度 lstm 网络核心、一个带有指针网络的自动回归策略头,以及一个中心化的评分基准。
训练策略 - alphastar 首先根据高水平人类比赛进行监督学习训练(模仿学习),然后进行自我对弈。自我对弈的过程中使用了群体强化学习的思路:alphastar 自我对弈过程中始终都同时记录、更新多个不同版本的网络,保持一个群体,称作 alphastar league;alphastar league 中不同的网络具有不同的对战策略、学习目标等等,维持了群体的多样性,整个群体的对弈学习保证了持续稳定的表现提升,而且很新的版本也不会「忘记」如何击败很早的版本。
训练结果输出 - 当需要输出一个网络作为最终的训练结果时,以 alphastar league 中的纳什分布进行采样,可以得到已经发现的多种策略的综合最优解。
算力需求 - 为了支持大批不同版本 alphastar 智能体的对战与更新,deepmind 专门构建了一个大规模可拓展的分布式训练环境,其中使用了最新的谷歌 tpuv3。alphastar league 的自我对战训练过程用了 14 天,每个 alphastar 智能体使用了 16 个 tpu,最终相当于每个智能体都有长达 200 年的游戏时间。训练结束后的模型在单块消费级 gpu 上就可以运行。
操作统计 - 在今年一月的版本中,alphastar 的平均 apm 为 280,峰值 apm 超过 1000,计算延时平均为 350 毫秒;切换关注区域的速度大约是每分钟 30 次。
此次在 alphastar 中测试的大行动空间下的长序列建模,以及群体强化学习的训练策略,都是对提升强化学习算法表现上限、应对复杂环境长期任务的积极技术探索。我们期待早日看到 deepmind 的这篇论文成文,更早日看到基于强化学习的决策系统整个领域都发展得更成熟。当然了,喜欢星际 2 的读者,可以准备起来,为 deepmind 的这篇论文贡献自己的一分力量吧!
雷锋网 ai 科技评论报道。