资讯 人工智能学术
此为临时链接,仅用于文章预览,将在时失效

星际2玩家们,你们很快就会在天梯上为deepmind的论文做贡献了 | 雷峰网-亚博电竞网

2019/07/11 14:35

雷锋网 ai 科技评论按:昨晚,暴雪联合 deepmind 发出一则新闻,deepmind 开发的星际 2 ai「alphastar」很快就会出现在星际 2 欧洲服务器上的 1v1 天梯比赛中。人类玩家们不仅会有机会匹配到它们、和它们展开标准的比赛,比赛结果也会像正常比赛一样影响自己的天梯分数。

在星际 2 上做科研实验

正如人尽皆知的围棋 ai alphago,deepmind 喜欢的强化学习 ai 研究过程是在某个比赛(博弈)环境中进行技术探索,在新技术的辅助下让智能体从历史数据中学习、从自我博弈中学习,然后与人类高手比赛,评估 ai 的水准。樊麾、李世石、柯洁都光荣地成为了「人工智能测试高级工程师」。

在此次星际 2 ai「alphastar」的研究过程中,deepmind 继续沿用这个思路,但这次他们更大胆一点,让大批不同水准的普通玩家参与到 ai 表现的评估中来,最终的比赛结果会写到论述星际 2 ai 科研项目的论文里,向期刊投稿。这就是暴雪和 deepmind 联手把 ai 送上天梯比赛的最重要原因。

进入星际 2 游戏,在 1v1 比赛设置了允许接入 deepmind(deepmind opt-in)之后,参加 1v1 天梯比赛的玩家们就可能会遇到 alphastar。为了控制所有的比赛都尽量接近正常的人类 1v1 天梯比赛,以及减小不同比赛之间的差异,alphastar 会随机匹配到一部分玩家的天梯比赛中,并且 ai 会在游戏保持匿名,匹配到的玩家和星际 2 后台都无法知道哪些比赛是有 alphastar 参与的。不过,设置了允许接入 ai 之后,相信玩家们立即就会开始对匹配到 ai 对手产生期待,而且在比赛开始之后也可能很快就会发现自己的对手有一些不寻常之处。

一月的比赛中,alphastar 会建造大量工人,快速建立资源优势(超过人类职业选手的 16 个或 18 个的上限)
一月的比赛中,alphastar 控制的两个追猎者黑血极限逃生

今年一月时 alphastar 就曾与人类职业选手比赛并取得了全胜。相比于当时的版本,此次更大规模测试的 alphastar 版本进行了一些改动,其中一些改动明显对人类有利:

参与测试的 alphastar 都是从人类比赛 replay 和自我比赛中学习的,没有从与人类的对局中学习,同时 alphastar 的表现会在整个测试期间保持不变,不进行训练学习;这样得到的测试结果能直接反应 deepmind 目前的技术水准到达了怎么样的水平。另一方面,作为 alphastar 技术方案的一大亮点,参与测试的 alphastar 也会是 alphastar 种群(alphastar league,详见下文)中的多个不同个体,匹配到的不同 alphastar 个体可能会有迥异的游戏表现。

alphastar 技术特点

在今年一月 deepmind 首次公开 alphastar 与人类职业选手的比赛结果时,雷锋网 ai 科技评论就结合 deepmind 官方博客对 alphastar 的技术特点进行了报道。这里我们再把 alphastar 的技术特点总结如下:(详细可以参见)

此次在 alphastar 中测试的大行动空间下的长序列建模,以及群体强化学习的训练策略,都是对提升强化学习算法表现上限、应对复杂环境长期任务的积极技术探索。我们期待早日看到 deepmind 的这篇论文成文,更早日看到基于强化学习的决策系统整个领域都发展得更成熟。当然了,喜欢星际 2 的读者,可以准备起来,为 deepmind 的这篇论文贡献自己的一分力量吧!

雷锋网 ai 科技评论报道。

长按图片保存图片,分享给好友或朋友圈

星际2玩家们,你们很快就会在天梯上为deepmind的论文做贡献了

扫码查看文章
亚博电竞网

正在生成分享图...

取消
相关文章
网站地图