在具有挑战性的环境中,一些人工智能系统通过利用过去经验所提供的世界表象来实现目标。研究人员将这些应用推广到新的情况,使它们能够在以前从未遇到过的环境中完成任务。
事实证明,强化学习——一种使用奖励来推动软件策略朝着目标前进的训练技术——特别适合学习一个总结agent经验的世界模型,并通过扩展来促进新行为的学习。
雷锋网消息,近日,来自google、alphabet子公司deepmind和多伦多大学的研究人员发表了一篇名为《梦想控制:通过潜意识的学习行为》的新研究,他们开发了一个增强型学习智能体dreamer,通过内化一个世界模型,并通过通过潜在的“想象力”来提前计划选择行动。
他们说,dreamer不仅适用于任何学习目标,而且在数据效率、计算时间以及最终性能方面都超过了现有的方法。
在它的整个生命周期中,无论是交错还是并行,dreamer都会学习一个latent dynamics model(潜在动力学模型),以预测动作和观察结果的回报。在这种情况下,“latent dynamics model”是指从图像输入中学习并执行计划以收集新经验的模型。
“潜在”表示它依赖于隐藏状态或潜在状态的紧凑序列,这使它能够学习更多抽象的表示形式,例如对象的位置和速度。使用编码器组件,有效地将来自输入图像的信息集成到隐藏状态中,然后及时地将隐藏状态向前投影以预测图像和奖励。
上图:dreamer完成一个摆动钟摆的任务。中间显示45步预测
dreamer使用了一个多部分的latent dynamics model,这个模型的结构有些复杂。“表示”位对观察和动作进行编码,而“过渡”位则在没有看到会引起观察的情况下预见状态。第三个组件(奖励组件)根据给定的模型状态来投影奖励,而行为模型将实施学习的策略并旨在预测可解决想象的环境的行为。最终,价值模型评估行动模型实现的预期想象奖励,而观察模型提供反馈信号。
上图:梦想家在迷宫中导航。中间显示45步预测。
雷锋网了解到,在一系列实验中,研究人员测试了dreamer在deepmind control suite中的20个视觉控制任务上的效果,deepmind control suite是一种用于评估机器学习驱动的代理的仿真软件。
他们首先使用nvidia v100图形芯片和10个处理器内核来训练它,每次培训运行一次。他们说,控制套件上每106个环境步骤花费了9个小时。(相比之下,google的dreamer前身planet花了17个小时才达到了类似的性能。)
上图:梦想家在玩atari游戏(拳击)。中间显示45步预测。
研究人员报告说,dreamer有效地利用了学习的世界模型来从少量经验中进行概括,并且它的成功证明了,通过潜在的想象力进行的学习行为可以胜过顶级方法。他们还说,dreamer的价值模型即使在短期计划中也表现良好,在20个任务中的16个(有4个打成平手)上表现优于其他模型。
研究人员写道:“未来,关于表征学习的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中,”研究人员计划在本周温哥华的neurips 2019上展示他们的工作。dreamer项目的代码可在上公开获得。雷锋网
专题