资讯 人工智能开发者
此为临时链接,仅用于文章预览,将在时失效

探索与执行:通过元强化学习分解实现无奖励自适应 | 雷峰网-亚博电竞网

作者:ai研习社-译站
2020/09/16 15:51

字幕组双语原文:

英语原文:

翻译:雷锋字幕组()


比家务活更有成就感的活动。

没有人喜欢家务 一 我们可以制造机器人来帮我们做这些家务吗?例如做饭。 训练执行各种任务的智能体的一个通常范式就是针对每个特定的任务利用强化学习的方法训练一个单独的智能体,可是在人们的家中利用强化学习的方式从头开始训练一个智能体将会完全失败,因为这(训练过程)将会导致许多的灾难(例如厨房火灾),而且采用强化学习的方式从头开始训练一个智能体需要来自每个人大量的监督,从而对机器人成功做出一顿饭给出奖励,并且这也会花费大量的时间(从头学习每一个简单的任务都需要强化学习智能体数百万次尝试)。

相反, 理想的做法是,如果一个机器人首先在机器人厨师工厂中首次训练完成之后,我们就可以训练它使其能够快速适应各种各样的家庭厨房。直观地说, 这应该是可能的, 因为不同的任务和环境都拥有大量相似结构(例如, 在一个厨房里做比萨饼类似于在另一个厨房里做汉堡包), 这可以使学习每一项任务变得更容易和更有效率。 

幸运的是,在对许多相似的任务进行了第一次训练之后,元强化学习寻找的确切目标是通过对新任务很少的交互来训练智能体使其适应新任务,那么, 为什么今天没有机器人在我们的厨房做饭呢? 为了回答这个问题, 我们将把注意力转向元探索的问题: 如何最好的利用这些很少的交互来探索新的任务. 例如, 为了适应一个新的厨房, 一个机器人厨师理想的情况下应该花很少的互动来探索新厨房来寻找配料(烹饪原料), 这允许它能够作出一顿饭(解决这个任务). 在这篇博文中, 我们将讨论并解决关于的元探索的两个关键挑战, 这两个挑战让人类留在厨房(意思就是机器人不能正常工作)。

标准元强化学习设置

在开始之前, 我们回顾一下标准元强化学习的问题讨论, 在元强化学习中,一个智能体(例如一个机器人厨师)需要在不同的环境(不同的厨房)和不同的任务(不同的饭菜)中进行训练, 然后需要在新的环境和新的任务中进行元测试, 在面对一个新环境和一个新任务时,在真正开始执行任务之前, 智能体需要花费一段时间探索,来收集必要的信息(例如, 定位配料的位置),, 然后在执行任务的过程中,智能体需要完成这个任务(例如作出一顿饭)。

在更正式的语言中,标准meta-rl考虑了一系列问题,其中每个问题确定了一个奖励函数\mathcal{r}\murμ(例如,烹调一个比萨饼)和转换交互的场景(例如,厨房),  使用duan等人2016年的术语,我们将一个试验定义为同一问题中的几个片段, 第一个阶段是探索片段, 在这个片段中智能体收集信息并且不需要获得最大回报. 所有接下来的片段时执行阶段, 在这个阶段中,智能体需要完成这个任务,其目标是在元测试试验的执行阶段,即在元训练期间的许多试验中进行第一次训练之后,最大限度地获得回报。

鸡和蛋的耦合问题。元探索问题的通常的方案(wang et al., 2016, duan et al., 2016)就是优化一个循环的策略, 这个策略基于执行事件的奖励进行端到端的探索与训练. 我们希望能在重复策略的隐藏状态下,捕捉到探索事件中所学的信息,然后这些信息将对执行事件有用. 可是这会导致一个鸡和蛋的耦合问题,这就是学习很好的探索行为需要已经学到很好的执行行为,反之也是这样这就阻碍了这种方法的学习。

例如, 如果一个机器人厨师不能发现厨房中配料的位置(糟糕的探索), 然后它可能就不能学习如何做饭(糟糕的执行). 另一方面, 如果一个机器人不知道如何做的饭(糟糕的执行), 那么无论探索过程如何做,都不能够成功的做出一顿饭.这就使得探索过程充满了挑战. 由于机器人刚开始训练时既不能探索也不能做饭, 将会陷入一个局部极小值,并且很难学习。

耦合难题。 哪一个先开始:鸡(好的探索)还是蛋(好的执行) 

利用dream避免这个耦合难题. 为了放置鸡和蛋耦合的难题, 我们提出了一个方法打破在学习探索与学习执行行为二者的这种循环依赖, 这种方法称为dream。直觉上,通过尝试恢复执行指令所需的信息,可以学习到良好的探索。因此,从高层次上讲,dream包括两个主要步骤:1)同时学习独立于探索的执行策略,并了解执行所需的信息;2)学习一个探索策略来恢复该信息。

为了回答鸡和蛋的问题, dream制作了它自己的蛋并且然后鸡出来了

具体来说, 第一步, 我们基于问题标识符\mu,训练一个执行策略 \pi^\text{exec}πexec, 在做饭的例子中, 可能要么直接确定厨房的属性(例如墙的颜色或者配料的位置),要么直接给厨房提供唯一的独特的标识符(例如one-hot编码)  。 这种问题标识符(直接或者不直接 ) 编码了所有必要的信息去解决厨房中的这种问题, 允许执行策略独立于探索过程进行学习,这种方法避免了耦合问题。 同时,我们在第一步中的目标是只识别执行指令所需的信息,而问题标识符也可能编码无关的信息,例如墙颜色。为了移除这些冗余的信息,我们应用一个信息瓶颈的策略来获得瓶颈操作后的表示zz,我们使用zz来训练一个探索的策略\pi^\text{exp}πexp。 

在第二步中,一旦我们获得了一个瓶颈表示zz(理想情况下只包含执行指令所需的信息),我们就可以训练一个探索策略\pi^\text{exp}πexp来恢复探索事件中的信息。为此,我们推出探索策略以获得一个片段\tauτ,然后根据该片段对zz中包含的信息进行编码的程度来奖励该策略。粗略地说,这个奖励是瓶颈表征zz和片段\tauτ之间的相互信息i(z;\tau)i(z;τ)。

dream元测试

在元训练期间,通过简单地为每个问题分配一个唯一的one-hot编码,问题标识符\muμ很容易提供,但在元测试期间通常不可用或没有帮助(例如,如果\muμ是一个全新的one-hot编码)。这似乎很令人担忧,因为在元训练期间,zz上的执行策略条件需要知道\muμ。但是,由于探索策略经过训练,可以生成包含与zz相同信息的探索轨迹\tauτ,因此我们可以在元测试时通过推出探索策略直接将\tauτ替换为zz。详情请看我们的论文!

改进标准meta-rl设置。第二个元探索挑战涉及元强化学习设置本身。虽然以上标准的meta-rl设置是一个有用的公式,但我们观察到两个方面可以使得元强化学习变得更加有现实意义。首先,标准的设置需要智能体依据获得的奖励自己推断任务(例如,做什么饭),这是没有必要并且非常不高效的. 相反, 在现实情况下,使用者将会告诉之恩功能题他们需要什么。

开放和诚实的沟通对你的机器人也很重要。

虽然标准的元强化学习的设置利用了不同问题(环境和任务对)之间的共享结构,但它不能捕获同一环境中不同任务之间的共享结构。确切的来说, 在一次实验中的所有片段都是固定的,为了执行一个新任务(例如,做一顿新饭),智能体需要另一个探索片段,即使底层环境(如厨房)保持不变。取而代之的是,一个智能体在一个探索片段之后,能够执行许多任务。例如,在探索厨房找到任何配料后,一个理想的机器人厨师将能够烹调任何涉及这些配料的饭菜,而在标准元强化学习环境中训练的智能体只能做一顿饭。

按照标准元强化学习设置训练的机器人厨师晚餐安排 

这两个方面可以掩盖元探索问题,即如何最佳地使用探索片段,因为前者需要不必要的探索来推断任务,而后者只需要智能体探索来发现与单个任务相关的信息。 虽然直觉上,智能体应该花费探索片段来收集有用的信息,以供以后的执行事件使用,但在许多情况下,当处理简单的任务时最优探索会崩溃。例如,智能体只能发现任务是通过成功地烹调比萨饼并获得积极的奖励来烹调比萨饼,但在未来的执行片段中却一次又一次地做同样的事情。这会让探索情节几乎毫无用处。

基于指令的元强化学习。 为了使元强化学习具有更好的现实意义, 我们提出一种新的称为基于指令的元强化学习, 这种方法将解决了上边的两个方面的问题, (i)给智能体提供一个指令(例如, 制作比萨或者one-hot编码),这个指令在执行阶段指定了特定的任务。(ii)在执行阶段通过提供不同的指令更换任务。 例如,在工厂的不同厨房进行元训练后,机器人厨师可以在一个单独的安装阶段(探索片段)后,在新的家庭厨房中烹饪人类指定的许多不同的饭菜。


基于指令的meta-rl:改变每一个执行事件的任务通过指令传递给智能体。在试验中,环境仍然保持不变。 

无奖励自适应。在标准的元强化学习设置中,为了推断任务智能体需要在探索期间进行奖励观察。然而,通过接收在imrl中指定任务的指令,个好处是代理不再需要观察奖励来适应新的任务和环境。具体地说,imrl支持无奖励适应,在元训练期间,智能体在执行阶段使用奖励观察来学习解决任务,但在探索阶段不观察奖励。在元测试期间,代理从不观察任何奖励。这使我们能够对真实世界的部署情况进行建模,由于在这种真实世界情况下,收集奖励监督非常昂贵。例如,机器人厨师最好能够适应家庭厨房,而不需要任何人的监督。

imrl通用吗?重要的是, 把指定设置为空就退化为标准的元强化学习设置. imrl通用吗?重要的是, 把指定设置为空就退化为标准的元强化学习设置。 换句话说, 标准的元强化学习就是imrl的一种特殊情况, 在这种情况下,使用者的希望是固定的,并且使用者不给出任何指令。 因此imrl的算法也可以直接应用到标准的元强化学习中, 反之亦然。


稀疏奖励三维视觉导航。在我们论文中的一个实验中,我们在一个是稀疏奖励三维视觉导航问题组中评估dream,这个问题在2020年由kamienny等人提出,我们在这个问题中引入视觉信号和更多的物体来世的这个问题变得更难。我们使用imrl无奖励适应的设置。在执行片段中,智能体收到一个指向目标的指令,一个球,一个块障碍块者一个钥匙,智能体从障碍的另一侧开始执行过程,并且必须绕着障碍物走一圈,阅读标志(用黄色突出显示),在问题的两个版本中,标识要么指定到对象的蓝色或红色版本。智能体接收80x60 rgb图像作为观察,可以向左或向右或向前移动。执行正确的对象会得到 1的奖励,而去错误的对象会得到-1的奖励。


如下图所示, dream在这项任务中学会了近乎最佳的探索和执行行为。在左边,dream在探索的一段时间里绕着障碍物走着,看上面写着蓝色的标牌。在右边,在一个执行片段中,dream收到了一个走到钥匙的指令。因为在探索的阶段  dream已经读到写着蓝色的标志,所以它走向蓝色键。 


探索

执行(走到钥匙)

对比。广义上来说, 以前的元增强学习方法分为两个组:(i)端到端的方法, 这种方法基于执行阶段的奖励优化探索与执行过程。 (ii)解耦的犯法,这种方法利用单独的目标单独优化探索与执行过程,我们对比dream方法和这两类中目前最优的方法, 在端到端训练的类别中,我们对比

除此之外, 在解耦类别中,我们对比:

pearl-ub,这是pearl6的上界. 我们利用问题的真实后验分布,分析性地计算出由特定于问题的最优策略所获得的预期回报。 

定量结果。 下边我们打印出所有方法的收益。 对比实现了几乎最优结果的dream, 我们发现端到端训练的方法从来没有读取到标志, 并且为了防止收到负的奖励, 结果就是错过了所有的物体。 即使他们被允许在探索情节中观察奖励(虚线),这种情况也会发生。因此,它们没有得到回报,这表明了耦合问题。

另一方面, 尽管解耦类别的方法避免了耦合问题, 单是有互目标没有得到最优的探索策略。 例如尽管可以获得特定问题的真实后验概率分布, 汤普森采样方法(pearlub)没有实现最优的奖励,要了解这一点,回想一下thompson抽样是通过从后验分布中抽样一个问题并遵循该问题的执行策略来探索的。由于最优执行策略直接指向正确的对象,并且从不读取符号,因此thompson抽样在探索过程中从不读取符号。 相比之下,dream的一个很好的特性是,只要有足够的数据和足够的策略类,它就可以从理论上学习最优的探索和执行。

在探索过程中有(虚线)和没有(实线)奖励的训练曲线。只有梦才能读懂标志,解决任务。而且它在探索过程中不需要奖励就可以做到!

额外的结果,在我们的论文中,我们也在额外的简爱哦学问题中评估了dream,设计这些问题来回答下列问题:

大体上来说,对于以上问题,答案是肯定的,你可以从我们的论文中获得更加细节性的结果。

总结,在这篇博文中, 我们解决了元探索的难题:在一个新环境中为了执行一个任务如何更好的收集信息。 为了做这个工作, 我们测试并且解决两个主要的关键挑战。

dream 和 imrl 很好地结合在一起: imrl 原则上实现了无奖励的适应,而 dream 在实践中实现了这一点。由于 鸡蛋相生 耦合问题,我们测试的其他最先进的方法无法实现无奖励的适应。  

接下来是什么? 未来还有很多工作要做 一 下面是一些研究探索的方向:


雷锋字幕组是一个由ai爱好者组成的翻译团队,汇聚五五多位志愿者的力量,分享最新的海外ai资讯,交流关于人工智能技术领域的行业转变与技术创新的见解。

团队成员有大数据专家,算法工程师,图像处理工程师,产品经理,产品运营,it咨询人,在校师生;志愿者们来自ibm,avl,adobe,阿里,百度等知名企业,北大,清华,港大,中科院,南卡罗莱纳大学,早稻田大学等海内外高校研究所。

如果,你也是位热爱分享的ai爱好者。欢迎与雷锋字幕组一起,学习新知,分享成长。

雷锋网雷锋网

长按图片保存图片,分享给好友或朋友圈

探索与执行:通过元强化学习分解实现无奖励自适应

扫码查看文章
亚博电竞网

正在生成分享图...

取消
相关文章
网站地图