雷锋网 ai 科技评论消息,距 nips 2018 召开还有不到一个月的时间,nips 2018 上的各种技术挑战赛也接近尾声。关于挑战赛的详细信息,请参见:
在上周结束的 2018 (ai for prosthetics challenge)中,来自百度 nlp 团队的 firework 一举击败全球 400 多支参赛团队,以 9980.46 的得分夺得冠军,领先第二名高达 30 多分。
人工智能假肢挑战赛是由斯坦福大学神经生物实验室与 epfl 联合举办的强化学习赛事,旨在通过将强化学习应用到人体腿部骨骼仿真模拟模型的训练,从而加快人体假肢领域的相关研究,并开创该领域的研究的新方法。
自今年 7 月份启动以来,来自全球 400 多技术团队都参与其中。其中既有上届冠军、由 “rnn之父”juergen schmidhuber 创立的 nnaisense,也有阿里巴巴、yandex 等巨头。
今年的比赛中,赛会组织者提供了一个人体骨骼-高仿模型,该模型是斯坦福国家医学康复研究中心研发的 opensim 高仿模型,拥有人类腿部绝大多数真实骨骼、关节和肌肉的精细仿真。参赛者需要根据该模型中多达 100 个以上的状态,来决定模型肌肉的信号,然后控制该模型的肌体行走。
在去年的第一次挑战赛上,比赛规则围绕谁能让模型肌体行走速度最快。而今年除了将整个模型运动控制从 2d 改为 3d 外,还引入带有假肢的模型,同时模型的假肢不可控制,模型肌体行走的速度也有要求,并且还需要在第二轮比赛中按照事先未知的指定速度进行切换。
相较而下,今年的比赛难度再次增加。比如对模型肌体有效信息的判断上,由于实际状态空间和动作空间稠密并且非常大,导致基于强化学习的算法无法准确把握模型肌体的行走姿势;更进一步,由于规则要求不断切换速度,更增加了模型控制难度。
在此次比赛中,百度首先通过上千台机器的 cpu 集群来加速模拟环境,利用 rpc 机制进行机器间通信,从而能在高性能 gpu 上进行高效的模型训练。
其次,利用target driven deep deterministic policy gradient (target driven ddpg),使得模型能够应对较大空间和连续动作空间的挑战,最终也使得一个单一模型能够学习多种速度和姿态。
第三,在算法层面,通过 multi-head bootstrapping,能够更高效的对巨大的解空间进行探索(exploration),同时还将旋转不变性等各类特征处理方式,以及不断实验累计的各类 reward shaping 方法应用其中。
正是这些关键技术的综合应用,让百度能以 9980 的高分一举夺冠。据悉,早在本次比赛以前,百度已经将强化学习技术应用于信息流推荐、广告展现、搜索排序等大规模工业级场景。而本次比赛中所展现出的技术实力,再次证明了百度在强化学习相关技术上的积累也能够进一步推广到复杂机器人控制、自动驾驶等更多工业领域。
比赛更多详细信息,请参见:
专题