图1. 左:同一场景在第一视角和第三视角下;右:第一视角视频采集设备
本文摘要翻译自nus新闻:https://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/
为此,facebook联合新加坡国立大学 (nus) 、mit等世界各地的13所大学组成了一个学术联盟,致力于开展一个长期项目——ego4d(第一视角的 4d 实时感知 )。
ego4d链接:https://ego4d-data.org/
来自nus研究团队的principal investigator(主要负责人),助理教授mike寿政说:“在过去十年里,我们见证了ai在理解图像方面的变革,这是建立在 imagenet 等数据集所奠定的基础上的。类似的,我相信我们的 ego4d 数据集,将为第一视角的视频研究打好基础,从而推动智能感知在 ar 和机器人方面的快速发展。”
图 2. ego4d 是目前最大的第一视角的日常活动视频数据集
大多数ai系统需要大量数据进行训练,现有的大规模视频数据集通常以第三视角为主;而现有的第一视角数据集在规模、多样性和复杂性上都很有限。因此,该学术联盟推出了 ego4d 数据集:
● 大规模:研究人员分发头戴式相机或者ar眼镜给数据采集者,从而收集了累计3,000 小时的、日常活动中的第一视角视频;
● in-the-wild:包含了人们的日常生活的数百种不同活动,记录了相机佩戴者在关注什么,用手和面前的物体做什么,以及他们是如何与其他人互动的;
● 多样性:涵盖全球 73 个地点、9个国家,700 多名不同背景、种族、职业、年龄的数据采集者,囊括不同的文化和地理差异;
● 抽好的特征:所有视频,均有预先抽好的slowfast特征,方便大家进行实验;
● 授权公开:这些数据将于 2021 年 11 月公开,视频中的所有可见人脸和可听懂的语音均已获得参与者的授权。
图3. 通过采集的第一视角视频数据,ego4d团队可以开发ai模型来解决新的任务
与数据收集同样重要的是,定义正确的任务,进行严格的人工标注,来引导新技术的研发。
为此,ego4d 学术联盟联合构建了五个全新的、具有挑战性的任务:
(1) 情景记忆:什么时候发生了什么?如图3a, 告诉我钱包最近一次出现的位置。
(2) 预测未来:我接下来要做什么?如图3b, 他即将跳起来抓住单杠。
(3) 手与物体交互:我在做什么以及如何做?如图3c, 告诉我下一步的操作。
(4) 视觉 听觉:多人场景下,谁在什么时候说了什么?如图3d, 生成会议内容的总结。
(5) 社交交互:人与人如何交互?如图3d, 我注视着他,而他正在对我说话。
“我们nus研究团队主要为其中两个关键任务开发模型:一是,利用声音和视觉线索帮助ai识别“谁在什么时候说了什么;二是,开发具有社交智能的 ai,检测当下谁在对谁说话,谁在关注谁。”同样来自nus团队的co-pi李海洲教授如是说。
有第一视角感知能力的ai,将赋能ar眼镜、智能机器人等等同样是第一视角的设备,将在我们的日常生活和工作中发挥更大作用。想象一下:在对着新菜谱做菜时,不必再来来回回地看菜谱,你的ar 眼镜就可以实时地同步指导你执行每个步骤;对于有阿尔茨海默症等健康问题的人,ar眼镜可以帮助他们回忆钱包放在哪里了。
ego4d数据集只是起点,研发第一视角ai技术,进而赋能智能机器人、ar眼镜,将在不远的将来,改变我们的生活、工作、娱乐方式,带给我们前所未有的、虚拟与现实交融的体验。
雷锋网