专访微软亚洲研究院童欣：vr/ar 里的手势交互到底难在哪儿？ | 雷峰网-亚博电竞网

微软亚洲研究院

2017/11/29 10:58

今天，电影已成为我们日常生活娱乐的一部分。从无声到有声，从黑白到彩色，从朴实的实景到炫目的特效，无疑，今天的电影画面越来越好看，这背后自然离不开技术的发展。

11 月 16 日，iceve 2017 北京国际先进影像大会在北京电影学院召开，除了“影像作品”本身，这场大会更加关注与影像作品密不可分的前沿技术。微软亚洲研究院网络图形组首席研究院童欣，同时也是未来影响高精尖创新中心的科技委员会委员也参加了这次活动。

1999 年，童欣获得清华大学博士学位，同年加入微软亚洲研究院，主要从事计算机图形学方面的研究，至今在该领域的研究已经有 18 年时间。那么，计算机图形学在十几年的时间里，发生了什么变化？对影像作品产生了哪些影响？同时，当前火热的 ar/vr 又对图形学提出了哪些新的要求？

现场，雷锋网对童欣博士进行了专访，采访内容雷锋网整理如下。

微软亚洲研究院网络图形组首席研究院童欣

q 1：您能介绍下近几年的一些研究方向吗？

童欣：我们在微软亚洲研究院属于网络图形组（internet graphics）。研究的方向主要集中在内容生成和交互方面。

内容生成是指如何帮助用户快速高效的生成高质量的可视内容，核心包括三维内容，展示方式是图像、视频，围绕这些做一系列的工作，如材质建模、形状建模、动画生成等。

另一方面研究集中在人机交互、ar 和 vr 方面，vr/ar 中自然地人机交互，比如，识别和捕捉对方人脸的动作，帮助用户生成 avatar，手势的自动生成，通过人体运动手段进行捕捉、重建，有了这些就可以方便用户做识别和交互。

另外，是针对三维打印，软体机器人方面的研究，这是图形学的另外一个重要的应用。生成虚拟的内容后，现在随着 3d 打印技术的进步，人们希望通过图形学的手段把一些虚拟的东西，通过制造返回到真实的世界里，这就涉及到机器人相关、3d打印相关技术的前沿性研究。

q 2：研究成果有哪些？如何跟微软其他产品部门合作？

童欣：我们图形组自成立以来，和微软产品组一直有密切的合作。像以前 xbox 和 direct3d 中的渲染技术、建模技术、纹理映射技术很多都来自我们组的研究成果。图形系统方面，比如这代 xbox 游戏主机可以兼容上一代所有的游戏，这里面所涉及的图形系统相关的技术都来自我们组。

跟产品部门的合作主要通过两种方式进行，一是把我们最新的研究方向和研究成果展示给他们看，希望这些技术对产品的研发有一些启发，能给他们带来新的应用和场景；另一方面，他们也会把他们在产品开发中遇到的一些技术问题，反馈给我们，我们会根据这些问题做些特定的技术研究，帮助产品组把产品做的更好。

q 3：您平时关注电影特效吗？现在的电影画面有什么大的变化？

童欣：一部新的动画电影出来了，除了欣赏精彩的故事，我也会看看电影中所包含的技术的相关分析文章。另外像 siggraph 这样的行业会议上，做了新电影的人，都会到会上做很多专题的报告，分享他们解决了哪些技术问题，应用了哪些新的技术。

跟十几年前相比，cg在电影制作中已经无处不在了，在十几年前的电影中如果有个cg，就是大制作，现在你很难找到没有 cg 的电影了，电视剧特效做的也非常普通了。

这些特效，有些会呈现出奇幻的效果，还有一些可能你根本看不出来，会以为是实景。通过一些图形学的技术，把虚拟和真实结合在一起，这些东西从观影角度已经看不出来了。

同时，特效可以减少拍摄的成本，有些很真实的场景，拍摄难度很大，像驯服一只老虎，现在用计算机技术，可以让老虎看起来跟真实的一样。

q 4：您从业的十几年中，计算机图形学学科有什么变化吗？

童欣：计算机图形学是个变化很快的学科，是和应用结合较紧密的学科，同时也是比较开放的学科。在图形学里，十年前就在讨论的核心技术问题，今天也在讨论，但同时应用和关注的热点一直都在扩展，发生变化。

对于研究图形学的人来说，任何跟可视相关的内容，我们都会视为研究方向的一部分，但随着一些方向慢慢成熟，又会从图形学中分离出去。可视化技术、计算机辅助制造，虚拟现实，这些都是图形学催生出来又逐渐分化出去的。而图形学自己又在寻找新的发展方向。

q 5:：vr/ar 对图形学提出哪些新的要求？

童欣：vr/ar 对图形的渲染速度，图形的质量有很高的要求。设备从一个像电影这样专门场所放映，到随着 vr 设备普及，恨不得人手一个。这意味着应用场景更大，我们对内容制作的成本、时间、效率有更多的要求。不光是质量上，速度和效率上也会有很多的挑战。另一方面，当我们在 vr/ar 环境中，提供了不同的体验形式，这对交互也提出了很多挑战。

q 6：您是如何看待现有的手势识别技术的？为什么现在还无法大规模使用？

童欣：手势识别是非常具有挑战性的问题，即使到目前也没有人敢说，实时三维手势跟踪完全解决掉了。即使基于深度摄像头，一个非常鲁棒的手势识别和跟踪系统，到目前还是一个挑战性的问题。大家也没有非常鲁棒的方案，这就是为什么大家在市面上看不到手势识别被大规模使用。

这里面又几个问题。从输入状态上说当我们有鼠标和键盘的时候，我们可以清楚的分清输入状态和非输入状态，比如说键盘当我们不敲击它，是非输入状态。对手势而言，什么时候是输入，什么时候是非输入，很难区分。因为我的手势时时在做，假设我还戴着 ar 眼镜，我怎么让设备知道，我是对设备做的手势，还是对你做的手势。手势没有一个状态去划分，从逻辑上讲，要把这个问题先解决掉。

语音的交互也面临同样的问题。所以我们看到，大家会给智能语音音响起个名字，这个名字就是为了让你切换输入状态。当我们去叫这个音箱的时候，音箱知道，这句话后面是输入命令。你平常讲话的时候，它就不会记录了，因为不是针对它讲的输入命令。

从效率上讲，我们在科幻电影中看到的手势识别非常漂亮，但是如果你去问问人机交互的专家，他们就会告诉你，如果你让一个人做这样的交互，没有人能坚持十分钟以上，就是说对很多场景，这不是一种非常自然的输入方式。

鼠标和键盘被发明出来，一个方面原因你可以说是因为不自然，需要学习，一旦你习得后，它的效率是非常高的。比如说游戏控制器，你只需要通过一个很小的运动，就可以在虚拟世界中有很大的运动，这个在实际的手势中很难做到。

最后，当我手握手柄的时候，手柄不仅是一个输入设备，同时也是输出设备，它可以通过震动、力反馈给我一个输出的反馈，当我手在空气中挥舞的时候，我一个输出的渠道就消失了。

所以，我们要等到技术成熟，然后找到手势识别和手势驱动最有效的应用场景，解决了里面的命令定义的问题，那么手势识别才能得到使用。手部识别如果只是识别双手的位置，这个技术是比较成熟的，但你想想如果识别手部每个手指的姿态，这还是比较难的。

q 7：为什么对手部的实时追踪这么难？

童欣：人手的姿态，关节自由度是非常高的，双手可以做各种各样的手势，再加上手臂的动作，自由度非常高，姿态空间非常大。

一个摄像头的话，遮挡会非常的厉害，人脸可以认为是扁平的东西，手却不是，手随便做些姿势，大拇指可能就看不见了，但我需要知道大拇指在哪。这是手势实时追踪面临的两个挑战，姿态丰富，同时遮挡严重，这意味着你需要推测其他手指的状态，这也是很难的。这就需要机器学习的技术。

你可以想想人是怎么做的，不仅通过手势，还要看你是不是冲着我，我们几个人说话，你可能给我做一个手势，我怎么知道这个手势是对着我做的呢？

首先，我要有上下文，保持手势在上下文中是可以被理解的，认为这个手势是对我做的；第二，我要看整个人的状态，你冲着我吗？这个手势是不是对着我做的，对着我做手势时，你可能还有其他相应的肢体动作来表达这个动作是不是对我做的。

我们人是有一套这样的东西，那么机器需要从人这边考虑这样的场景，需要很多对上下文场景的识别，最后来做到正常的识别。同时，由于没有清晰的定义这是输入状态，还是非输入状态，机器需要自动判定，什么时候是输入，什么时候停止输入。这是非常难的问题。

自然交互，本质上来讲是非常难的问题，做识别是第一步，真正做到好用自然，让大家用起来没有障碍，还有比较长的路要走。

q 8：如何看待 vr/ar 对人机交互的新需求？

童欣：vr/ar 模拟的是真实三维环境中的交互，视野被覆盖了，看不见鼠标和键盘。输入的内容，不是文本，不是在二维界面上操作，你要在虚拟的三维环境中漫游，这些需求要有新的交互手段，不一定是手势，但需要有新的交互方式。

大家之所以这么沉迷于做 vr/ar，很重要的原因是我们生活的世界是三维的，我们有需求重现三维世界，或者创造一个虚拟的三维世界，这是来自人的本能的需求。

虚拟的三维，或者在真实世界中叠加的三维，决定了你必须创造出三维的内容，因为我的视野随时在变，我的光照随时在变，我和物体随时在交互，状态随时在变，传统的视频也好，图像也好，解决不了这个问题，只有三维的图像能解决这样的问题。这也是为什么三维内容的生成，在 vr/ar中变得很关键的原因。

三维内容生产本身一直是一个瓶颈问题，我们很多行业需要三维内容，但只有专业人员才能把很多行业的内容变成三维内容，这个瓶颈就产生了，这需要技术的进步。

q 9：对现在 ar 的发展是怎么看的？

童欣：ar 可以想的更广泛一些，我们手机也好，耳机也好，都是 ar，当你走在街上戴着耳机听歌的时候，这就是 ar。在真实环境里，你听到的是别人虚拟唱的歌曲， ar 一直在，一直有需求，不过是从文字，听觉，慢慢变成视觉。把原来虚拟世界的信息和真实世界的信息结合，本来你的信息是有真实世界的意义的，把它返回到真实世界中，用统一的界面呈现给你，这是最关键的。

q 10：ar 和 ai 是怎样的关系？

童欣：ar 和 ai 是密不可分的。在 ar 中一个关键是内容生成。另外一个关键是全新的交互方式和体验方式。

所谓交互，既要有输入，也要有输出。输入就意味着，我们 ar 设备要对周围的环境有感知和认知，这个感知和认知就是ai研究中很重要的技术。

输出，靠图形，输入要靠很多计算机视觉的技术，一起来做，最后结合起来，才能成就 ar 这件事情。

q 11：计算机图形学还有哪些需要解决的难题？

童欣：我们有句跟奥林匹克一样的口号“更高、更快、更强”。大家对三维内容的需求永远高于我们的计算能力。

现在，我们的实时显示达到 30 帧/每秒，那你看看从最早计算机上有图形显卡，到现在，显卡的能力翻了不止百倍，甚至上千倍，我们的显示速率还是 30 帧/每秒，那我们变得是什么？是显示内容，真实感有了巨大的进步，但即使这样跟我们真实场景的差别，大家还是能看出来的。一个计算机绘制出来的图像，和一个真实照片，我相信大家还是能一眼看出其中的差别。

我们实时绘制的场景和一个照片相比，这里面有巨大的鸿沟。更不用说我们内容生成的效率，生成高质量的内容。

从更高层面讲，当我们的客户有一些意图的时候，如何快速有效地把客户模糊的创作意图转变成为具体的内容，这件事本身也是非常难的。

后记

去年，童欣对媒体曾预测 ar 发展的速度会超过 vr，此次采访，雷锋网问到他关于目前手机 ar 的发展，他认为这是很自然的现象，不管是手机 ar，还是 ar 眼镜，每种形式都有自己应用的场景和需求。最开始大家会做不同的尝试，这些尝试要交给市场和用户检验，其中一定会淘汰一些，最后留下来真正有需求的应用。