雷锋网 ai 科技评论按:10 月 17 日至 19 日,由 ccf 主办、苏州工业园区管委会、苏州大学承办的 cncc 2019在苏州成功召开。今年大会以「智能 引领社会发展」为主题,选址苏州金鸡湖国际会议中心召开。雷锋网ai 科技评论作为战略合作媒体对会议进行了全程跟踪报道。
在《》一文中,雷锋网 ai 科技评论提到,由澎思科技承办的「计算机视觉技术赋能智慧城市」技术论坛尽管在大会第三天举办,仍然人满为患,成为今年 cncc 的爆款技术论坛之一。
澎思科技首席科学家、新加坡研究院院长申省梅作为该技术论坛的主席兼演讲嘉宾,带来了主题为《视频图像智能化助力智慧安防建设》的演讲,她认为当前由于巨量摄像头的存在并不断生产出海量的监控视频,如果想要更好地利用、存储和检索视频图像,必须把视频图像智能化,将视频结构化和智能压缩,只有这样才能做到事前预警、事中处置、事后分析。
个人简介:申省梅,澎思科技(pensees)首席科学家、新加坡研究院院长,前松下新加坡研究院副院长。作为计算机视觉与深度学习领域顶级科学家,领导超40人的算法研究团队,获得十余项计算机视觉领域国际顶级竞赛冠军,累计专利300余项,致力于监控与安全、智慧城市、自动驾驶、智能机器人以及ai 工厂自动化亚博电竞网的解决方案等领域的相关技术的开发部署和落地。曾联合新加坡国立大学lv组参加pascal voc(视觉物体分类)连续三年获奖,在美国国家技术标准局(nist)主办的非受限条件下人脸识别竞赛ijb-a获得了人脸验证 (verification)与人脸辨认(identification)的双项冠军,在微软百万名人识别竞赛ms-cele-1m人脸挑战赛获双项冠军。
以下为申省梅演讲全文,ai 科技评论进行了不改变原意的编辑。
申省梅:
视频图像是从摄像头而来,就像我们的眼睛,我们看到了东西,但如果我们没有大脑来分析,图像就等于是没有意义的东西。
智慧城市包含着方方面面,从最近的落地来看,智慧安防、智慧交通、智慧社区远远走在了前面。那视频图像智能化能如何助力于智慧安防建设?
纵观整个安防行业的发展历程,ai的发挥空间还有很多。我相信大家也熟悉整个安防行业的发展,在座年轻人可能不太清楚,最早监控用的都是模拟摄像头,在中国模拟摄像头可能都不见了,但在其它国家还在大量地被使用。下一个阶段,当数字相机出现以后,就出现了dvr;接着网络监控阶段出现了,那时候我们就叫nvr 网络软件数字相机;今天我们看到的高清摄像头、以及智能监控已经出现在各个应用场景中了。
据英伟达预测,到2020年全世界会有10亿个视频摄像头在使用,另一个统计说中国现在已经有1.76亿个摄像头,3年之后可能会有6亿摄像头,也就是说平均两个人一个摄像头。
对大量的视频,尽管我们有压缩手段(视频流),但怎样存储、怎样观看越来越成为一个难题?假如我们想从大量视频当中快速地侦破一个事件,或检索一件事都变得非常困难。那是不是可以用人工智能来帮忙解决这个问题,做到事前预警、事中处置、事后分析呢?
数据压缩,事实上是一种不做内容分析的压缩,包括mpeg1/2、h.264、h.265,甚至现在的h.266,以及中国的压缩标准avs2/3。即使有这样的压缩,但现在摄像头的像素越来越高,摄像头的数目越来越多,即使有5g的出现,有云端的存储,我们最后的dvr、nvr(即使是云端的存储)也都是一种物理的存储。这不像我们大脑,从来没有一个人说“我们的大脑放不下东西了,我的记忆力满了”这样的话。因此我们就问,什么时候人工智能能做到代替物理的存储?物理存储是一个空间,它是有局限性的。目前的一种做法就是视频图像智能化。
对视频图像智能化我们要做好几件事,都是基于图像的分析理解。
第一,视频图像的恢复增强,即在恢复过程中如何提高图像质量。
第二,视频图像的目标检测、跟踪、识别。这个我们可以做到事前预警、事中处置。
第三,视频结构化,它包括人脸属性、行人属性、车辆属性、非机动车属性、以及各种物体的属性,每一个东西都有它的id(都有它的属性),这些结构化的信息就会使事后检索分析变得更为方便。
第四,在智能化的时代,我们除了普通的图片和视频压缩以外,能不能在视频内容理解的基础上做智能压缩。目前我们也在做智能压缩,也在做视频摘要,这会让我们进一步节省存储的空间和传输的带宽。
刚才讲到图像压缩会造成图像模糊,其实还有很多方面都会造成图像的质量下降,比如设备用的不正当,例如你用了高清的摄像头,但你的lens用的不匹配,或者我们拍摄的时候,环境条件(比如灯光或天气)不太好。李子青老师讲过光线对人脸造成非常大的影响,这几个问题都会让我们看到视频图像恢复增强是非常重要的一关。
分享一下我们最近的成果,对非常小的脸用的是“深度超分辨率技术”。传统的人脸识别在40×40以下就不行了;用上深度学习后可能会提高到30×30。
而我们的工作可以做到12×14(这是一个很小的脸),中间的结果是我们用深度学习的超分辨率方法恢复了他的人脸识别,我们在人脸识别的库上检测发现,用了深度超分辨率以后,我们的人脸识别性能从0.75提高到0.97。
当然还有其他各种各样的模糊问题,我们也都在做,例如运动模糊、defocus的模糊等,我们希望将来能够用单一的模块覆盖不同的模糊。
其次是背光、低光的处理。这里有两个图,右边这张图很黑,什么都看不清,当我们用低光处理后(如左图),内容就可以看到了。第二张图是做人脸识别的时候,如果你背后光线非常亮,你站在那边拍照,常常会出现脸部漆黑一片。我们用了背光处理,背光处理有不同的方法——传统的、深度学习的方法,在不同的硬件上、不同的场景下,我们会选择不同的算法。
图像增强也包括去抖动,比如刮风时抖动引起来的图像模糊,以及去雾、去云、去雨的处理。
澎思科技的人脸识别和行人识别、车辆识别,以及非车辆(自行车、摩托车等)的识别都是我们的关键产品,在技术上面,我们要求是非常高的。
这是过去我带领的团队取得的成绩,关于人脸识别,取得了nist奖,以及微软百万名人脸识别挑战赛的冠军。目标跟踪、行人检测、行人再识别也分别打破了世界记录。此外在pascal voc(imagenet前身),我们当时连着3年参加比赛,并且连续3年拿到冠军。交通异常检测、自动驾驶、以及智能机器人,我们都有参加比赛拿到过冠军,计算机视觉其实面特别广,它也用在智能机器人,自动驾驶方面。
我们最近在做跨摄像机的行人再识别reid。在不同的摄像头里,有时候有人脸出现、有时候没有人脸出现,通过reid的技术,即使在看不到人脸的情况下,我们仍可以通过行人的身体特征去判断这个人是谁。
这是我们做的一些测试,黄色框中这个人根本连脸都看不到,他出现在不同的角落,但我们通过他身体的特征,会知道这是同一个人,id是55,另外一个人是id25。
7、8月份左右,我们在行人再识别三大数据集market1501、dukemtmc-reid、cuhk03,视频行人再识别三大数据集prid-2011,ilids-vid,mars,以及行人属性上都打破了世界记录。
人脸识别,澎思更专注于动态捕捉下的人脸识别。监控相机没有办法约束条件,人脸的姿态、灯光的变化各种各样,还有模糊的情况。在这方面,最近澎思的模型在ijb-b和ijb-c下刷新了记录。我们的客户也拿我们的模型去跟友商做了比对,可以看出性能远远超过友商的性能。
李子青老师刚刚提到的iccv的人脸识别比赛,我们在iccv lfr挑战赛的轻量级图像识别、大型图像识别和轻量级视频图像识别三项竞赛中成绩第一,一个竞赛成绩第二。
视频结构化刚才也讲到了。当你事后想要从视频中检索一件事的时候,可以用视频的属性来检索。
这是公安的需求。原来公安想要从一天的视频中找到想要的东西,要用肉眼来看视频,找一个东西,确定一件事是什么时候发生的,至少要把整个录像看完才行;然而将视频结构化以后,几秒钟就可以找到想要的东西。
澎思科技的视频结构化属性与目标参考了国标,比如对行人结构来讲,我们支持27大项、128小项,这是属于业界第一的。9月份,澎思在行人属性三个数据库上也刷新了世界记录。
当然,在做的过程中也有很多困难,比如数据采集、以及数据长尾问题。长尾问题我们用了各种方法来解决,甚至用一些传统的图像处理方法,比如雨伞我们可以生成不同颜色的,其中也用了一些很inpainting的技术,也用了gan来生产,比如最下面这个人脸的数据库不平衡,这个文章已经发表。
澎思也可以做到实时结构化预览、综合检索,以及以图搜图,甚至以图搜视频。
在人脸属性上,除了性别、年龄以外,澎思的算法还包括有没有戴口罩、有没有眼镜等,共支持其它40多个不同的属性描述。
结构化也包括人、车一些行为的异常检测。异常包括交通的异常、打架、抢劫、聚集、事故、抽烟等。2018年我们也在cvpr上的ai city challenge拿到了冠军。
最后一个内容,讲一下视频内容的智能压缩,视频摘要。鲁继文老师提到深度强化学习怎么来帮助我们的例子,在这个问题上,我们知道很难用强化学习来做视频摘要和内容压缩,因为你不知道视频中哪一个行为是最关键、最重要的。
所以,一个策略就是在不同的情况下要有不同的考量,不仅仅是从一帧上去考量,它是在时空域上的一个分析,所以我们采用时空域的特征,并且做到关键内容的保留、压缩和摘要,根据不同的情况,有的时候可以做到10倍、100倍、甚至1000倍的压缩。我们在压缩的过程中属性同时会被记载下来,当将压缩后的这一段视频存下来以后,会不断地将重要的场景和行为存下来,而且对它的属性都有描述。
视频图像智能化,事实上还取决于图像质量的好坏,而图像质量的好坏又取决于整个软硬件系统的构成。比如说拍摄距离是多少、相机的像素是多少、镜头怎么选择、传输的方式是怎么样的、视频图像压缩的方式等,这些都会影响到图像质量的好坏。所以我们说完美体现技术的优势还在于一个很smart的亚博电竞网的解决方案,以及系统人员的培训。
在ai产业图谱中的技术层,澎思科技一直走在前面。我们的立场是坚持应用驱动的亚博电竞网的解决方案,商业驱动的算法研究,用最有效的算法和最经济的软硬体来解决客户的刚需。
因此我的结论就是,视频图像的智能化非常重要。现在很多人都在用深度学习,如果是视频图像数据,就一定要进行结构化分析,这是一个前提。这个方面包括了很多技术,如果把这些技术都用好,我们就可以实现事前预警、事中处置、事后检索分析。我个人更想追求的一个方向是节省存储空间、传输带宽、智能化的方式。这个方面我相信接下来大家会往这个方面多考虑,我们会有更好的发挥空间,谢谢大家。
雷锋网报道。
专题