雷锋网ai科技评论报道,2019年10月17日-19日,cncc 2019在苏州金鸡湖国际会议中心举办,雷锋网作为战略合作媒体,对大会进行全程报道。
在18日上午的特邀报告中,数据挖掘领域巨擘美国伊利诺大学芝加哥分校俞士纶教授做了“broad learning:a new perspective on mining big data”(广度学习:大数据挖掘的新视角)的分享。
当前大家普遍对深度学习了解较多,而事实上对于数据我们不仅要挖得深,还需要挖得广。例如对于网页数据,深度学习能够单独学习文本数据或图像数据等里面的特性。但是真实的网页可能同时包含文本、图片、音频、链接等等的数据。
事实上,我们讲的大数据并不是说所有数据都很大,只是整体很大而已。更多的情况是,我们拥有许多不同来源的(小)数据,它们之间相互有或多或少地联系。如果能够将这些不同的数据源整合在一起,那么我们将挖掘出更多有价值的信息。
俞士纶教授认为,首先我们应当认同这样一个观点,即所有类型的数据都是可用的,换句话说就是没有没价值的数据。问题的关键就在于我们如何将这些数据融合在一起。那么如何做呢?这就需要「广度学习」了。
所谓「广度学习」,俞士纶教授认为其本质就是如何将各种各样的数据整合在一起,以获取更多的信息。
在采访中,俞教授向ai科技评论强调说,广度学习在研究上的侧重点是数据,而深度学习的侧重点则在于模型;换句话说深度学习的「深」是指对数据训练的模型层数深;而广度学习的「广」是指我们训练模型的数据类型广。这两个概念侧重的点不同,但可以结合在同一个模型当中。
要做好「广度学习」,俞教授认为需要以下三步:
首先,定义并获取相关的有用数据源,也即找到对你的问题有用的数据。
其次,设计一种模型来将异质数据源信息融合起来。
最后,基于模型整体的需求从各种数据源中深度地去挖掘信息。
而从具体的技术路线角度来看,俞士纶教授认为广度学习的类型大致可以分为三类:
首先是在同一个实体上有不同类型信息的学习。这种类型的广度学习包括 multi-view learning、multi-source learning、multi-model learning 等。
其次是在不同的但类型相似的实体上信息的学习。这包括 transfer learning。
另外是在有复杂网络类型关系的不同类型实体信息的学习。这包括基于融合的异质信息网络(hin)。
对于广度学习,最为关键的任务主要有两个:信息融合和知识发现。因此对应的就有两个基本的挑战,其一是发现什么数据是有用的,如何将这些数据融合在一起;其二就是要明白想要挖掘什么(并不是所有数据对特定的知识发现都有用),以及如何从融合的数据中挖掘出有用的知识。
这有很多例子。
例如药物发掘。新药上市通常很贵,原因在于研发新药的成本非常高,发现一个新药之前可能失败成千上万次。但如果我们能够用大数据的技术来做预测,把那些不成功的案例删除掉,那么就能够在很大程度上降低新药研发的成本。但是,决定一种药物能否治疗一种疾病,并不仅仅是看药物的化学成分的;事实上,这需要很多种不同类型的信息或数据。例如基因信息、器官组织信息、药物传播临床试验信息等。传统的数据挖掘方法仅仅能够针对一种信息进行深度挖掘,但事实上若想要取得较好的效果,则需要将多种信息综合起来。下面这张图融合了多个不同数据之间的关系,这在本质上是一个异质网络。
在这张图上,可以定义所谓的meta-path,来表示两个数据之间的关系:
比如两个数据虽然不一样,但相互有影响,那么就可以直接连在一起;两个化学药品,如果它们有相同的副作用,那么就可以说它们有关系。这种关联可以帮我们来决定一个药物是否可能有用。
再例如,在电影推荐中,传统的方法往往只是根据用户的打分信息进行推荐,但事实上用户是否喜欢一部电影往往还取决于更多的因素,例如用户的个人背景、用户的朋友圈以及其他因素(例如电影是某个导演拍摄或某个演员主演等)都会影响用户是否观影以及观影体验。
类似于前面的例子,也可以采用相似的方法将不同的信息进行融合来提高推荐的准确性。
俞士汶教授认为,在大数据时代数据是最为宝贵的资源。对个人和企业来讲,对大数据的挖掘将是一次颠覆性的机会;大数据有四个「v」,所以对大数据的挖掘同时也是一种挑战。俞教授在报告中则主要是解决大数据的variety,也即通过融合异质数据源来进行广度学习。真实生活中的数据一般都不是只有一个数据源,而是要融合多个数据源才行。因此有效的学习应当同时需要广度和深度。
雷锋网报道。
专题