雷锋网 ai 科技评论按:亚太地区知识发现与数据挖掘国际会议(pacific asia knowledge discovery and data mining,pakdd)是亚太地区数据挖掘领域的顶级国际会议,旨在为数据挖掘相关领域的研究者和从业者提供一个可自由 分享经验的国际化论坛,该会议在全球数据挖掘领域享有盛誉,一直受到业内各国科学家的高度重视和广泛认可。4 月 15 日至 17 日,第 23 届 pakdd 2019 在澳门隆重举行,雷锋网 ai 科技评论前往现场为大家带来报道。
15 日的 pakdd 2019 开幕式上,南京大学周志华教授的精彩致辞拉开了本次大会的序幕。他提到,今年 pakdd 在澳门举办承载着两项非凡的意义:一是今年恰逢澳门回归中国 20 周年,这次会议能够让来自世界各国的领域研究者们见证澳门回归中国 20 年以来的发展;二是目前中国在大力推进以深圳、香港以及澳门为中心的粤港澳大湾区建设,在之前的 2001 年以及 2011 年,pakdd 曾先后选址香港、深圳召开,因此今年到访澳门,似乎也在冥冥之中呼应着粤港澳大湾区的中心建设,对于澳门的意义不言而喻。
pakdd 2019 整场大会包括 4 场重磅演讲( 3 场 keynote 演讲 1 场 pakdd 2018 最具影响力论文展示)、20 场 oral sessions、5 场 workshops 及 6 场 tutorials。下面就让我们盘点一下本次大会需要关注的重点内容。
今年大会共收到投递论文 567 篇,最终收录论文 137 篇,收录率为 24.1%。整个审稿流程有 55 位 senior pc 及 379 位 pc 参与。
在论文主题上,排在前三的分别为医疗和生物信息学领域的应用(12.4%)、分类(9.5%)以及数据挖掘领域中的深度学习理论和应用(7.4%)。而收录率排在前三的论文主题则分别为网络和图数据挖掘(45.5%)、非结构性和半结构性数据挖掘(35.0%)以及序列数据挖掘(33.3%)。
在论文的国家/地区分布上,今年大会共收到了来自 46 个国家或地区的的论文投稿,其中排在前三的国家/地区是中国、美国和澳大利亚,分别为 284 篇、60 篇以及 52 篇。而论文收录率最高的国家/地区则是加拿大和印度,收录率都为 30%;其后是中国、美国、中国香港以及新西兰,收录率分别为 24.3%、23.3%、23.1% 以及 22.2%。
keynote 演讲
大会首日,普渡大学副教授 jennifer neville 带来了主题为《towards relational ai -- the good, the bad, and the ugly of learning over networks 》的 keynote 演讲。
她指出,关系模型通过超越对于更传统的机器学习方法的独立假设,现在能够成功利用在实体之间关系中观察到的常见附加信息。具体来说,尤其当个体数据稀疏时,网络模型能够使用关系信息来改善对于用户兴趣、行为和交互的预测。然而需要权衡的是,由于目前存在的算法和统计等方面的挑战,大规模网络数据的异构性、部分可观察性和相互依赖性导致研究者难以开发有效且无偏的方法。
在本次演讲中,jennifer neville重点讨论了这些问题,并介绍了用于大规模社交和信息网络中的关系学习的几种通用方法,此外,她还分享了关系模型对于隐私、社区两级分化以及错误信息传播的潜在影响。
作为本次大会的第二位 keynote 演讲者,罗格斯大学终身教授、百度人才智库主任熊辉教授在大会第二日带来了主题为《talent analytics: prospects and opportunities》的演讲。他主要从大数据在人才管理的应用层面展开本次演讲。
他表示,大数据趋势现在已步入人才管理领域,而规模人力资源(hr)数据的可用性则能够为企业领导者提供了解人才行为并产生有用的人才知识的好机会,从而为工作中的实时决策和有效的人员管理提供智能化协助。
对此,他也向现场嘉宾介绍了为智能人力资源管理开发的一套强大的创新大数据技术,并进行了招聘、绩效评估、人才储备和发展、工作匹配、团队管理、领导力发展和组织文化等方面的详尽分析。 与此同时,,他还现场演示了如何将人才分析应用于市场趋势分析和金融投资等其他业务应用场景中。
大会最后一天,大会迎来了罗维拉·维尔吉利大学名誉教授 josep domingo-ferrer 的演讲,他的演讲主题为《empowering subjects, users and controllers when anonymizing big data for knowledge discovery and data mining 》。
大数据在尤其是与人类行为和交互相关的模式、趋势和关联性分析中的应用日益增多。但是,随着《欧洲通用数据保护条例》(gdpr)这一条例逐渐成为全球现实数据的保护标准,个人验证信息(pii)的任何有目的性的用途都必须进行明确规定且需由数据主体明确许可,除此之外,pii 还不能进行二次使用。因此,用于 pii 的探索性数据几乎无法符合 gdpr 标准。
而使用匿名数据集来代替 pii 则是一种不错的方法,这是因为匿名数据不属于 gdpr 的范围。然而这一方法也存在其问题,即基于统计披露控制和隐私模型的匿名化技术在使用小数据时间的算法和假设时,必须进行彻底修改、更新甚至需要进行替换来处理大数据,具体包括数据主体如何能够控制它的数据以及如何实现在大量数据收集器、控制器和处理器中的匿名;是否可以合并匿名数据集从而获取大数据集;当前的隐私模型是否能够共享基本规则从而将匿名数据升级为大数据;是否存在可保障所有隐私模型的通用或几乎通用的匿名方法等问题。
在本次演讲中,他不仅介绍了这些问题的当前现状,还分享了该领域未来研究工作方向:一方面,他认为该领域应该致力于改善大数据的匿名技术,从而让数据主体、用户以及控制者都能够将这项技术用起来;另一方面,他也呼吁研究者加强对非结构性或非文本数据的匿名研究等。
pakdd 2018 最具影响力论文展示
除了三场 keynote 演讲,pakdd 2018「最有影响力论文奖 」(most influential paper award)获奖论文《support vector machine classifier》的展示也是现场参会者关注的一大焦点。该论文发表于 pakdd 2008,在十年时间的积淀和考验中,最终拿下 pakdd 2018「最有影响力论文奖 」,它的作者为刘秋阁、何清、史忠植这三位来自中国科学院的老师。本次大会上,作者之一何清研究员带来了精彩的论文展示。
与此前利用内核来评估特征空间中数据点点积的 svm 算法不同,在本论文中,数据点由单隐藏层前馈网络(slfn)显式映射到特征空间,同时,它的输入权重是随机生成的。 从理论上讲,这一公式可以解释为正则化网络(rn)的一种特殊形式,它能够提供比 slfns - 极限学习机(elm)算法更好的泛化性能,并最终得出一种极其简单和计算快速的非线性 svm 算法。该算法只需要对一个潜在的、顺序与训练数据集大小无关的小矩阵执行反转。 实验结果表明,本论文所提出的极限 svm 所产生的泛化性能,基本上都要比 elm 所产生的更好,并且其运行速度也比其他非线性 svm 算法快得多。
「卓越贡献奖」(distinguished contributions award)
今年「卓越贡献奖」这一重磅奖项颁给了新加坡管理大学的 ee-peng lim 教授。
「卓越贡献奖」是 pakdd 于 2005 年创立的具有终身成就奖性质的奖项,旨在表彰亚太地区数据挖掘领域有长期卓越贡献的学者,每年仅奖给一人(其中有两年空缺)。
曾经获得该奖项的华人学者包括:
周志华(2016 年):南京大学教授,计算机系主任,南京大学人工智能学院院长,欧洲科学院外籍院士,acm、aaas、aaai、ieee、iapr、iet/iee 等学会的会士。
刘欢(2012 年):美国亚利桑那州立大学计算机科学与工程、信息学与决策系统工程系教授,ieee、acm fellow。
hongjun lu(2005 年):生前曾任香港科技大学教授,博士毕业于美国威斯康辛大学麦迪逊分校。
「青年成就奖」(early career award)
今年获得「青年成就奖」的是新加坡管理大学的 feida zhu 教授。
「青年成就奖」基于青年学者博士毕业后的前 10 年时间的研究工作进行评选,旨在勉励为亚太地区数据挖掘做出优秀成就的青年学者,每年仅授予一名获奖者。
曾经获得该奖项的华人学者包括:
俞扬(2018 年):南京大学人工智能学院教授,于 2011 年获得南京大学计算机科学与技术系博士学位。
「最有影响力论文奖 」(most influential paper award)
今年的「最有影响力论文奖 」授予了《on link privacy in randomizing social network》这篇曾发表于 pakdd 2009 上的论文,论文作者为北卡罗莱纳大学夏洛特分校博士生应啸玮(现在美国 pandora media 任职)及其导师 xintao wu 副教授(现任美国阿肯色大学讲座教授)。
「最具影响力论文奖 」面向 10 年前在 pakdd 上发表的论文,旨在表彰过去 10 年间最具影响力的论文作者。该奖项采用 google 学术选取出候选论文,之后由该奖项的委员会审核并衡量各篇论文的引用质量。审核过程中的一项重要标准是:论文必须提出了能够改变人类思维方式的新颖而重大的想法。
曾经第一作者为华人获得该奖项的论文包括:
《support vector machine classifier》(2018 年),作者为:刘秋阁(中国科学院),何清(中国科学院),史忠植 (中国科学院)。
《enhancing effectiveness of outlier detections for low density patterns》(2012 年),作者为:唐杰(清华大学),zhixiang chen(普渡大学),ada wai-chee fu(香港中文大学),david wai-lok cheung(香港大学)。
作为 pakdd 的重要奖项, 今年「 最佳论文奖」、「 最佳学生论文奖」、「最佳应用论文奖 」三项最佳论文奖的颁布也备受关注。
「 最佳论文奖」(best paper award)
今年的「 最佳论文奖」颁给了香港科技大学张颖华、张宇在杨强教授指导下完成的论文《parameter transfer unit for deep neural networks》。
「 最佳学生论文奖」(best student paper award)
本次获得「 最佳学生论文奖」的论文是由南京大学的 heng-yi li 和 ming li 在周志华教授指导下共同完成的《towards one reusable model for various software defect mining tasks》。
「最佳应用论文奖 」( best application paper award)
「最佳应用论文奖 」则由 jianfei zhang、 shengrui wang、lifei chen、gongde guo、rongbo chen 以及 alain vanasse 合作完成的论文《time-dependent survival neural network for remaining useful life prediction》摘得。
另外于大会最后一天公布获奖结果的 pakdd 2019 第 4 届自动机器学习挑战赛(automl challenge)也同样值得关注。
自动机器学习挑战赛(automl challenge)
pakdd 2019 第 4 届自动机器学习挑战赛(automl challenge)的主题是「 automl for lifelong machine learning」,本次比赛要求参赛选手创建一个自动预测模型(没有任何人为干预),并在一个终身机器学习(lifelong machine learning)设置中训练和评估该模型。本次本赛共有 127 个队伍参加,最终有 31 个队伍进入决赛,据悉,本次比赛共收到 550 多个方案。
最终获胜的队伍为:
冠军:《deepblueai》,罗志鹏,黄坚强,陈明健(深兰科技)
亚军:《ml intelligence》,包梦蛟,hui xue,yihuan mao,yujing wang(微软亚洲研究院 & 北航)
季军:《meta_learners》,熊铮,蒋继研,张文鹏(清华大学)
以上为 pakdd 2019 的所有重点内容,后续雷锋网 ai 科技评论还将前往各大国际学术顶会为大家带来现场报道,敬请关注!