资讯 人工智能开发者
此为临时链接,仅用于文章预览,将在时失效

上交大 acemap 团队发布学术知识图谱 acekg,涵盖 1 亿多个学术实体 | 雷峰网-亚博电竞网

2018/03/15 11:59

雷锋网 ai 研习社消息,日前,上海交通大学王新兵教授和张伟楠教授指导的 acemap 团队知识图谱小组发布了学术知识图谱 acekg。从亚博平台app下载官网可以看到,acemap知识图谱(acekg)描述了超过 1 亿个学术实体、22 亿条三元组信息,包含六千多万篇论文、五千多万位学者、五万多个研究领域、将近两万个学术研究机构等,数据集将近 100g。

知识图谱(knowledge graph)是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,揭示知识领域的动态发展规律,为研究和决策提供切实的、有价值的参考。

目前,随着机器学习和自然语言处理技术的不断发展,在大数据的推动下,知识图谱受到学界和业界的广泛关注。但目前它的发展还存在着不少阻碍,例如从数据中挖掘出高质量的知识需要大量的数据处理工作,构建垂直领域知识图谱的代价很大,很多研究工作都不具备实用性等等。 

而 acekg 究竟有何优势?据发布团队介绍,与现有学术知识图谱相比,acekg 主要有如下三个特点:

  • acekg 提供学术异构图谱,包含多样的学术实体与相应的属性,可以支持多样的学术大数据挖掘课题,例如现阶段异构网络向量化的诸多课题。

  • acekg 从更高的角度统览整个学术圈,提供了近 100g 大小的数据集,包括论文、作者、领域、机构、期刊、会议、联盟,支持权威和实用的学术研究。

  • acekg 以结构化的 turtle 文件格式给出(具体格式见下表),致力于减少数据预处理的不便,同时更易于机器处理,支持全部 apache jena api。

下图是 acekg 的结构框架。可以看到,acekg 为每个实体提供了丰富的属性信息,在网络拓扑结构的基础上加上语义信息,可以为众多学术大数据挖掘项目提供全面支持。

以下是一些示例文件,大家可以点击如下链接,来了解和使用该知识图谱。

此外,acekg 使用 apache jena 框架驱动。apache jena()使用 tdb 数据库存储数据,并且提供 sparql 引擎进行数据查询。它还为 web 客户端提供 fusekihttp 服务,并提供完整的 java api 查询数据。架构如下图:

值得一提的是,acekg 并不是雷锋网 ai 研习社报道的第一个学术知识图谱。此前,清华大学教授、arnetminer 创始人唐杰博士公开亿级学术图谱——open academic graph。此图谱集成了两个最大的公开学术图谱:微软学术图谱(mag)和 aminer 学术图谱。开发团队通过集成 mag 中 1.66 亿学术论文和 aminer 中 1.55 亿学术论文的元数据信息,生成了这两个学术图谱之间近 6500 万对链接(匹配)关系。

据唐杰教授介绍,公开 open academic graph 目的如下:一是集成丰富的学术知识数据,二是数据共享,三是服务共享。简言之,他们希望能够造福学术界对知识图谱、学者合作关系、学术主题挖掘等领域的研究,设计更加智能的学术图谱连接系统,以方便更多人使用服务以及加入开放学术社区。

在雷锋网 ai 研习社看来,这些学术知识图谱的发布,不管对学界还是对业界来说都有极大的意义。一方面能助力大家当前的研究,另一方面也能吸引更多人来进行学术知识图谱相关的研究。相信随着越来越多学术知识图谱的公开,将促进学术大数据挖掘项目的持续发展。

acekg 详细信息,参见:

长按图片保存图片,分享给好友或朋友圈

上交大 acemap 团队发布学术知识图谱 acekg,涵盖 1 亿多个学术实体

扫码查看文章
亚博电竞网

正在生成分享图...

取消
相关文章
网站地图