专家知识图谱构建研究
2016-05-19周湘超詹磊吴庆陈义明
周湘超++詹磊++吴庆++陈义明
摘要:该文在深入分析专家信息的基础上,抽象出专家实体、属性以及它们之间的相互关系,构建出专家知识图谱。运用RDF(Resource Description Framework)2三元组实现对专家知识图谱描述和构建,并实现通过SPARQL(Simple Protocol and RDF Query Language)3语言进行查询。专家知识图谱的构建,对专家知识、智慧的延伸和专家影响力的扩展具有重大的意义。
关键词:专家;知识图谱;RDF;SPARQL
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)07-0195-03
目前,随着“微软小冰”与“小度机器人”等人机对话系统的崛起,基于大数据构建知识图谱,成为当前研究的热点。在信息化技术高速发展的时代,各个领域专家的研究成果、学术观点、言论、工作动态等信息都一定会体现在学术论文、期刊文献、专利数据库、网络媒体、社交平台(微信、微博、博客、论坛)等载体上。通过对这些信息的采集、过滤、挖掘,分析出各个专家实体、属性之间的关系,构建出含有专家信息的知识模型库,可以使得专家们在互联网上虚拟存在,实现对专家知识、智慧和影响力的延伸。基于知识图谱构建专家机器人,能够方便人们更好的查找到某一主题或领域中的各类专家;通过机器人理解、分析并查找相关问题,便可以实现对专家的推荐,扩大专家的影响力。
1 知识图谱简介
知识图谱是描述现实世界实体之间的关系的图4,是“图”和“谱”双重特性的体现5,其概念最先由谷歌提出6。如果将知识图谱比作有一张巨大点线关系图,那么图中的点就代表这每个实体,而实体之间若存在连线,则表示两个实体存在着相应的关系。现在,各大互联网公司均建立了自己知识图谱,其目的主要是为了提高搜索质量2。截至2012年,谷歌为了保障强大的搜索,Google语义网络已超过570亿个对象、18亿个介绍6;但在这些实体和事实中,英语占绝对主导地位。与此同时,百度和搜狗也建立了中文知识图谱,其规模比谷歌略小。
2 专家知识图谱建模
本系统通过对专家知识图谱的构建,以图的形式更简洁、直观地表达专家关联信息,提升用户对专家信息的搜索效率。本系统的研究内容有知识的获取、知识图谱的构建、系统模型的建立、专家信息关联与检索、专家智能推荐、专家机器人的动态维护等;
知识获取:知识图谱构建的前提;主要包含各类专家的基本信息,主要包含专家基本信息,专利信息,文献信息,项目信息,报道信息。目前知识的主要来源于各类百科类数据,如百度百科,维基百科等;
知识图谱构建:这是本系统核心部分,专家知识图谱的构建,首先从专家、专利等实体以
及属性之间关系的抽象开始。根据专家的属性分析和专家与专家之间的关系分析,基本确定本系统的模式图形如图1所示,专家是文献,专利,情报,项目的主体部分,而专家又属于文献,专利,情报,项目的一部分,各个专家之间存在着同事,合作等等关系,建立每个专家之间的关系就能构建一个专家图谱网络。例如关系模型图,专家作为一个实体,专利也是一个实体,专家拥有这项专利,专利的拥有者是这个专家,专利这个实体也拥有自己的属性,例如专利拥有作者,内容,机构,时间等等属性值。专家与专家之间也存在多种关系,其关系图如图2所示。例如一篇文献上面的作者属性是专家1,专家2,那么他属于合作关系;如果专家1和专家2的基本信息中的机构名称是一样的,那他们就是同事关系;如果两篇专利的课题一样的那么他们的著作人即专家1和专家2就是研究方向一样的关系,等等。在存储方式上,专家知识图谱的主要存储的方式摒弃了传统的关系型数据库的存储方式,而是直接采用RDF (Resource Description Framework) 2 三元组的形式对专家信息进行描述和保存(如图1所示)。
系统模型的建立:通过对海量专家信息资源库的挖掘与搜索,自动生成或呈现专家的基本信息,专利信息,文献信息,项目信息,报道信息。并且以关系图形的形式展现。
专家信息检索:其前端主要有两种检索方式,一是直接通过SPARQL语言,直接对RDF构建的知识库进行查询;而是通过关键字检索,如姓名,行业,文献,研究主题等,间接使用SPARQL语言对知识库进行查询。
专家关联:能通过某一研究方向,某一个领域找出核心专家(如图2所示)。
专家智能推荐:通过某一关键词,推荐出相关联的专家信息或者其他实体、属性信息。
专家机器人的动态维护:主要是指通过不断机器学习,不断地发掘已有的专家信息或者搜索信息分析出更为复杂的专家之间的关系;并构建出新的关联关系。
3 专家知识图谱实现
3.1 RDF构建
RDF主要是一种描述语义WEB的标记语言7,通过RDF/XML的形式存储,实现了对专家知识图谱模型的构建。通过对专家、文献、专利、报道等实体关系分析,我们可以构建如下类型的三元组。
文字描述:第1571号专家,姓名为张三,工作单位为热带农业科学院;拥有两篇论文,两篇报道;同时,他与6579号、3766号专家属于同事关系;
RDF/XML格式描述:
xmlns:info="http://www.w3.org/2001/info-rdf/3.0#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:exper="http://www.w3.org/2001/Exper-rdf/3.0#" xmlns:doc="http://www.w3.org/2001/document-rdf/3.0#"
xmlns:patent="http://www.w3.org/2001/patent-rdf/3.0#">
RDF图形表示:张三专家RDF图如图3所示。
3.2 SPARQL查询
为了提升搜索质量,本系统采用SPARQL对RDF进行查询;SPARQL对于RDF或者语义查询来说,其重要性就类似于数据库中的SQL(Structured Query Language);本系统不仅可
以直接通过SPARQL对专家信息进行检索,而且还可以通过专家信息;专业领域;专利名称等信息对专家进行检索;如欲搜索的专家姓名为“张三”,工作单位为中国科学院,期刊信息为期刊A;其SPARQL搜索语句如下所示:
PREFIX exper:
PREFIX doc:http://www.w3.org/2001/document-rdf/3.0#
SELECT ?s ?name ?o ?doc ?cn WHERE {
?s exper:exper_org ?o .
?s exper:exper_name ?name .
?s exper:exper_doc ?doc .
?doc doc:journal_cn ?cn .
FILTER regex(?o, "中国科学院", "i")
FILTER regex(?name, "张三", "i")
FILTER regex(?cn,"期刊A", "i")
}
以上检索均是模糊查询;
4 结束语
专家知识图谱不仅可以方便用户在海量专家数据中快速准确地找到对应主题或者领域专家,而且将专家虚拟存在于互联网中,使各专家的知识和智慧得到延伸。同时通过系统对专家数据的发掘、关联和整理,实现了专家推荐的功能,使得专家的影响力得到扩展。
参考文献:
[1] 深度. 知识图谱:谷歌打造未来搜索[J]. 电脑爱好者, 2013(5):28-29.
[2] 王海荣, 马宗民. 一种扩展关键词的RDF模糊查询方法[J]. 中国科技论文, 2013, 8(10):989-993.
[3] 王昊奋. 面向大规模RDF数据的语义搜索[D]. 上海: 上海交通大学, 2013.
[4] 杜亚军, 吴越. 微博知识图谱构建方法研究[J]. 西华大学学报:自然科学版, 2015(1):27-35.
[5] 杨思洛, 韩瑞珍. 国外知识图谱的应用研究现状分析[J]. 情报资料工作, 2013(6):15-20.
[6] 胡芳槐. 基于多种数据源的中文知识图谱构建方法研究[D]. 上海: 华东理工大学, 2015.
[7] 师波, 王凤利, 安建成. 从关系数据库到RDF的转换[J]. 电脑开发与应用, 2015(1):5-7.