APP下载

两类知识图谱差异辨析及其在科技出版中的应用

2019-03-25唐亮罗轩王颖

出版参考 2019年1期
关键词:科学知识图谱可视化

唐亮 罗轩 王颖

摘 要:随着数字时代和互联网技术的发展,知识图谱逐渐在科学研究和若干行业中得到应用。本文从概念、发展脉络、数据类型、构建方法及应用领域等方面对科学知识图谱和语义知识图谱进行比较分析,重点辨析两者的差异性。此外,本文列举两类知识图谱在科技出版领域的应用案例,分析知识图谱在未来的应用方向和前景。

近年来,“知识图谱”一词频繁出现在各种通用和专业知识场景中,其他类似的名称有“科学图谱”“科学知识图谱”等。尽管研究者众,只要深究知识图谱本质含义、发展脉络、构建方法和应用场景,就会发现其实知识图谱并不是指向同一个事物,而是分为发源于科学计量学、可视化的一类和发源于语义网的另一类。此前也有文章将后者称为“Google知识图谱”并从知识管理角度将其与“科学知识图谱”进行比较。本文深入分析两类知识图谱完全不同的发展脉络及在此基础上的差异,并就其在科技出版领域的应用做一论述。

一、两类知识图谱的差异

在搜集各类文献、媒体文章基础上,笔者对其中所指的知识图谱进行概念溯源,分析其数据特征和构建方法,并对其应用场景进行比较和归类,发现总体上知识图谱分为两种类型,并从以下几方面分析两种类型之间的差异。

1.概念和发展脉络上的差异

知识图谱最早的名称是科学知识图谱,其英文名称Mapping Knowledge Domains是在2003年召开的科学传播领域著名的亚瑟·M.塞克勒研讨会(Arthur M. Sackler Colloquia)上,由科学计量学奠基人之一Eugene Garfield提出的,2005年由国内学者陈悦和刘则渊于翻译为“科学知识图谱绘制”,科学知识图谱由此得名。在科学计量学的范畴中,知识图谱的定义是以科学文献知识为对象,以科学研究范式为基础,以引文分析方法和信息可视化技术为手段,显示学科的发展进程与结构关系的一种图形,主要是对文献和文献内容的知识单元进行可视化。

知识图谱的另一个概念脉络则来自完全不同的领域。经历了20世纪70~80年代的专家系统、90年代的语义网、本世纪初的关联数据和基于百科的大规模开放知识库等发展阶段,谷歌公司于2012年提出“知识图谱(Knowledge Graph)”的概念,旨在描述真实世界中存在的各种实体或概念及其关系,以构建巨大的语义网络图,其中节点表示实体或概念,边则由属性或关系构成,因此知识图谱提供了从关系的角度去发现知识、分析问题的能力,逐渐发展成为以语义网为基础的新型海量知识管理和服务模式。

因此,从概念来源和发展脉络上,两者完全不同。本文中为进行区分,将前者称为“科学知识图谱”,将后者称为“语义知识图谱”。

2.数据类型上的差异

目前大多数应用场景中,科学知识图谱主要建立在对科学文献和科研相关数据进行分析的基础之上。科学文献之间存在的引用关系反映了科学知识之间的递进过程和内在关联性,因此对文献的挖掘和分析可以揭示一个主题、领域或学科的发展的情况,以图形化手段呈现研究结构、重点以及发展趋势。科学知识图谱重要的研究数据类型包括引文数据(如科学引文索引,SCI)、科研论文、合作关系、项目资助、关键词、数据库(如PubMed)等。因此,科学知识图谱数据来源于并应用于科学研究领域。

相比于科学知识图谱,语义知识图谱所利用的数据类型则广泛得多,而且尤其适用于解决关系复杂、类型繁多、结构多变的数据。根据不同领域和应用目标,语义知识图谱所需数据也有所不同。比如在金融领域,既有来自互联网舆情、监管机构的合规要求、内部报告等非结构化文本数据,也有财务、报告等半结构化数据,以及上百个业务系统产生的海量结构化数据;医学领域数据有电子病历、临床医学知识库、医学主题词表(如MESH)、国际疾病分类(如ICD-10)等。

3.构建方法上的差异

根据应用目的的不同,科学知识图谱有不同的类型及相应的绘制方法,总体上大致分为以下几个步骤。①选择数据源,获取所需信息。比较常见的数据源是各类科学文献,如期刊论文、专利、项目等数据库。进一步抽取其中对于特定科学知识图谱有用的信息,比如作者、机构、引用与被引、主题词、关键词等。②数据处理和分析:处理过程包括数据清洗、关系矩阵构建、数据标准化等,在此基础上进行因子分析、多维尺度分析、聚类分析、共词/共引分析、潜在语义分析等。③结果可视化:利用算法、软件、工具等把经过采集、处理和分析的数据和转化为可视化图形,以快速、直观和形象地揭示特定领域的发展现状、规律、进程及其结构关系。

语义知识图谱的构建过程则完全不同。①知识抽取,即从非结化数据中人工或自动地提取实体、关系和属性。具体方法有基于规则、基于数据模型、基于神经网络模型等。②知识表示。通常以基于本体的结构化知识描述框架RDF三元组进行直观的表示,如“实体-关系-实体”或“实体-属性-属性值”。近年来以深度学习Deep Learning为代表的表示学习技术可以将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联。③知识融合。这一过程使不同来源和形态的知识在同一框架下进行整合、加工、消歧、验证、更新等,为知识库内部的逻辑性和规范表达奠定基础。④知识计算和推理。基于融合后的知识信息,通过本体和规则推理技术推理得到更多隐含的知识,丰富和扩展知识库。

4.应用领域上的差异

科學知识图谱大多通过对科学文献、数据资料的采集和分析,实现科学知识、研究信息和发展趋势的可视化展示。具体应用可归纳为以下三方面:①研究内容智能检索和分析。通过共词分析、主题共现和论文被引聚类等方法发现研究领域的分类规律和现状特征。②发现学科发展脉络和趋势。客观、大规模、自动化地展示学科及其结构及其发展脉络,展现局部和全局图谱,实现各学科间的关系和学科前沿的可视化展示,发现新兴学科。③辅助科研评价与决策。利用共现网络可视化展示、二维图和三维图形成评价辅助工具。④支持科研合作和管理。分析和识别科研合作、交流情况和研究相似度,发现研究影响力,为调整相关科研政策提供依据。

语义知识图谱主要建立在领域本体规范的基础上,其强大的语义处理和互联组织能力,为智能化信息应用乃至人工智能提供了基础,因此在自然语言处理、语义标注、智能搜索、知识问答、关联分析、决策支持、知识推理等方面有了广泛的应用。尤其在商业智能、互联网金融等在市场活跃的领域,由于受到资本和知本的双重驱动,发展十分迅速。比如用语义知识图谱构建复杂的关系网络,可用来有效地揭示、识别出金融欺诈和避免金融风险。此外,语义知识图谱在医疗、教育、交通等重要领域也有应用研究。例如医学知识图谱被应用于医疗信息搜索引擎、医疗问答系统、医疗决策支持系统等方面。

二、两类知识图谱在科技出版领域的应用现状

科技出版是支撑科学技术交流和发展的重要一环,在经历了本世纪以来的数字化、网络化的传播形态变革后,集成了期刊、图书等资源的文献数据库成为科技出版最主流的科技出版产品形态。近年来,上述两类知识图谱在科技出版领域均有不同程度的应用。

1.科学知识图谱:基于科学计量学的广泛应用

在面向专业知识服务的应用上,科学知识图谱主要还是从科学计量的角度出发,为专业科研工作者提供揭示学科发展历史、研究热点和前沿趋势、学科间关系、不同层面的合作关系的可视化工具,为研究选题和评价等决策性活动提供数据分析上的支持。不少图书情报机构长期进行科学知识图谱的理论研究和工具开发,也不断有面向情报分析应用的产品投入市场。因为科学计量学须建立在全面的文献数据之上,因此只有拥有这些数据的机构才有条件发展科学知识图谱服务。

国际方面,一些实力雄厚的信息服务商和出版商均推出了类似于科学知识图谱的情报分析型产品,如科睿唯安公司(Clarivate Analytics)的深层次科研分析工具——ESI数据库,基于其Web of Science覆盖全球12000多种期刊的数据信息,可用于分析机构、国家和期刊的论文产出和影响力,发现各学科领域的发展趋势,评估科研表现和发展潜力等。Elsevier推出的科研情报分析平台SciVal以全球最大的文献摘要与引文数据库Scopus为基础,通过全面利用各种工具和数据源,提供符合要求的定制化的分析报告,帮助用户进行科研数量与质量分析、科研合作分析、人才流动分析、科研成果利用分析等。与Springer Nature同属Holtzbrinck集团旗下的Digital Science公司与100多家研究组织和资助机构合作,整合旗下多家子公司的产品和服务,于2018年1月推出研究分析平台Dimensions,不仅囊括了8900万多篇期刊文章,还包括近360余万个资助项目、38万份临床试验资料、3400余万项专利以及存在于这些记录之间的40多亿对关系。Dimensions不仅提供针对单篇研究文章的文献计量学和替代计量学指标,还丰富了其他相关信息如资助项目,从多个维度反映研究成果价值和效率。利用科学知识图谱技术,Dimensions不仅为科研用户判断科研发展态势提供数据分析参考,也为科研经费提供者提供决策依据。

国内方面,几个主要的文献情报机构和数据商集成了海量文献数据,成为这些机构发展科学知识图谱的基石。中国科学院文献情报中心建立了中国科学引文数据库(Chinese Science Citation Database, CSCD),收录我国各个学科领域出版的中英文科技期刊论文记录500余万条、引文记录6600余万条,不仅提供引文与文献间的双向关联检索服务,还能对检索结果中的学科类别、来源出版物、作者、机构等要素进行分析,已经应用在一些学科的发展态势分析中。中国科学技术信息研究所建立了基于期刊引用的检索评价工具——中国科学引文索引(China Science Citation Index, CSCI),囊括了2000年来我国出版的科技类和部分社科类学术期刊约9000余种、论文4500多万篇、引文记录2亿多条,能对国内学术机构、学者的科研论文产出、引用情况进行年度、主题等多维度查询。中国知网(CNKI)、万方知识服务平台和超星发现平台等学术文献数据库均利用科学计量学方法提供知识点共现、关注度变化等学术趋势分析功能,用户在利用数据库获取文献的同时也可利用这些功能把握搜索主题的研究生命周期和方向。尽管上述平台中只有超星发现平台以知识图谱来作为其情报分析模块的名称,其实所有这些功能均是基于科学知识图谱而建立的。

2.语义知识图谱:应用刚刚起步

相比于科学知识图谱在专业科研领域的持续发展和创新,语义知识图谱无论在技术还是应用方面都较少与专业知识服务产生联系。虽然一些图情机构、出版机构和信息技术公司也曾构建过以叙词表或本体为代表的知识组织体系,但真正用语义知识图谱的原理和方法做知识服务的却很少。比较符合语义知识图谱在专业知识服务中应用的案例是Springer Nature于2017年3月推出SciGraph关联开放数据平台,其本质是集成了机构、研究者、出版物、引用、项目、会议、专利等多种信息的关联数据集,以开放的形式满足科研情报分析的需求。SciGraph将上述信息建立为关联开放数据中的实体类型,并建立实体类型之间的关系模型,同时采用多个三元组的N-Triples形式来表示RDF数据集,实现了数据关联、互操作、数据挖掘等功能。但相较于其他行业领域的应用,SciGraph还只是从概念角度实现了对出版物信息的描述,未深入到知识本身的表示、融合和推理层面。近年来部分国内专业出版社开始尝试构建知识图谱,大部分处于实体和关系库建设的阶段,对于发展基于知识图谱的应用尚处于探索阶段。尽管步伐不像互联网公司那样迅速,但专业出版社往往选择更为稳扎稳打的方式,重视质量和专业性,为下一步专业领域的应用打下良好的基础。

三、结论与展望

近十几年来,科学知识图谱在科研领域得到了广泛和多维的应用,从科学计量学的角度推动了科研的发展。而真正能够深入知识本体层面的语义知识图谱大多是由大型互联网公司如谷歌、百度和人工智能创业公司开发。随着自然语言处理、机器学习、大数据等技术的不断深化,语义知识图谱必将在科研知识服务领域大放异彩。从可利用的资源条件上看,国内科技出版机构发展基于文献计量学的科学知识图谱有很大的难度。但语义知识图谱不受上述条件的限制,只需要将知识抽取、表示、融合和计算的模型建好,利用人工智能技術训练计算机“理解”各类资源中的信息和知识,在此基础上实现语义搜索、智能关联推荐、隐性知识发现、逻辑推理等多种形式的应用,真正地在知识层面满足甚至引领用户的需求。

参考文献:

1.胡泽文,孙建军,武夷山.国内知识图谱应用研究综述[J]. 图书情报工作,2013(3):131-137.

2.冯新翎,何胜,熊太纯,等.“科学知识图谱”与“Google知识图谱”比较分析——基于知识管理理论视角[J].情报杂志, 2017,36(1):149-153.

3.陈志云,商月,钱冬明.基于知识图谱的智能答疑系统研究[J]. 计算机应用与软件,2018, 35(2):178-182.

4.陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究, 2005,23(2):149-154.

5.刘则渊,王贤文,陈超美.科学知识图谱方法及其在科技情报中的应用[J].数字图书馆论坛,2009(10):14-34

6. 杨思洛,等.中外图书情报学科知识图谱比较研究[M].北京:科学出版社,2015.

7.陈超美.科学前沿图谱——知识可视化的探索[M].陈悦,等,译.北京:科学出版社, 2014.

8.魏瑞斌.国内知识图谱研究的可视化分析[J].图书情报工作,2011(8).

9.袁凯琦,邓扬,陈道源,等.医学知识图谱构建技术与研究进展[J].计算机应用研究,2018(7):1929-1936.

10.王小梅,邓启平,李国鹏,等.ESI研究前沿的科学图谱及在纳米领域的应用[J].图书情报工作,2017, 61(12):106-112.

11.刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.

12.宋宇,真溱,汤珊红.科学图谱简介:过去、现在和未来[J].情报理论与实践,2015,38(07):145.

13.孙晓宁,闫励,张强.科学知识图谱在学科可视化研究中的应用[J].图书馆,2014(5):87-91.

[作者单位系中国科技出版传媒股份有限公司。本文系2018 年文化产业发展专项资金重大项目(XW20180097)阶段性成果]

猜你喜欢

科学知识图谱可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
绘一张成长图谱
基于CGAL和OpenGL的海底地形三维可视化
基于科学知识图谱的滑雪运动研究可视化分析
“融评”:党媒评论的可视化创新
2000-2017国外关系从句研究动态的科学知识图谱分析
补肾强身片UPLC指纹图谱
社会化知识及其客观性探析——兼议朗基诺的科学知识观
杂草图谱