基于领域知识的学术创新力测度本体构建研究
2019-05-07钱玲飞张吉玉汪荣
钱玲飞 张吉玉 汪荣
摘 要:[目的/意义]大数据环境下学术创新力自动测度需要建立在相关学术评价指标和学科知识体系基础上,基于领域知识的本体构建将为学术创新力的自动测度提供基础支持。[方法/过程]用手工方式构建学术创新力概念本体,复用《中国分类主题词表》半自动化构建学术创新力评价知识资源的初始本体,加入CNKI 期刊题录数据的高频关键词以丰富本体的知识。然后进行学术创新力概念本体和学术创新力评价知识资源本体的实例化。[结果/结论]以G3类题录数据为例,共建立了30 097个概念、41 484个实例以及320 609条关系,基本完成任务目标。
关键词:本体;知识库;构建方法;学术创新力;评价
DOI:10.3969/j.issn.1008-0821.2019.05.004
〔中图分类号〕G316 〔文献标识码〕A 〔文章编号〕1008-0821(2019)05-0030-08
Abstract:[Purpose/Meaning]The automatic measurement of academic innovation in the big data environment needs to be based on relevant academic evaluation indicators and subject knowledge systems.The ontology construction based on domain knowledge will provide basic support for the automatic measurement of academic innovation.[Method/Process]The ontology of academic innovation was constructed by hand,and the Chinese Ontology Thesaurus was used to semi-automatically construct the initial ontology of academic innovation to evaluate knowledge resources.The high-frequency keywords of CNKI journals were added to enrich the ontology knowledge.Then academic innovation power concept and academic innovation measurement knowledge resource were used to the instantiation of ontology.[Result/Conclusion]Taking the G3 bibliographic data as an example,a total of 30097 concepts,41484 instances and 320609 relationships were established to accomplish the mission objectives.
Key words:ontology;knowledge base;construction method;academic innovation;evaluation
學术创新力是创新主体在对学术知识的采纳、吸收、创新过程中所体现出的素质和能力,即软技术力[1]。如何客观地评价学术创新力,对学术创新力进行量化是一个难题,在大数据时代背景下,这一难题的解决得到了有力的支撑。重视信息和数据之间的联系,运用数据挖掘和分析技术,整合和利用多种数据,用数据说话,将有助于我们建立更加客观公正、科学合理的学术创新力测度体系。
知识库是能够组织和表示知识,提供知识服务的系统。在进行特定领域的学术创新力的数据分析和挖掘之前,先要实现领域知识的获取,构建特定领域的本体或知识库。本体作为一种概念模型,可以实现知识的获取、联系、呈现和重用,对本体的研究已成为知识库构建研究的重要环节之一。
本文采用本体理论和技术,结合学科领域知识构建学术创新力测度本体,是基于大数据的学术创新力测度的基础,为知识库构建、数据挖掘等其他与学术创新力自动测度相关的研究提供支持,有助于丰富学术创新力测度研究和评价的研究成果。
1 相关研究及本文研究目标
1.1 学术创新力相关研究
目前国内外关于学术创新力测度评价的研究工作和成果相对都较少,因为学术研究、创新的内容一般基于一定的学科领域范畴,所以本文在进行文献调研时还参考了与学术创新力测度研究内容、方法较为相似的学科创新力评价的文献。
蒋伟伟[1]通过对国内外相关研究的分析以及人文社会科学学术创新力相关概念的辨析,指出了学术创新力的研究内涵:学术创新力是创新主体在对学术知识的采纳、吸收、创新的过程中所体现出的素质和能力。Mishra S等[2]人基于医学主题词表,对单篇文献的主题新颖度进行考量,提出了基于改进词频统计等一系列方法。杨建林等[3]基于词频和共现词分析等思想,提出了量化文档主题新颖度的4项原则,给出了基于关键词对逆文档频率的主题新颖度的计算公式,对衡量单篇文献或作者个人的学术创新力有重要的指导意义。这些研究为本文构建学术创新力测度体系概念本体构建提供了思路。
1.2 本体构建相关研究
领域本体构建方法有一系列较为成熟方法,如七步法、IDEF-5法和骨架法等。本体在工程、医学、图书情报学等领域一直有广泛应用,相关研究主要集中在基于本体的各类工程产品设计、医学术语间联系构建、图情领域知识地图构建。具体构建方法主要包括手工构建、复用已有本体,近年来有学者开始研究基于机器学习的本体构建。手工构建本体耗时费力,且比较主观,缺少科学管理和评价机制,复用已有本体或其他知识组织形式的非手工构建方法,则可以较容易地获取领域知识和概念关系。关于基于叙词表的本体构建方法的研究已经较为成熟。唐爱民等[4]提出将《国防科学技术叙词表》向本体转换,形成军用飞机领域本体的方法。丁晟春等[5]分析了航天科技叙词表的知识组织结构和词间关系,完成了向航天领域本体的转化,最后用OWL Lite实现半自动化构建。将机器学习方法应用于本体的自动构建是目前的一个研究热点,但概念间关系的抽取依赖于复杂的语言处理模型。郭瑞[6]在构建中文领域本体时,以纯文本为数据源,采用将一系列规则与统计的算法进行有机结合的方法,抽取领域术语、概念和概念分类关系。文必龙等[7]在构建石油领域本体的实践中,将文本分析的思想引入本体方法论。蒋婷等[8-9]学者对学术概念等级关系和非等级关系的学术概念抽取进行了细致的研究。上述研究为本文学术创新力测度体系知识资源本体构建提供了借鉴。
1.3 评价本体构建相关研究
目前国内有一些基于本体的评价研究。周红照等[10]对中文评价知识本体进行研究,基于本体研究成果建立评价分析规则库,建立了一套基于词典规则的评价分析系统。姜韶华等[11]在对《绿色建筑评价标准》(GB/T50378-2014)进行分析的基础上提出基于本体与BIM的绿色建筑智能评价系统。冯淑芳等[12]以汽车领域知识为背景,利用Web汽车评论语料库,自动获取本体知识库中的核心概念,构建了面向观点挖掘的本体知识库。Daraio等[13]学者开发了一种基于本体的数据管理平台ODBM(Ontology-Based Data Management),通过一个案例从多维度对创新实体进行评价和监测。Cano-Basave等[14]学者提出一个基于本体的语义创新预测模型(Semantic Innovation Forecast(SIF)model),并以计算机学科为例,验证改模型可以有效提高学术前沿的预测率。这些学者从不同角度对基于本体的评价和预测进行研究,为本文基于领域知识的学术创新力测度本体研究提供了研究方法。
1.4 本文研究目标
本文采用本体理论和技术,结合学科领域知识实现学术创新力本体,首先分别构造学术创新力概念本体和知识资源本体,然后实例化单指标评价体系,将学术创新力概念本体与学术创新力知识资源本体合并成一个OWL本体,定义类属关系,为大数据环境下学术创新力的自动测度提供坚实的知识资源基础和保障。
2 基于领域知识的学术创新力本体构建
2.1 学术创新力概念本体的构建
学术创新力概念本体是用来描述学术创新力测度领域内的一些基本概念和概念间关系的本体。本文采用“七步法”的本体构建工程思想,对学术创新力测度领域的核心概念、理论和方法,对其中的术语进行明确的描述,形成公理化的认知,这样既可以帮助该领域的学者们建立一个形式化的概念体系结构,又有助于让后来进入这一领域的研究者们快速建立基本的认知,进而选择合适的体系进行测度,同时为该领域未来的学术创新力自动测度研究提供底层知识,实现资源共享,方便文献资源的组织和利用,也避免了重复开发相同资源。
2.1.1 确定类及本体概念
经过调研得知,学术创新力自动测度领域尚无本体方向的研究成果,因而也没有可以復用的本体资源。所以需要手工抽取领域内重要的术语或概念,在这一过程中,首先确定的是领域内的最为重要的概念,然后在这些概念的基础上,找出其相关概念,从而得到一份该领域范围内的所有概念的清单。
在确定核心概念时,将抽取的核心词汇、术语分为了基本概念类、相似概念类、基本理论类、指标概念类、基本方法类、测度体系类和外部特征类7类。
1)基本概念类包含由学术创新力研究领域的研究者们定义的核心概念,如“学术创新力”、“创新绩效”等。
2)相似概念类包括与“学术创新力”定义相似的概念,如“学科创新力”。
3)基本理论类包括应用到该领域的一些核心理论,如“创新过程理论”、“创新系统理论”等。
4)指标概念类包括用于测度学术创新力的术语、指标等,如“关键词交叉率”等。
5)基本方法类是测度过程中用到的方法,如“单指标评价方法”、“灰色关联分析”等。
6)测度体系类包括现有关于学术创新力相关测度的体系,包括核心指标评价体系、单指标评价体系、基于DEA模型的指标体系、基于三阶段四维度的指标体系。
7)外部特征类是期刊文献的基本信息,包括文献的作者、机构、中文刊名等。
本文只手工抽取了54个核心概念,最终建立好的概念本体的类如图1所示。
2.1.2确定类间关系
关系(Relations)是存在于概念间的交互作用,比如,part-of等基本的关系。对于特定领域,往往有不同于其他领域的情形,研究者们通常根据情形自定义符合需求的关系。本文也使用或自定义了一些适用于学术创新力概念本体的关系以满足需要。
1)可以描述上下位概念关系的subclass-of,如“单指标评价体系”与“测度体系”之间的关系;
2)可以描述类与实例关系的instance-of,如“有效新词出现率”与“创新潜力”之间的关系;
3)以描述概念来源关系的come-from,如“有效新词出现率”这一概念来自期刊文献《人文社会科学学科创新力单指标评价》;
4)可以描述文献收录关系的indexed-of,如《人文社会科学学科创新力单指标体系》被收录于《图书与情报》中。
2.1.3 定义属性和约束
概念间的关系由对象属性揭示,因此在分析并确定好类间关系后,需要建立对应的对象属性名,确定属性的类、定义域和取值范围。此外类还可以拥有数据属性,需要定义数据属性的属性名、取值类型等。对象属性是定义的重点。本文创建的概念本体中,类的数据属性主要是概念或理论的含义,将这一属性命名为meaning,取值类型为string,定义域为学术创新力概念类、理论类。
2.2 学术创新力知识资源本体的构建
学术创新力知识资源本体是在学术创新力测度过程中需要的知识资源的概念集合,如期刊文献的关键词。因而需要对测度过程中用到的关键词进行组织,形成测度过程中需要用到的知识资源。即用户在选择了某一种测度体系后,可以自动对应测评项涉及的具体数据资源,从而得出相关测评结果,如此便可以为人机交流和信息共享提供便利,为学术创新力自动测度系统的研究提供基础的知识资源和语义支持。
2.2.1 确定学术创新力知识资源核心概念集
本文以中国分类主题词表中的G3和G25部分类中的概念,即信息科学领域的概念为基础,建立知识资源本体的初始本体概念集。知识资源本体包含概念1 697个,其中分类概念148个,主题词概念1 549个。在主题词中,具有属分关系的主题词274个,具有相关关系的主题词1 257个。随后,为完善初始本体,加入2013-2017年间的信息科学领域的期刊论文的新词概念2 274个。“新词”是未被中国分类主题词表收录的信息科学领域的高频关键词。
2.2.2 建立概念层次结构
主题词表中的词间关系可分为层次关系、等价关系和相关关系3种。层次关系映射到本体中的关系,可以有部分与整体的关系、类与实例的关系、继承关系等情况,而为方便主题词表向本体的自动转化,本文将层次关系粗映射为subclass-of类型的关系,等价关系可能存在“相似”或“相等”两种语义,本文统一粗映射为equivalent-to关系。而相关关系语义更为复杂,通过观察中国分类主题词表可以发现,存在相关关系的主题词都在同一级目录下,将其粗映射为coordinate-of关系。
2.2.3 定义属性和约束
为建立概念层次结构,将词间关系粗映射为subclass-of、equivalent-to、coordinate-of 3种,其中subclass-of可用owl标签〈SubClassOf〉直接实现,因此还需要分别自定义其他2个对象属性equivalent-to和coordinate-of,定义域、取值范围都是一级主题词或二级主题词,可取值个数为多个。在完善本体的过程中,新增的新词类,我们为其添加对象属性“come-from”,其取值范围为DOI类,可取值个数为多个。
2.2.4 叙词表向本体的批量自动转换过程
本文用python和owl语言完成了叙词表向本体的自动转换。首先从《中国分类主题词表》Web版中抓取需要的G3类数据保存到Excel文件中,然后对数据进行预处理。用owl语言描述本体时,类名中不能包含“\”、“/”、“〈”、“|”和空格等不合法的字符,而这些字符在分类主题词表中常常出现,预处理后即可根据之前的策略,分别定义类、属性和约束,将类名、属性名分别用〈/Declaration〉标签进行装饰,如〈Declaration〉〈Class IRI=″#情报学″/〉〈/Declaration〉即可建立一个名为“情报学”的类。本体中的关系是由“类—对象属性—值”的结构形成的,因此在确定概念层次结构后,需要事先定义好属性和约束,才能建立关系。完成上述定义后,将处理好的标签写入owl文件即可得到初始本体,可以用protégé提供的可视化工具OntoGraf查看建立好的本体。部分本体如图2所示。
从图2可以看出,信息科学领域的关键词“情报学”、“图书馆学”、“文献学”和他们的子类及分类关系,他们原来的叙词表中分别是分类词和主题词,在本体中以上下位的关系组织。点击某个类还可以看到该类的数据属性和与其他类的关系。
2.2.5 本体完善
为丰富学术创新力知识资源本体,本文利用中国知网的G3类部分期刊题录数据,抽取其中的新词加入到初始核心本体中去。
选取2013-2017年间的信息科学领域的期刊论文题录数据为数据源,预处理包括筛选数据字段、记录去重和复合关键词的提取等,本研究需要用到年、DOI、复合关键词这3个字段,最终得到30 850条可用于进一步分析的数据,以及61 680个复合关键词。
61 680个关键词中,可能存在大量不属于信息科学领域或意义不明确的词,如“美国课程研究”和“进路”,因此应对复合关键词进行过滤。经过统计,61 680个关键词的可能拥有的词频共有206种,词频最小为1,最大为1 451。词频较少意味着该关键词可能不是与信息科学领域相关的词,或者是无效的“新词”,但也可能是由于该词所反映的研究方向或研究对象,并不是这5年间信息科学领域研究的热点。根据多次实验得出的结果,本文选取了词频大于等于11的复合关键词,此时得到的关键词与信息科学领域联系更为密切。然后将上述关键词集合与本体中已存在的关键词概念集合取差集,即可得到“新词”。最后对得到新词进行规范化处理,处理结束后即可将新词按照定义类、确定类间关系以及定义属性和约束的步骤将新关键词的概念类、关系和属性加入到初始核心本体中去,该过程由python和owl语言自动转化完成。
3 本体实例化
本节将通过实例化单指标评价体系[15-16]中的评价指标类:主关键词、有效新词和共现词,以及实例化单指标评价体系需要利用的期刊文献类来完成实例化单指标评价体系的任务,并借由这一体系的实例化,实现概念本体和知识资源本体两部分本体的全部构建和最终组合。
3.1 添加文献类实例
在单指标评价体系中,需要用到的期刊题录数据的字段有:篇名、作者、机构、中文刊名、年、分类号以及 DOI。分别建立各個字段的集合,将集合中的元素包装成实例的标签,逐一建立与对应的类的关系。将处理好的“篇名”、“机构”、“doi”、“中文刊名”类的实例数据写入到概念本体的owl文件中。
3.2 添加关系和属性
实例可以继承所属类的关系。首先,需要了解的是:篇名、作者、年、分类号、DOI、机构和中文刊名,这七者之间的关系,在数据库中,上述七者都是期刊文献这一实体的属性,DOI是期刊文件实体的唯一标志,因而在本体中,应该分别建立其他6个类与DOI类的关系“attribute-of”,其他还可以选择建立篇名与作者的关系“written-by”,作者与机构的关系“work-in”,刊名和篇名的关系“indexed-of”等。
3.3 添加评价指标体系类实例
根据主关键词、共现词和有效新词的概念及获取方法,处理2016-2017年G3类期刊题录数据,得到词频为前20名的关键词,即主关键词,如表1所示:
根据上述主关键词可以再分别得出共现词实例8 921个和有效新词实例3 361个。将这些实例分别加入到对应的类下,共建立关系12 191个。
3.4 组合本体
将文献类实例和评价指标类实例本体按照图3所示的概念层次结构,补充类和关系的定义,利用protégé提供的Import功能将两部分本体组合成一个OWL工程,并且将知识资源本体中的DOI类与概念本体中的doi类建立新的关系:相等关系“equivalent to”,即可得到较为完整的学术创新力测度本体。
4 结论及下一步工作
本文旨在结合学科领域知识,构建学术创新力本体,为后续学术创新力自动测度研究提供基础支持,通过概念本体描述学术创新力测度领域的概念和模型的知识网络,知识资源本体将测度体系要用到的特定学科领域的知识资源进行组织,二者合二为一才是可支持学术创新力自动测度研究的实用本体。在研究过程中,共建立了30 097个概念,41 484多个实例以及320 609条关系,基本完成创建学术创新力测度本体的任务目标。
本文是对学术创新力测度领域构建本体的首次尝试,存在着一些不足之处。首先是前文提到的知识资源本体的完善,后续工作中可以考虑使用LDA模型抽取期刊文献的主题词加入其中,避免作者标注关键词的主观性,这样构建出来的本体,在应用于学术创新力测度时会帮助呈现更加客观有效的结果。其次是构建概念本体时采用了手工抽取相关核心概念的方式,这么做虽然可以保证抽取到的关键词是准确有效的,但是难免费时费力,当学术创新力方面的研究成果爆发时,更会显得力不从心。因此后面可以考虑利用规则与统计相结合的方法来自动化的抽取核心概念。然后是在添加文献类实例的过程中,本文简单将DOI类与其他6个类的关系定义为“attribute-of”,今后可以进一步细化类间关系。最后是本文构建的本体是为了后期的知识库以及学术创新力自动测度研究服务的,目前只添加了单指标评价实例,还需要进一步的添加其他测度体系和领域知识实例、概念间关系,不断充实和完善本体,为学术创新力的自动测度提供坚实的基础和保障。
参考文献
[1]蒋伟伟.人文社会科学学术创新力测度研究[D].南京:南京大学,2013:41.
[2]Mishra S,Torvik V I.Quantifying Conceptual Novelty in the Biomedical Literature[J].Dlib Mag,2016,22(9-10).
[3]杨建林,钱玲飞.基于关键词对逆文档频率的主题新颖度度量方法[J].情报理论与实践,2013,36(3):99-102.
[4]唐爱民,真溱,樊静.基于叙词表的领域本体构建研究[J].现代图书情报技术,2005,(4):1-5.
[5]丁晟春,傅柱.基于航天叙词表的领域本体半自动化构建研究[J].情报理论与实践,2011,34(11):113-116.
[6]郭瑞.基于纯文本的领域本体构建与实现[D].石家庄:河北科技大学,2016:53.
[7]文必龙,段炼,汪志群,等.基于语料库和规则库的石油本体自动构建研究[J].计算机技术与发展,2015,25(9):209-212.
[8]蒋婷,孙建军.领域学术本体概念等级关系抽取研究[J].情报学报,2017,36(10):1080-1092.
[9]蒋婷,孙建军.学术资源本体非等级关系抽取研究[J].图书情报工作,2016,60(20):112-122.
[10]周红照,侯敏,滕永林. 评价知识本体研究与规则实现[J].现代图书情报技术,2016,(10):25-32.
[11]姜韶华,武静.基于本体与BIM的绿色建筑智能评价系统[J].工程管理学报,2016,30(4):35-39.
[12]冯淑芳,王素格.面向观点挖掘的汽车评价本体知识库的构建[J].计算机应用与软件,2011,28(5):45-47,105.
[13]Daraio C,Lenzerini M,Leporelli C,et al.Data Integration for Research and Innovation Policy:An Ontology-Based Data Management Approach[J].Scientometrics,2016,106(2):857-871.
[14]Cano-Basave A E,Osborne F,Salatino A A.Ontology Forecasting in Scientific Literature:Semantic Concepts Prediction Based on Innovation-Adoption Priors[C]//European Knowledge Acquisition Workshop.Springer International Publishing,2016.
[15]錢玲飞,杨建林,张莉.基于关键词分析的学科创新力比较[J].情报理论与实践,2011,34(1):117-120.
[16]钱玲飞,杨建林,邓三鸿.人文社会科学学科创新力单指标评价[J].图书与情报,2013,(2):93-98.
(责任编辑:陈 媛)