基于知识图谱的国内关键词抽取技术研究
2020-05-25丁祎姗杜彦辉朱衍丞聂世民
丁祎姗 杜彦辉 朱衍丞 聂世民
摘 要:随着自然语言处理研究的不断深入,学界出现了大量关键词抽取技术相关文献。为了对其进行更高层次的分析 ,利用文献数据分析国内关键词抽取技术研究现状及进展,基于科学计量学方法,从CNKI数据库中检索关键词抽取文献数据,从研究的时空分布、共现网络、时序图等方面,利用CiteSpace引文空间分析方法以知识图谱的形式呈现,对时空知识图谱、共词图谱、研究前沿关键词时序图谱、突现词混合共引网络图谱进行分析,梳理该领域研究现状和热点,预测其发展趋势,为相关研究提供支撑和参考。
关键词:关键词抽取;知识图谱;CiteSpace
DOI:10. 11907/rjdk. 192453 开放科学(资源服务)标识码(OSID):
中图分类号:TP301文献标识码:A 文章编号:1672-7800(2020)002-0273-05
英標:Research of Keyword Extraction Based on Knowledge Graph
英作:DING Yi-shan1, DU Yan-hui1,2,ZHU Yan-cheng1, NIE Shi-min1
英单:(1. Information Technology & Network Security Institute, Peoples Public Security University of China;2. CIC of Security & Law for Cyberspace, Peoples Public Security University of China, Beijing 100038, China)
Abstract: With the development of natural language processing, there are a lot of research literatures about keyword extraction. In order to analyze and make better use of these data to analyze the research situation of keyword extraction technology in China, this paper retrieves the key words from CNKI database to extract relevant research literature data with the method of scientometrics. From the aspects of temporal and spatial distribution of authors and research institutions, key words co-occurrence network, research frontier time sequence, CiteSpace citation spatial analysis method is used to present in the form of knowledge graph, and through spatiotemporal knowledge graph, co-word graph, research frontier key words graph. The analysis of time sequence graph and emergent words mixed citation network graph combs the research status and hot spots in this field and forecasts the development trend, which provides certain support and reference for this field.
Key Words: keyword extraction; knowledge graph; CiteSpace
0 引言
近年来,关键词抽取技术在自然语言处理、情报学等学科领域备受关注。早期的关键词抽取依赖于专家系统和人工标注[1-3],随着人工智能的不断发展,自动关键词抽取技术取得了长足进步,相关模型和算法日趋丰富,但目前抽取性能与人类抽取结果差距甚远。该领域发展初期,文献检索系统不提供全文搜索,关键词作为检索依据是文档中必须设置的词条。随着信息时代的发展,海量的没有标注关键词的各类本文需要处理,这就需要人工、专家系统结合计算机对其进行关键词抽取[4-6]。文献自动标引方法的提出是关键词抽取研究的开端,国内学者将该技术引进并应用于中文关键词抽取领域。第一个自动关键词抽取系统实现后,包括我国在内的大量科研力量投入到该领域中,逐步形成了现有基于统计、语言分析、AI等的数个技术体系[7-8]。目前,该领域研究成果较为丰硕,但是欠缺对整体研究情况的梳理。本文以关键词抽取相关文献为研究对象,结合知识图谱可视化分析,梳理其演进情况、应用热点和研究动态。
1 数据来源与研究方法
1.1 数据采集方式
文献数据来自信息检索平台CNKI数据库,检索步骤如下:通过主题检索方式,搜索关键词抽取或关键词提取,以所有年为跨度,选定期刊、会议、硕博士论文为文献类型。本文共采集有效文献数据725篇,将其输出为Refworks格式。
1.2 研究方法
知识图谱可在特定空间及时间维度呈现知识发展进程与结构关系,揭示知识的演进变化规律,呈现宏观研究情况。通过知识图谱清晰反映该知识领域的研究现状、作者及机构间的合作情况、研究热点、前沿与趋势等[9-10]。本文对725篇关键词抽取相关文献数据进行分析,得到关键词抽取研究领域的隐藏知识、来源及发展变化规律,具体流程如图1所示。
2 时空知识图谱处理结果及分析
2.1 关键词抽取技术研究时间分布
检索CNKI数据库,1996-2019年关键词抽取技术相关文献数量和作者数量逐年变化趋势如图2所示。20世纪末期,研究者利用词频—逆文档频率即TF-IDF算法提取关键词,该方法将文本中TF-IDF值大于阈值的词视为关键词,是一种朴素无监督方法。从论文数量逐年变化趋势可以看出,21世纪初,国内学者对关键词抽取技术研究进入第一个高峰期[11-12]。随着国际学者在该领域研究的不断深入,1999年,有监督分类学习方法被引入,即用关键词特征创建出分类器,分类器所用特征为词频和词性,再用二分类思想对文本中的所有词进行判断其是否为关键词,最终将是关键词的集合作为抽取关键词的结果[13]。随后朴素贝叶斯方法被引入分类器创建中,一定程度上促进了国内关键词抽取研究,该方法针对网页内容分析、论文关键词识别、协议分析等领域,多使用决策树算法、朴素贝叶斯算法、支持向量机等[14-15]。从图2可以看出,该方向的研究成果呈现明显增长趋势,为有监督的关键词抽取技术奠定了基础,成为后续改进的有监督方法和其它关键词抽取方法的重要参考。2017年,PositionRank算法和基于条件随机场的方法被提出。可以看出,国内关键词抽取研究也随之进入了新的高峰[16-18]。整体而言,2008-2019年的研究成果是1996-2007年的近20倍。
2.2 关键词抽取技术研究空间分布
2.2.1 机构分布
分析国内关键词抽取技术研究的学术团体和机构,将期刊发文量阈值设置为5篇,LRF=2,LBY=8,生成关于机构间合作关系的图谱并统计结果,如图3所示。其中,标签大小代表中心性,节点环描述年轮,边表示合作关系。结果N=15(网络中节点),E=1(网络中边),Density=0.009 5(网络密度),表明国内关键词抽取领域的研究人员呈现分散状态,不同机构间合作较少。经调研,机构间合作也呈现明显的地域性特征。
CNKI数据库中关键词抽取相关主题论文共涉及744个不同单位,位列前三的单位有哈尔滨工业大学(27篇)、北京邮电大学(24篇)、合肥工业大学(18篇)。发文量不是衡量研究水平的唯一指标,但由此可看出上述研究單位在该领域投入了较多的科研力量,也取得了较强的影响力。同时,中国中文信息学会等10家单位也在关键词抽取领域投入了较多的研究力量。
2.2.2 作者分布
在参数设置中,重点分析Author Keywords Plus、Term Source-title、Abstruct,将Node Types设定为Author,其它参数设为默认值。采用最小生成树算法,得到关键词抽取领域研究者的知识图谱如图4所示,据高产定律统计发文量最高作者如图5所示。以这些作者为中心,构成了我国相关领域研究的重要团队,研究团队建设保证了国内关键词抽取技术相关研究的深入和创新。
3 研究热点、前沿知识图谱分析及发展趋势预测
关键词是体现文献主要内容的最小单位,对关键词的分析可以直观反映文献情况。本文将处理后的知网文献数据导入CiteSpace,经过最优化调参生成如图6所示的共词图谱,统计前10个关键词如图7所示。
3.1 热点演化分析
把握研究热点有助于掌握该领域研究动向和发展规律,以进一步明确其研究方向[19-21]。在分析研究热点时采用文献的关键词作为研究对象。文献关键词是其核心和概括,关键词在形式上也较为规范。因此,统计、分析关键词,将关键词作为热点词源,可将频次较高的关键词作为该领域研究热点的判断依据。
据此,将检索得到的725条数据源导入 CiteSpace中,将关键词作为网络节点,即可运行得到关键词的知识图谱,利用 CiteSpace选取热点词中频次较高的词,经统计可得到该领域的热点词。由图6可以看出,关键词抽取和自然语言处理两个关键词的节点最大,这是由于数据收集过程中进行文献搜索所使用的关键词就是关键词抽取。TF-IDF、TextRank、LDA出现的频次也较高,可知该领域研究大多基于以上算法。此外,词向量、相似度计算、深度学习、文本分类、文本挖掘等,也都是关键词抽取技术研究的热点[22-24]。
3.2 前沿关键词分析
本文利用膨胀词探测(Burst Detection)技术运行关键词抽取相关文献数据,得到研究前沿时序知识图谱。笔者设置按时间片切分关键词Top N%=20%,Top N=40,得到关键词抽取研究前沿关键词时序图谱如图8所示。
突变检测算法能够在不依赖其引用频次的基础上识别出突然出现的专业术语。本文通过CiteSpace输入前文数据进行“Burst Phrases”分析,绘制得到混合突现词共引图谱如图9所示。
在混合突现词共引图谱中,基于突现词标注,结合关键节点文献分析,以共引时间顺序将共引网络划分为对关键词抽取的主题聚类。本文将聚类形成的类簇用C0,C1,C2 ……表示[25-27]。
聚类C0中出现的突现词有关键词提取、文本聚类、特征权重、学术论文、古诗生成、二进制协议,这类研究范围较广,应用场景丰富,因此相关研究较为充分,主要依赖专家系统、标记数据以及分类器。类簇 C1的突现词主要有“协议逆向工程”“特征选择”“聚类分析”“自然语言处理”“词汇链”“语义相似度”等。类簇C2的突现词主要有“词向量”“TFIDF模型”“主题模型”“TextRank算法”“文本分类”等[28-30],标志着关键词抽取技术已从统计学方法逐渐过渡到基于语义理解的方法,通过计算词向量间的余弦值度量词与词之间的词义相关性。同时,还出现了大量基于主题方法的研究,结合突现词混合共引网络图谱,其具有重要研究价值。基于主题的方法更契合人类写作习惯,通过模拟人类写文章的方式建立概率模型,可以很好计算出文本语义相似度关系,解决中文文本大量存在的一词多义的语义理解难题,避免主题外噪声数据对关键词抽取准确性的影响。主题模型引入国内的时间不长,但其应用十分广泛[31]。目前,我国应用LDA主题模型研究文本相似度、微博等短文本的关键词抽取、文本话题演变分析、文本分割等,促进了关键词抽取算法的改进和优化。类簇C3由若干个小的类簇共同构成,突现词主要有“复杂网络”“机器学习”“文本挖掘”“网络舆情”“情感分析”等,表明国内关键词抽取技术已从基于主题的方法逐渐过渡到基于网络图的方法,复杂网络是一种基于图论的关键词抽取方法。可以模拟人类语言的复杂网络,利用语言特性构建语言网络图,用网络图反映词与词之间的关系,也可以用加权方式度量词与词之间的联系强弱关系。机器学习可利用人工智能的方法作关键词抽取,核心思想是基于人类经验得出关键词抽取特征,由此改善计算机抽取关键词的精确度,这就需要大量标记数据作为支撑,这种方法需以数据分析为前提。文本挖掘是随着大数据处理需求应运而生的,基本思想是从海量文本中挖掘出有用信息,目前在电商行业用户分析、多元异构数据处理中有较为广泛的应用,机器学习算法与文本挖掘进一步产生了与其它方法的融合[32-33],由此产生了关键词抽取技术在网络舆情、情感分析等方面更为广泛的应用。
对突现词混合共引网络图谱进行分析可知,当前关键词抽取技术研究的3个前沿方向为:
(1)提高语义理解能力,实现短文本关键词抽取、情感分析等更多方面的突破。目前,自然语言处理中的多种文本表示模型都不能充分体现文本语义之间的关系,包括布尔模型、概率模型、网络图模型等,在词的表征要素中都各有取舍以适应不同的算法。这导致关键词抽取算法在语义理解上很难做到全面准确,造成关键词抽取过程中语义理解的局限性。因此,如何融合以上模型或者创建新的模型构建全面表征语义要素的模型,提高语义理解能力是关键词抽取领域的关键问题,也是研究需要攻克的前沿问题。
(2)基于多种方法融合,提高关键词抽取准确性。每一种抽取算法都基于不同的因素,一种方法很难给出一个综合的抽取要素,很难得到最优抽取结果,因此关键词抽取必然需要多种抽取方法的融合。目前较为前沿的抽取方法对多种方法进行加权叠加,或者采取分布式抽取策略,用一种方法的输出作为另一种方法的输入,叠加得到相对准确的抽取结果[34-35]。
(3)新型模型探索,比如云计算、深度学习、知识图谱、空间关键词等。从共现词知识图谱中发现,这类研究相对稀缺,但是伴随着云计算、深度学习、知识图谱、空间关键词等新技术的不断发展,不难预见这些新技术将为关键词抽取技术研究带来突破,如何加以创新值得思考。
3.3 发展趋势预测
(1)研究力量方面。国内关键词抽取技术的主要研究力量来自高校和科研院所,通过发文突增性可以看出,哈尔滨工业大学在该领域有非常突出的贡献,可知未来关键词抽取的发展依然依赖于高校和科研院所的研究力量。
(2)研究热点方面。本文通过词频分析明确了关键词抽取领域中,复杂网络、机器学习、深度学习、知识图谱、情感分析、短文本、注意力机制、问答系统、网络舆情、文本挖掘等是目前国内关键词抽取技术研究领域的前沿与趋势[36-37]。
(3)根据文献分析可知,多种算法融合是进一步提高关键词抽取准确率的有效途径。
(4)伴随着自然语言处理的持续研究,基于语义理解的深入研究将为关键词抽取提供新思路。
4 结语
从总体脉络看,国内研究者对于关键词抽取的研究起初是基于统计的方式,即将文档中词语的统计信息作为文档关键词抽取依据,包括基于词权重、词的文档位置、词的关联信息等[38]。随着对自然语言处理的深入研究,关键词抽取技术逐渐由基于统计的方式向基于主题的方式发展[39]。近年来,将复杂网络引入关键词抽取技术领域,产生了无监督方法,包括系统科学法、综合特征值法、随机游走法等。随着大数据时代的到来,最新研究多以融合法为主,将数据挖掘、机器学习、深度学习、强化学习的方法与传统方法相融合抽取关键词,更加适应当前海量文本数据处理的现实需求。
从微观视角看,研究模式从理论分析到应用研究,实践性逐渐增强。但该领域的研究仍然存在一定局限性:一是机构与学者之间的交流较少,导致研究成果具有明显的离散性,建议科研单位在深入研究的同时,积极开展科研交流活动,避免重复工作;二是自然语言处理在语义理解方面未打破技术壁垒,导致关键词抽取技术无法达到更高的准确性,建议该领域研究者在语义理解层面取得突破,向解释力更强的方向发展,逐步提升关键词抽取技术的准确性,推动研究往更深方向发展。
参考文献:
[1] 张建娥. 基于多特征融合的中文文本关键词提取方法[J]. 情报理论与实践,2013,36(10):105-108.
[2] 李春虎,张宏,武伟娜. 微博用户对于基因编辑新闻态度的舆情分析[J]. 信息与电脑(理论版),2019(7):145-146.
[3] 常耀成,张宇翔,王红,等. 特征驱动的关键词提取算法综述[J]. 软件学报,2018,29(7):2046-2070.
[4] 肖根胜. 改进TFIDF和谱分割的关键词自动抽取方法研究[D]. 武汉:华中师范大学,2012.
[5] 王灿辉,张敏,马少平,等. 基于相邻词的中文关键词自动抽取[J]. 广西师范大学学报(自然科学版),2007(2):161-164.
[6] 方康,韩立新. 基于HMM的加权Textrank单文档的关键词抽取算法[J]. 信息技术,2015(4):114-116,120.
[7] 苏楠,张璇,杨红岗,等. 基于知识图谱的国内网络舆情研究可视化分析[J]. 情报杂志,2012,31(10):42-47,58.
[8] 肖明,陈嘉勇,李国俊. 基于CiteSpace研究科学知识图谱的可视化分析[J]. 图书情报工作,2011,55(6):91-95.
[9] 包楚晗. 基于Citespace的复杂网络可视化图谱研究[J]. 信息与电脑(理论版),2017(2):133-134.
[10] 司莉,刘剑楠. 三种信息可视化软件的比较研究——基于KOS研究的可视化实验分析[J]. 图书馆杂志,2014,33(1):61-67.
[11] 高廷丽. 面向网页排序的关键词权值计算[D]. 北京:中国社会科学院研究生院,2013.
[12] 王涛,李明. 改进的关键词提取算法研究[J]. 重庆师范大学学报(自然科学版),2019,36(3):98-104.
[13] 柳林青,余瀚,费宁,等. 一种基于TextRank的单文本关键字提取算法[J]. 计算机应用研究,2018,35(3):705-710.
[14] 江林升,张春霞. 含关键字的新浪微博獲取与舆情分析[J]. 宝鸡文理学院学报(自然科学版),2014,34(1):51-54.
[15] 郭永辉. 面向短文本分类的特征扩展方法[D]. 哈尔滨:哈尔滨工业大学,2013.
[16] 张少迪,郑炅,艾山·吾买尔,等. 基于Django的中文关键词提取系统的设计与实现[J]. 电脑知识与技术,2019(13):220-222.
[17] 苏红刚. 基于SVM的中文文本分类系统实现[D]. 长春:吉林大学,2012.
[18] 刘开瑛,薛翠芳,郑家恒,等. 中文文本中抽取特征信息的区域与技术[J]. 中文信息学报,1998(2):2-8.
[19] 赵鹏,蔡庆生,王清毅,等. 一种基于复杂网络特征的中文文档关键词抽取算法[J]. 模式识别与人工智能,2007,20(6):827-831.
[20] 夏天. 词语位置加权TextRank的關键词抽取研究[J]. 现代图书情报技术,2013(9):30-34.
[21] 李阳,李青,张霞. 基于离散序列报文的协议格式特征自动提取算法[J]. 计算机应用,2017,37(4):954-959,969.
[22] 方俊,郭雷,王晓东. 基于语义的关键词提取算法[J]. 计算机科学,2008(6):148-151.
[23] 阚洳沂,唐雁. 基于节点删除指标的关键字提取策略[J]. 西南师范大学学报(自然科学版),2008(2):119-122.
[24] 李俊,吕学强. 融合BERT语义加权与网络图的关键词抽取方法[J/OL]. 计算机工程:1-7[2019-11-15]. https://doi.org/10.19678/j.issn.1000-3428.0055368.
[25] 马慧芳,王双,李苗,等. 融合图结构与节点关联的关键词提取方法[J]. 中文信息学报,2019,33(9):69-78.
[26] 郭庆. 基于图与LDA的中文文本关键词提取算法[D]. 北京:北京邮电大学,2019.
[27] 刘慧婷,刘志中,王利利,等. 一般间隙序列模式挖掘的关键词抽取[J]. 电子学报,2019,47(5):1121-1128.
[28] 张莉婧,李业丽,曾庆涛,等. 基于改进TextRank的关键词抽取算法[J]. 北京印刷学院学报,2016,24(4):51-55.
[29] 于琨,糜仲春,蔡庆生. 可应用于互联网的自学习中文关键词抽取算法[J]. 中国科学技术大学学报,2002(3):126-129.
[30] 田军. 信息可视化分析工具的比较分析——以CiteSpace、HistCite和RefViz为例[J]. 图书馆学研究,2014(14):90-95,54.
[31] 杨洁,季铎,蔡东风,等. 基于联合权重的多文档关键词抽取技术[J]. 中文信息学报,2008,22(6):75-79.
[32] 宁建飞,刘降珍. 融合Word2vec与TextRank的关键词抽取研究[J]. 现代图书情报技术,2016(6):20-27.
[33] QIN P D,XU W R,GUO J. A novel negative sampling based on TFIDF for learning word representation[J]. Neurocomputing,2015,177: 257-265.
[34] JAN B,LEONARDO. Conversations on cognitive cultural studies: literature, language, and aesthetics[M]. Columbus:Ohio State University Press,2015.
[35] SIU M H,GISH H,CHAN A,et al. Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery[J]. Computer Speech & Language,2014,28 (1): 210-223
[36] PETER D,TURNEY. Learning algorithms for keyphrase extraction[J]. Information Retrieval,2000 (4): 303-336.
[37] CHEN CH M. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the American Society for Information Science and Technology,2006,57(3): 359-377.
[38] PERSSON O. The intellectual base and research fronts of JASIS 1986-1990[J]. Journal of the American Society for information Science,1994,45(1): 31-38.
[39] SIU M H,GISH H,CHAN A,et al. Unsupervised training of an HMM-based self-organizing unit recognizer with applications to topic classification and keyword discovery[J]. Computer Speech & Language,2014,28(1): 210-223.
(责任编辑:孙 娟)