基于词嵌入语义的精准检索式构建方法
2018-01-07何涛王桂芳杨美妮郭楷模
何涛 王桂芳 杨美妮 郭楷模
〔摘要〕[目的/意义]使用科技文献数据库进行文献检索时,检索式中的关键词如果不够全面,将导致检索结果查全率较低;检索式中的关键词如果一词多义,则可能向检索结果中引入无关文献,导致查准率较低。[方法/过程]针对这两类问题,本文提出使用词嵌入这一新颖的文本数据化表现形式,一方面通过语义分析对检索关键词进行扩充从而提高查全率;另一方面通过发现语义异常点来提高查准率。[结果/结论]本文将该方法应用于人工智能领域中深度学习方向上的文献检索式构建,实验结果表明该方法能在一定程度上提高检索的查全率和查准率。
〔关键词〕 深度学习;词嵌入;查准率;查全率;检查式构建
DOI:10.3969/j.issn.1008-0821.2018.11.010
〔中图分类号〕G2527〔文献标识码〕A〔文章编号〕1008-0821(2018)11-0055-04
Construction of Precise Search Queries Based on Word EmbeddingHe Tao1Wang Guifang1Yang Meini2Guo Kaimo1
(1.Wuhan Documentation and Information Center,Chinese Academy of Sciences,Wuhan 430071,China;
2.Department of Mathematics,Naval University of Engineering,Wuhan 430033,China)
〔Abstract〕[Purpose/Significance]During the literature search by using the academic databases,the search query of incomplete keywords would result in a low recall ratio;besides,the search query of polysemous keywords could introduce irrelevant literature and lead to a low precision ratio still.[Method/Process]To solve these two problems,this paper presented a novel manifestation for datafication of texture,namely word embedding:on one hand,to supplement the keywords by semantic analysis so as to improve the recall ratio;on the other hand,to enhance the precision ratio by detecting the semantic outliers.[Result/Conclusion]In this paper,the method was applied to the construction of literature search queries for deep learning in the field of artificial intelligence(AI),and the experimental results suggested that this method could improve the recall ratio and precision ratio to a certain extent.
〔Key words〕deep learning;word embedding;precision ratio;recall ratio;construction of search queries
隨着科学技术的快速发展,科技文献的数量呈现出爆炸性增长的趋势,从海量科技文献中精准地获取所需知识正变得越来越困难。常用的文献检索方法是由领域专家手工构建检索式,然后使用检索式在科技文献数据库中进行匹配以获得检索结果。这种情况下检索式的精准程度直接决定着检索结果质量的好坏。
领域专家在构建检索式的过程中容易出现两个方面的问题。一个是领域专家在检索式中所使用的关键词可能不够全面,遗漏部分关键词,导致检索结果查全率较低;另一个是检索式所使用的关键词由于一词多义的原因,导致该词不仅在检索的目标文献中使用,也可能在其他非检索目标文献中使用,采用这样的关键词进行检索就可能向检索结果中引入无关文献,导致查准率较低。所以构建精准检索式需要有效解决这两类问题。
之前的工作使用上下位主题词、同义词、近义词、选择规范专业用语等方法[1-3],或者使用逻辑运算符、位置运算符和通配符来提升检索结果的查准率和查全率[4-5]。这些方法大多依赖于已经构建好的词表或者领域专家的经验,缺少对科技文献数据库全部文献内容的全局把握,而这正是导致以上两类检索问题的重要原因。
在大规模科技文献摘要的基础上所生成的词嵌入(Word Embedding)蕴含着科技文献数据库中文献内容的全局语义信息,因此可以利用词嵌入在一定程度上解决上述两类检索问题。词嵌入(Word Embedding)是随着人工智能领域中深度学习技术(Deep Learning)的迅猛发展而产生的一种新颖的文本片段数据化的表示方式[6]。本文首先采用深度学习技术,生成蕴含全局科技语义信息的词嵌入。然后在此基础上计算出和检索式中关键词的科技语义信息最为接近的词,并将这些词提供给领域专家作为对原始关键词的补充,以解决查不全的问题。接着在词嵌入的基础上,对原始检索结果的作者关键词进行科技语义信息投影,在投影空间中采用异常点识别算法,以识别出与检索结果的主体语义差异较大的关键词,将这些关键词所对应的文献提供给领域专家分析,以解决查不准的问题。该方法应用于人工智能领域中深度学习方向上的检索式构建,实验结果证实该方法能够在一定程度上有效解决以上两类问题,辅助领域专家构建出较为精准的科技文献检索式。
2018年11月第38卷第11期现代情报Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于词嵌入语义的精准检索式构建方法Nov.,2018Vol38No111词嵌入
词嵌入是随着深度学习技术的兴起而产生的一种新颖的文本片段数据化的表示形式,这种数据表示形式蕴含着丰富的语义信息。本文在大规模科技文献摘要的基础上,生成了自然科学常见词汇的词嵌入表现形式。
11词嵌入的语义
把词、短语或者句子抽象表示为一定的数据形式是对文本进行语义计算的基础。随着深度学习技术的全面兴起,产生了词嵌入这种新颖的文本数据化表示形式,通过该方式能够把词、短语或者句子抽象表示为连续、稠密、低维度的实数向量。比如Book这个词可以被表示为{0035,0076,…,0081}这样一个400维的实数向量。
图1相机品牌和汽车品牌词嵌入在语义空间中的分布情况
词嵌入蕴含着丰富的语义信息[7]。其生成的依据是该词在大规模文本中的上下文语境,在语言学中认为语义相近词的上下文语境也相似[8],因此语义相近的词嵌入的空间距离也比较接近。比如,依据上下文语境生成5个常见的数码相机品牌和5个常见的汽车品牌的词嵌入,然后使用主成分分析(Principal Components Analysis,PCA)[9]把这些词嵌入降至两维,将结果展现在二维坐标中,如图1所示。从图1中可以看到,汽车类品牌BMW,Lotus,Audi等的词嵌入聚集在一起,数码相机品牌Nikon,Leica,Pentax等的词嵌入聚集在一起,这样的语义空间分布特点使得词嵌入能够用于解决之前所提到的查不准和查不全这两类问题。
12词嵌入生成
词嵌入的生成需要一定规模的语料文本作为基础,本文在大规模SCI论文摘要的基础上生成所需要的词嵌入。通常来说,用于生成词嵌入的语料文本与词嵌入所希望体现的语义信息相关程度越高越好。本文计划利用词嵌入进行自然科学文献的精准检索式构建,因此希望词嵌入能够体现出自然科学的语义信息。所以本文选用Web of Science中的SCI论文摘要作为词嵌入的生成语料基础。通过Web of Science所提供的网页官方下载途径,收集整理了中國与美国的SCI论文摘要合计约450万份,这些摘要大致涵盖了自然学科的主要研究领域,这为词嵌入能够蕴含较为全局的自然科学语义信息提供了保障。
使用词嵌入进行精准检索式构建时,会使用到专业词汇的词嵌入表示。专业词汇依据其组成可以分为两类,一类是由一个单词构成,另外一类是由多个单词构成。由一个单词构成的专业词汇使用词嵌入生成方法能够直接构建出其词嵌入,由多个单词构成的专业词汇则需要在原始语料中将这些单词进行拼接,然后才能生成该专业词汇的词嵌入。为了实现这一过程,将这些SCI论文的作者关键词进行了频次统计,从中筛选出出现频次大于1次的作者关键词合计约116万个,将其中由多个单词构成的专业词汇在原始语料中进行了拼接,从而使得能够生成这种类型专业词汇的词嵌入表示。
本文使用Word2Vec工具生成自然科学词汇的词嵌入表示形式。Word2Vec工具在词嵌入生成过程中有许多参数需要设置,这些设置直接影响着所生成词嵌入的质量好坏。在这些参数中,选用哪种模型、上下文窗口长度、词嵌入维度是其中最为重要的3个参数。为了确定这些参数设置,Word2Vec提供了类比语义关系测试数据集、语法关系测试数据集,使用这些测试数据集能够对所生成词嵌入的质量进行评估。本文首先使用不同的参数设置生成多个词嵌入,然后使用测试数据集对这些词嵌入的质量进行了对比,从中选择出质量最好的词嵌入用于精准检索式的构建。该词嵌入所使用的模型参数为连续词包模型(CBOW),上下文窗口长度设置为10,词嵌入维度设定为400。通过这样的方式,在大规模SCI论文摘要的基础上生成了合计约170万自然科学词汇的词嵌入表现形式。由于自然科学领域非常宏大,其中的词汇多种多样,所以词汇量也非常巨大。
2检索式构建
在词嵌入的基础上,一方面通过对领域专家的检索关键词进行科学语义扩充来提高查全率;另一方面通过对检索结果的作者关键词进行语义异常点的识别,从而提高查准率,下面详细阐述。
21使用词嵌入提高查全率
领域专家构建的检索式中关键词可能不够全面,直接导致检索结果的查全率不高。比如说检索人工智能领域中深度学习技术相关的文献,如只使用关键词“Deep Learning”是不够的,还需要使用“Deep Neural Net”、“Deep Network”、“Convolution Neural Net”等相关词汇。
本文使用词嵌入对检索式中的关键词进行科技语义扩充,将扩充的新关键词提交给领域专家,使其能够以此为依据对原始检索式的关键词进行补充,为查全率提供一定的保障。具体操作如图2所示,将原始检索关键词使用词嵌入投影到科学语义空间中,计算出与原始检索关键词(用圆圈表示)的词嵌入余弦距离(Cosine Distance)最接近的N个词(用三角表示),把这些词提供给领域专家,领域专家就能够在此基础上对原始检索式的关键词进行补充,从而提高查全率。
此方法的依据是词嵌入所体现的是该词的上下文语境信息,那么与原始检索关键词的词嵌入距离比较接近的词汇,它们的上下文语境与原始检索关键词的上下文语境也会比较相似,所以这些词通常是目标检索文献的常用词汇,可以用来对原始检索式的关键词进行扩充。
22使用词嵌入提高查准率
尽管领域专家所使用的检索关键词是与检索的目标文献密切相关的,但是其中某些关键词也可能出现在其他非检索目标的文献之中,使用这样的关键词进行检索,就可能向检索结果引入一定程度的噪音文献,导致查准率不高。比如人工智能中的深度学习“Deep Learning”这个词,不仅出现在人工智能领域[10-11],同时也出现在传统的教育教学研究方向上[12-13],使用这样的多义词进行检索,检索结果会同时包含人工智能和教育教学的相关文献,直接导致查准率不高。之所以出现这样的情况,是由于领域专家只对文献数据库中其自身的研究方向比较熟悉,但是对文献数据库的全局信息缺乏整体把握所导致的。本文所构建的词嵌入建立在大规模科技文献摘要的基础之上,可以近似的认为包含科技文献数据库的全局科技语义信息,所以本文使用词嵌入来解决这一问题。
具体过程如图3所示,首先把原始检索式检索结果的作者关键词通过词嵌入投影到科学语义空间(检索目标文献关键词使用圆点表示,异常点关键词使用方块表示)。然后通过异常点检测算法Isolation Forest[14],从科学语义空间中识别出与检索结果主体语义偏离程度比较大的异常点关键词。最后把含有异常点关键词的文献返回给领域专家进行解读,对其中的非检索目标文献进行移除。
通常来说含有异常点关键词的文献,大多是由一词多义的检索关键词所引入的无关文献。在科学语义空间中,检索目标文献的关键词由于上下文语境比较相似,所以这些关键词的词嵌入在科学语义空间中会聚集在一起,形成聚类,比如图3中的聚类1和聚类2;对于检索式中一词多义的关键词,其所产生的检索结果的作者关键词会含有其他研究方向的词汇,而这些词汇的上下文语境与检索目标的上下文语境差异较大,从而造成其词嵌入与检索目标主体语义的词嵌入偏离程度比较大,形成空间分布异常点。这是本文方法能够一定程度上解决这类查不准问题的原因。
3深度学习检索式构建
深度学习技术被认为是人工智能研究50年来的重大突破[15]。AlphaGo战胜围棋名将李世石更是将该项技術的关注程度推向了高潮。下面将通过本文方法建立面向深度学习研究方向较为精准的检索式,用于该研究方向从2009年首次在语音识别(Speech Recognition)取得突破至今的相关科学文献分析[16]。
深度学习技术的英文表述是“Deep Learning”,首先使用词嵌入对该词进行多轮关键词扩充,以提升查全率。具体来说,首先通过词嵌入计算与“Deep Learning”科技语义相似度最高的词,从中选出适合的词作为检索式的补充关键词,然后对补充关键词再次依据词嵌入进行关键词扩充,这样的步骤迭代多次,直至没有新的相关词汇出现为止,通过迭代向检索式添加的内容如表1所示(星号代表通配符)。使用“Deep Learning”在SCI中共能检索到2009年至今Article和Proceedings Paper类型的文献3 464篇,使用扩充后的检索式能够检索到相关文献6 521篇(2018年6月19日)。
接下来对扩充后检索式的检索结果进行异常语义发现,以提高查准率。部分异常语义内容如表2所示,不难看出语义异常的文献主要是教育教学类相关文献,与人工智能没有任何关系。通过分析发现,这是因为深度学习“Deep Learning”这个词在教育教学领域也是一个重要的概念[12-13],这表1使用词嵌入对“Deep Learning”一词多次迭代扩充
迭代次数检索式添加内容1“Deep Neural Net*”;“Deep Network*”;“Convolution* Neural Net*”;“Convolution* Net*”;“Deep Belief Net*”;“Word Embedding*”;“Deep Architecture*”2“Deep Recurrent Neural Net*”;“Recursive Neural Net*”;“Deep Boltzmann Machine*”些文章由于“Deep Learning”一词多义而被检索结果所包含。将这些无关文献移除后,人工智能领域的深度学习相关文献是6 416篇。
综上所述,作为实验对比如果只使用“Deep Learning”作为关键词的搜索结果,移除由于该词一词多义所引入的无关文献后,文献总数是3 359篇,而本文方法能够获得的检索结果是6 416篇,检索结果总量增加了91%;与此同时领域专家随机抽样对6 416篇文献的1/3进行了解读,抽样
查准率为98%。由此可见,在该检索过程中本文方法在保障较高查准率的同时,提高了查全率。
4结论及下一步研究
本文构建了常见自然科学词汇的词嵌入表现形式,该形式蕴含着丰富的科技语义信息。以此为基础,在进行自然科技文献检索时,一方面对检索关键词进行科技语义扩充,通过向检索式补充关键词的方法提高检索结果的查全率;另一方面对检索结果的作者关键词进行异常语义发现,从中识别出与检索结果主体语义差异程度较大的关键词,这些关键词所在的文献很可能是由于检索关键词的一词多义而引入的无关文献,通过从检索结果中移除这些无关文献以提升检索结果的查准率。最后使用此方法在人工智能领域的深度学习方向上进行了应用实践,取得了一定的效果。
构建精准的检索式,提高检索结果的查全率和查准率是一个复杂的问题,尽管本文方法能产生一定的作用但仍然存在一些问题。目前使用词嵌入计算词之间的科技语义相关程度效果较好,但计算词组合间的科技语义相关程度效果不够理想。有些检索式的语义信息是通过多个检索关键词之间的组合来体现的,这类语义信息是词嵌入目前所难以表现的,也是本文方法未来的改进方向。
参考文献
[1]李育嫦.文献检索中提高查全率与查准率的方法探讨[J].图书馆学研究,2002,(11):92-93.
[2]周婴.谈谈提高查新检索查全率和查准率的方法[J].图书情报工作,1997,(5):38-39.
[3]朱康玲.同义词的获取对医学科技查新查全率和查准率的影响[J].中华医学图书情报杂志,2012,21(3):78-80.
[4]孙君,陈陶.提高文献查全率和查准率的有效途径-逻辑运算符,位置算符和通配符的灵活运用[J].现代情报,2006,26(10):167-169.
[5]李璐,江葆红,孙红红.如何提高文献信息检索中的查全率与查准率[J].科技文献信息管理,2010,24(1):23-25.
[6]Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and Their Compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems.Curran Associates,2013:3111-3119.
[7]Mikolov T,Yih W-t,Zweig G.Linguistic Regularities in Continuous Space Word Representations[C]//Proceedings of the HLT-NAACL.ACL,2013:746-751.
[8]刘群,李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学,2002,7(2):59-76.
[9]Everitt B S,Dunn G.Applied Multivariate Data Analysis,Second Edition[M].Oxford University Press,2013:48-73.
[10]LeCun Y,Bengio Y,Hinton G.Deep Learning[J].Nature,2015,521(7553):436-444.
[11]Schmidhuber J.Deep Learning in Neural Networks:An Overview[J].Neural Networks,2015,61:85-117.
[12]Warburton K.Deep Learning and Education for Sustainability[J].International Journal of Sustainability in Higher Education,2003,4(1):44-56.
[13]Vos N,Van Der Meijden H,Denessen E.Effects of Constructing Versus Playing an Educational Game on Student Motivation and Deep Learning Strategy Use[J].Computers & Education,2011,56(1):127-137.
[14]Liu F T,Ting K M,Zhou Z-H.Isolation Forest[C]//Proceedings of the Eighth IEEE International Conference on Data Mining.IEEE,2008:413-422.
[15]松尾豐.人工智能狂潮[M].北京:机械工业出版社,2016:110-111.
[16]Deng L,Yu D,Hinton G.Deep Learning for Speech Recognition and Related Applications[C]//Proceedings of the NIPS Workshop.Neural Information Processing Systems Foundation Inc,2009.
(责任编辑:陈媛)2018年11月第38卷第11期现代情报Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于贝叶斯网络的网络舆情危机节点诊断研究Nov.,2018Vol38No11
收稿日期:2018-08-02