自然语言处理在其他学科领域的影响考察*<br/>——基于CNKI的中文文献挖掘

自然语言处理在其他学科领域的影响考察*
——基于CNKI的中文文献挖掘

2022-01-21蒋彦廷胡韧奋

情报杂志 2021年12期

蒋彦廷胡韧奋

(1. 成都航空职业技术学院成都 610100;2. 四川传媒学院成都 611745；3. 北京师范大学中文信息处理研究所北京 100875；4. 北京师范大学汉语文化学院北京 100875)

0 引言

近年来，自然语言处理(Natural Language Processing, NLP)作为人工智能的一个分支蓬勃发展。作为一门让计算机有效地理解与处理人类语言的学科，它在文本分类[1]、信息检索[2]、机器翻译[3]、阅读理解[4]等技术上均取得了长足进步。随着社会经济科技发展，信息传播越来越便捷，各个专业学科相互沟通、相互交融的趋势愈加明显。边缘学科乃至跨学科的专著、论文也不断涌现[5]。考察自然语言处理在其他专业的影响，探索NLP与其他学科的交叉领域，不仅有利于在学科专业之间找到创新点，助力科学研究；而且也能推动NLP技术在各领域应用落地，促进产研合作与研究成果转化。

1 相关研究

在既往的研究中，一些研究者注意到了自然语言处理与其他学科的交叉领域。例如王煜[6]介绍了词频分析、依存句法分析、文本分类、信息检索和知识图谱等技术在建筑工程领域的用途，包括合同管理、工程舆情分析、施工事故原因识别等。薛蕊等[7]指出铁路领域有着大量非结构化文本，NLP技术能将数据结构化，在铁路智能客服、资产设备管理、智能维修、辅助决策等方面发挥作用。此外还有介绍NLP在法律[8]、军事地理情报[9]、教育[10]、社会传播学[11]的应用情况。这一类文献往往是综述性质的，关注NLP在某一个具体方面的成果，且考察方式为定性分析。而通过定量方式、尽可能全面展示NLP与其他学科领域交融发展、NLP知识扩散的情况，还是一个值得填补的研究空白。

在运用定量手段发现学科交叉主题、探索跨学科知识扩散的研究中，引文网络、共词分析、聚类法是常用的方法。

引文网络法基于这样假设：引用相似文献的两篇论文，在研究主题上也具有相似性。通过构建共被引网络、进行网络密度、核心度等指标的复杂网络分析，可发现具有相似主题的文献，进而发现学科间主题交叉、知识扩散的现象[12, 13]。采用引文网络进行跨学科的知识扩散探索，主要的关注点是文献之间的引用关系[14]，忽略了文献本身的主题内容，主题粒度较粗[15]。该方法难以探寻具体研究主题的跨学科扩散状况。

共词分析法主要以文献关键词为计量项，通过寻找不同学科文献之中共同出现的关键词，构建共现网络，发现交叉研究的主题。共词分析法简便易行，但许多学术文献的关键词设置有很强的人为主观性。一方面部分文献关键词不规范、概念混乱、粒度大小不一[16]；另一方面也难以解决多词一义、一词多义的问题，例如论文关键词中的“LSTM”与“LSTM模型”、“LSTM网络”、“长短期记忆”、“长短期记忆神经网络”多词一义；而“深度学习”概念在教育学和人工智能领域的含义大相径庭。

聚类法首先通过对不同学科的文献进行语义聚类，构建学科交叉文献集。每一个聚类簇内可能包含学科不同但主题相似的文献。进而对每一个类簇，运用以LDA(Latent Dirichlet Allocation)为代表的主题模型求解，将交叉文献转变为交叉主题[15]。这是一种无监督数据挖掘的方法，不依赖人为标注的数据。但聚类方法的类别数量往往需要人为设置。在数据量大、样本成员之间总体的语义距离较小的情况下，聚类的效果往往不尽如人意。此外，以LDA为代表的主题模型会生成由若干关键词构成的主题，主题的意义需要人为归纳。

我们认为，发现学科交叉研究的主题，包含两个子任务：第一是交叉领域文献集的确定；第二是交叉领域文献集主题的识别。针对这两个任务，该文的研究方法将在第2节中详述。

2 研究方法

本文的研究方法涉及两方面。第一，针对交叉领域文献集的确定，我们将利用《中国图书馆分类法》与文献之间的引证关系，确定NLP与其他领域的交叉研究文献。第二，针对交叉领域文献集的主题识别，我们构建了一个“数据资源-算法模型-关键技术-应用系统”的4层级的NLP知识分类体系与文献数据集，通过文献的多标签分类(Multi-label classification)，实现有监督的文献主题识别，从而使NLP在其他领域的影响作用更具体地呈现出来。

2.1依据文献分类号、引证关系构建交叉领域文献集要发现NLP在其他学科领域的影响力，首先需要收集NLP与其他学科交叉研究的文献。在中国知网(CNKI)论文数据库中，许多论文均标注了文献分类号。文献分类号设置的依据就是《中国图书馆分类法》(以下简称“《中图法》”)。《中图法》是一个针对图书、文献的大型知识分类体系，是当今国内图书馆使用最广泛的分类体系。《中图法》包含22个一级类别，以下又区分约250个二级类别和更多的小类，层层隶属，逐级细分。

NLP在《中图法》知识分类体系中的定位是怎样的？我们经过对代表性NLP论文所属分类号的分析调研，认为具有以下《中图法》分类号(以下简称“中图分类号”)的文献，就属于NLP的典型文献，如表1所示。

表1 自然语言处理的典型中图分类号及其含义

根据《中图法》，TP391.1“文字信息处理”不仅包括文字录入技术，而且也涉及范围更广的、非语音而是书写形式的文字处理系统。TP391.2“翻译系统”与H085“机器翻译”两个分类号的区别在于，前者主要收录与翻译软件及其应用相关的图书文献，后者则偏重机器翻译及其理论[17]。每篇文献的分类号，由作者或期刊编辑人工标记确定，严谨性和准确性较强。

我们依据上述分类号，从CNKI中国知网数据库中收集了2159篇文献的题名、刊物名、摘要、关键词、中图分类号等信息。这些包含表1典型NLP分类号的文献，就是NLP领域的典型文献。值得指出的是，这2159篇典型文献中，也有不少文献包含了多个中图分类号。

除了采集NLP领域的典型文献，我们也收集了NLP领域的非典型文献。我们对于NLP领域非典型文献的界定标准是：它们虽然本身不含表1所示的NLP文献分类号，但引用参考了NLP领域的典型文献。我们依照此标准，搜寻NLP典型文献的引证文献，从中采集了1376篇NLP的非典型论文。

2.2建立NLP知识分类体系，构建论文主题数据集“NLP-others”如第1节所述，学术论文关键词普遍存在主观性强，一致性较弱的现象。一词多义、多词一义、上位词和下位词的问题也不利于直接通过统计关键词，反映NLP与其他学科领域交叉研究的研究主题。另外，根据我们对3535篇NLP典型与非典型论文的数据统计，论文的关键词同时存在于摘要或标题中的比例不到30%。这意味着难以通过词向量学习，在论文的标题或摘要中获得关键词的嵌入(embedding)表示。

针对这样的情况，我们依据参考对采集到的部分论文主题的考察，并参考宗成庆[18]对NLP领域内容、层次的梳理，构建了一个4层级的NLP知识分类体系，并据此体系，人工标注了一个NLP与其他领域交叉研究的论文主题的多标签分类数据集“NLP-others”。该NLP知识分类体系如表2所示。

表2 NLP的4层级知识多标签分类体系

NLP的4层级知识多标签分类体系的第一层次是“数据资源”，任何一个信息处理系统，都离不开数据和知识库的支持，自然语言处理系统也不例外。第二层次是“模型算法”，它主要涉及自然语言处理领域的统计方法与机器学习方法。第三层次是“关键任务”，主要涉及从词语、句子序列、篇章等角度，对自然语言文本进行分析并从中提取有价值的信息。第四层次是“应用系统”，它是NLP知识分类体系中最宏观抽象的一层，其下包含的具体label，通常都是集成性、实用性较强的落地的系统。

为了让表2的分类体系更好地指导NLP文献主题数据标注，增强标注的准确度与一致性。我们对该体系做出如下标注说明：

a.知识库/知识图谱。知识库与知识图谱都属于经由人为提炼、加工后的形式化的知识资源，因此归入同一个label中。词典、辞书、本体、语义网、图数据库等主题也归入该label中。

b. 语言模型。包括但不限于经典的n-gram语言模型与预训练深层语言模型。

c.神经网络。“神经网络”label包括“词向量”“LSTM”“CNN”“BERT”等下位概念。当一篇文献中包括这些下位概念时，也需要标注“神经网络”这一上位概念。

d.词向量、LSTM、CNN、LDA主题模型等。这些标签分别是所属的一类模型算法的通称。与它们密切相关的改进、变种版算法/模型，也归入对应的标签里。例如“循环神经网络(Recurrent Neural Network)”、“双向的长短期记忆(Bi-LSTM)”模型也归入“LSTM”标签中。

e.词法分析。该label具体包括自动分词、词性标注、词频统计与词语共现相关的内容。另外有关语素(Morpheme)、词类、复合词内部结构等的语言理论研究，也归入此label。而“关键词抽取”相关内容不归入此label，而归入“应用系统”层次的“自动文摘”label。

f.句法分析。该label既涉及短语结构语法、依存语法的自动分析，也包括形式语言、自动机理论、构式语法等语言学语法理论的探索。

g.语义分析。该label主要涉及对语言意义的分析研究，包括语义角色标注、语义依存、词义消歧等。也包括理论语言学领域相关的语义研究(如动词配价理论)。“知识库/知识图谱”label中涉及语言意义形式化分析的内容(如WordNet、HowNet知网)，也同时归入“语义分析”label中。

h.网络分析。包括图论、复杂网络、社会网络分析等内容。该label与“知识图谱”的区别在于，“网络分析”侧重于动态的算法过程与网络性质的分析，例如社群发现、关键节点挖掘、网络表示学习等。

i.舆情分析。该label主要包括监测、情感分析、谣言识别、信息传播等内容。它与网络社交媒体密切相关。

j.分类系统。该label主要包括句子分类、文本分类，也包括广义上的机器学习分类任务。若“舆情分析”label中涉及到分类任务，也同时标记“分类系统”这个label。但同层级除了“舆情分析”的其他label，如命名实体识别、信息检索、问答系统、阅读理解、自动文摘等若涉及了分类的子任务，也不再标记“分类系统”label，以避免类别范围无限制地扩大。

k.回归系统。该label主要涉及对样本数值的预测。例如电影评分预测、温度预测、广告点击率预测、作文评分预测。

l.其他。当一篇文献不属于其他任何一个label时，就标记为“其他”类别。

该分类体系在指导文献主题标注时，以文献的简介信息(包括标题、摘要、关键词)为参考的材料依据。一篇文献可能只有一个label，也可能有多个label。在主题标注时，应当彰显文献论述的显式的重点，例如若文献简介明确提到了词向量，除非在文献简介也明确提到了自动分词、词性标注等内容，否则该文献仅标注“词向量”的label，不标注“词法分析”的label。

我们依据此分类体系，对采集的文献进行主题标注。在一位NLP专业的教师、两位NLP专业研究生的合作下，人工标注了每篇NLP相关论文的主题label，构建了NLP与其他领域交叉研究的论文主题数据集“NLP-others”。下载链接为：https://www.mediafire.com/file/q5gy8iurtr7am76/NLP_topic_classification_dataset.xlsx/file。它包含1484篇带NLP主题标记的论文。这1 484篇论文或多或少均与其他学科领域有所关联(如表3所示)。这为后续的主题统计、论文多主题识别奠定了基础。

3 实验数据

如第2.1节所述，实验数据包括1 376篇NLP非典型文献，以及2 159篇NLP的典型文献。而标注的NLP论文主题数据集，则包括1 376篇NLP非典型文献的全部，以及108篇典型文献。这108篇典型文献同时包含了表1的NLP典型分类号，以及表1之外的其他中图分类号。如表3所示。

表3 实验数据的类型及其规模

4 实验过程与分析

4.1文献的来源期刊分析我们首先统计了NLP的典型文献、非典型文献来源的期刊分布情况，根据期刊的频次高低绘制了词云图。如图1、图2所示。

对比图1、图2可以发现，NLP领域的典型文献主要来源于计算机学科相关的学术杂志，尤其以《中文信息学报》《计算机学报》《软件学报》《计算机研究与发展》等为代表。而NLP领域的非典型文献，则主要分布在图书馆学、情报学领域的学术期刊中，如《图书情报工作》《情报理论与实践》《情报科学》。这说明，图情领域的许多论文虽然没有标注NLP的中图分类号，但参考引用了NLP领域的许多典型文献，受到NLP的影响较大。

图1 2 159篇NLP典型文献的来源期刊

图2 1 376篇NLP非典型文献的来源期刊

总的来看，除计算机学科外，图情学科与NLP的关联最为密切。此外，也可以看到其他领域的学术杂志涉及了一些NLP的边缘性、交叉性研究，如医学领域的《医学信息学杂志》、农业领域的《农业机械学报》、教育学领域的《中国远程教育》、传播学领域的《现代传播》、语言学领域的《语言文字应用》、《语言科学》等。

4.2文献的中图分类号分析NLP在其他领域的影响力，可以由NLP文献涉及的其他学科分类号的出现频次来定量地衡量。我们统计了3 535篇NLP典型与非典型的文献中，除表1以外的其他中图分类号频次。这些中图分类号要么与典型的NLP分类号同现，要么是参考引用了NLP典型论文的文献的分类号。它们代表着与NLP相关的其他学科领域。经归并小类的整理，如表4所示。

表4 与NLP相关的其他领域分类号(部分)

由表4可知，与NLP有联系的领域十分广泛。限于篇幅，我们阐述分析频次前8位的分类号对应的领域。分类号频次最突出的是TP18人工智能理论领域，分类号出现的频次高达639。NLP作为人工智能的一个分支，与人工智能中的机器学习、知识工程、人工神经网络有着千丝万缕的联系[17]。

频次位居第二是G353“情报资料处理”的领域。根据对该领域下198篇文献的考察，它们主要探讨了各领域知识图谱的构建与应用，以及科研学术信息的挖掘与分析。具体涉及知识图谱[19-21]、主题发现及演化[22, 23]等技术。

频次第三的是G206“传播理论”。该领域涉及舆情管理分析、社交媒体数据挖掘与计算视角下的传播学研究。如唐存琛等[24]通过模块化采集、文本分类与聚类，提升了获取社交网站舆情信息的速度与质量。胡吉明[25]、麻友[26]等分别利用BiLSTM-CRF、LDA模型从微博等社交媒体中抽取机构、观点等关键实体，实现舆情的挖掘与结构化。谭振华[27]、刘丽群[28]、徐建民[29]等则从网络传播的角度，对用户转发微博的行为进行特点分析或建模预测。

频次第四的是G252“信息资源服务、文献检索”领域。如名称所示，该领域着眼于为用户提供有效的信息资源。主要涉及相关数据库、开放数据集的建设[30-31]、知识检索[32-33]、智能推荐[34-36]、问答服务[37]等。

频次第五的是F724、F274“商品流通、企业营销管理与市场”领域。NLP在该领域处理的文本类型，既包括电商平台的消费者评论[38-40]，也涉及招聘网站信息[41]与企业微博内容[42]。NLP发挥的作用主要是挖掘文本关键信息，为企业人员与消费者提供决策支持。

频次第六的是G254“信息组织理论”领域。该领域的文献主要涉及信息加工、知识标注与结构化工作。例如学术知识描述体系[43]、古籍知识本体[44]、就业知识需求模型的构建[45, 46]，也包括机器学习对图书[5]、文献[47]多标签分类相关的研究等等。

频次第七的是G250“图书馆学，情报学工作”。该领域与NLP交叉研究的突出主题，就是图书馆工作的网络化与自动化(数字图书馆)。数字图书馆是未来图书馆的发展趋势，数字人文、文化遗产的数字化[48]以及移动图书馆、数字出版、数字资源的共享[49]都是与NLP紧密联系的领域。

频次第八的是G434“计算机化教学、电化教学”领域。该领域与NLP交叉研究的领域较为广泛。包括学生书面成绩的自动评价[50, 51]、学习者情感文本分析[52, 53]、运用深度学习方法的MOOC在线课程信息挖掘[54-56]、知识推荐[57]与教育知识图谱[58]等。

我们按照《中图法》将中图分类号转化成领域名称，根据分类号出现的频次，绘制了图3所示的词云图。可以看出，NLP与自然、社会与人文学科均有程度不同的影响力。这反映了当代学科间的相互渗透、融合的趋势。只要某领域存在需要处理分析的大量文本，NLP就能发挥重要作用，例如渔业标准的命名实体识别[59]。此外，NLP技术甚至在非自然语言的序列中，也有用武之地，例如向量空间模型用于RNA序列物种鉴定[60]；又如注意力机制、LSTM模型用于基于实时负荷、历史电价、日期类型、天气等非文本特征的未来电价预测[61]。

图3 NLP联系密切的其他领域一览图

4.3“NLP-others”论文主题数据集的统计与多标签分类“NLP-others”论文主题数据集标注工作完成后，我们统计了NLP主题标签的数量，依据频次绘制了如图4的词云，它反映了NLP的数据资源、模型算法、关键任务、应用系统被其他学科领域提及或应用的频繁程度。

图4 NLP主题在其他学科领域提及/应用的频繁程度

由图4可以看出，知识库与知识图谱(占比约9.71%)、神经网络(占比约9.23%)、舆情分析(占比约9.16%)是在其他学科领域广泛提及或应用的NLP知识的前3位。而篇章分析、阅读理解、自然语言生成、多模态信息处理等目前仍然是富有挑战的NLP任务，还有较大的发展空间，因此这些主题在其他领域还较少被提及或应用。在具体模型算法上，擅长序列分析的LSTM相关模型、擅长序列标注的CRF模型、擅长主题挖掘的LDA相关模型、擅长分类的SVM模型在其他领域应用较为广泛。此外，近年来兴起的预训练语言模型BERT也迅速被与NLP相关的其他领域所应用。

为了预测未来产生的NLP相关论文的主题，发挥“NLP-others”的主题识别作用，实现知识扩散的精细化探测。我们在“NLP-others”数据集上进行多标签分类。我们选取了label数量最高的前30个label作为多标签分类的标签，其余低频的label均转变为“其他”label。

文本多标签分类(Multi-label classification)意味着给每个文本分配一个或多个label。例如一篇文献同时论述了词向量与语言模型相关的内容，那么它至少应标记表2中“词向量”、“语言模型”两个label。在样本量较少的情况下，它至今仍是一个充满挑战的NLP任务[62]。对于多标签分类，目前的常用方法是通过一定手段，将其转化成单标签分类的任务。手段包括二元关联(Binary Relevance)、分类器链(Classifier Chains)、标签子集(Label Powerset)[63]。

二元关联是最简易的方法，对于总计N个标签的多标签分类任务，它将训练集中所有属于类别i的数据标记为正类，包括多标签的情况，而不属于类别i的数据标记为负类别，以此构建N个二元分类器。分类器链则在二元关联的基础上，考虑了标签之间的相关性：首个二元分类器只在输入数据上进行训练，之后的分类器则在训练数据和所有之前的分类器上进行训练。标签子集则将数据集中每个多标签的组合情况，都转换为一个单独的类别。从而将原任务转化成单标签的多类分类任务。

我们对所有的文本均按字切分，使用单字、2-gram、3-gram与TF-IDF特征，并把每个label的名称在文本中的出现次数作为补充特征。我们选用支持向量机(SVM)与逻辑回归(Logistic Regression，LR)作为分类器。按9∶1的比例划分训练集与测试集，进行10折交叉验证(10-fold Cross-validation)。在测试集上计算每个样本的每个真实label的准确率、召回率与F1值，如表5所示。

表5 “NLP-others”数据集的多标签分类实验结果

如表5所示，SVM分类器显著优于逻辑回归。另外Label Powerset的多标签分类策略，略优于Binary Relevance与Classifier Chains，这是因为Label Powerset方法把问题转化成单标签多类的分类任务，比起另外两者“一对多”的二元分类，类别间数据不平衡问题有所缓解。30类多标签分类的F1值最优达到76.60%。这证明对于NLP与其他学科交叉研究的文献，“NLP-others”数据集可以成为预测它们论文主题的基础性资源。

5 结语

该文依据《中图法》文献分类号与文献之间的引证关系，从CNKI数据库采集了3 535篇NLP典型与非典型文献。提出了4层级的NLP知识分类体系，并据此构建了NLP论文主题识别数据集“NLP-others”。实验发现自然语言处理在图书馆学情报学、传播学、企业营销与市场、电化教学、医学信息学、军事学、行政管理、英语翻译、地理信息系统、电力系统等领域均有着广泛的影响。学科领域交叉的态势显著。知识库与知识图谱、神经网络、舆情分析等NLP技术在其他学科领域被广泛提及或应用。而篇章分析、阅读理解、自然语言生成等技术在其他领域的应用发展还有较大潜力。我们在“NLP-others”数据集上进行30类的论文多标签分类，基于Label Powerset方法的SVM分类器取得了当前最好效果，F1值达到76.60%。实验证明，该文提出的NLP主题分类体系，与构建的数据集“NLP-others”能为未来相关论文主题识别、NLP跨学科研究提供有力支撑。当未来在其他领域出现了引用NLP典型论文的文献时，我们不仅可以根据引证关系，将其识别为受NLP影响的文献，而且可以利用“NLP-others”数据集与多标签分类算法，识别出NLP的哪些具体的数据资源、模型算法、关键任务、应用系统对该领域文献产生了影响。实现知识扩散路径的精细化探测。

由于与NLP相关的外文文献大都未标注《中图法》分类号，本研究的数据采集范围限于CNKI数据库的中文文献。在未来的研究中，我们将基于外文NLP文献数据，探索自然语言处理在其他领域的知识扩散情况。