NLP在文献知识检索与处理中的应用*

2021-09-24李一琳

科技创新与应用 2021年26期

李一琳，徐瑞

（1.南京森林警察学院刑事科学技术学院，江苏南京 210023；2.南京大学信息管理学院，江苏南京 210023）

自然语言处理（Natural Language Processing，NLP）又称自然语言理解，发源于美国IBM沃森研究中心，是一种对自然语言信息进行处理的技术，包括自然语言理解（Natural Language Understanding，NLU）和自然语言生成（Natural Language Generation，NLG）两部分[1]。它是计算机语言技术的一个分支，通常是指利用计算机对人类的自然语言进行有意义的分析与操作，作为人工智能的一部分，是目前信息技术最重要的研究方向之一。

为了从整体上把握该领域的研究现状与发展趋势，本文通过梳理相关文献，对自然语言与文献知识处理的发展关系以及在信息检索、文本处理等方面的研究进展进行归纳总结，探究未来发展趋势，以期能对自然语言处理的发展应用提供一定的参考。

1 自然语言的发展历程

1854年，美国波士顿梅堪特图书馆编印的字典式目录和1876年美国克特发表的《字典式目录条例》，把主题标识、著者标识、书名标识三者的字顺结合起来，应视为人工语言与自然语言兼容化的初步尝试。

国外学者于20世纪40年代末至50年代初开始涉及该领域，我国在20世纪50年代末和60年代初，开始自然语言检索的研究工作。从20世纪60年代以关键词匹配为主流，到70年代以句法-语义分析为主导，再到80年代开始实用化和工程化[2]，自然语言检索已经成为国内外情报检索和自然语言处理领域的共同研究热点。到20世纪90年代，随着机器学习算法的引入，研究者开始注重语料库的建设，目前自然语言处理已经拓展到语音识别、句法分析、机器翻译、机器学习和信息检索等多个方面[3]。

随着微型机网络和光盘等硬设备的产生，迫切需要产生一种新的检索方式，自然语言检索应运而生，给情报检索领域的应用带来了巨大变革。在全文数据库出现后，进一步加速了对自然语言检索的发展与研究。自然语言在几十年的发展中已形成有效的理论和实用技术，其中在语音识别算法中引入隐马尔可夫模型和噪声信道与解码模型取得显著的成绩。

从科技、军事、政务领域的文献中检索关键信息进行知识组织和分析，是获取情报的重要手段，以美国为首的西方发达国家十分重视自然语言处理领域的研究，尤其是在军事领域的应用。

同期，情报检索的研究也经历了大致5个阶段，由20世纪60年代开始机械情报检索，到70年代尝试计算机情报检索；80年代我国建立了联系国内外的数据库联机检索系统[4]；90年代，美国率先把自然语言处理技术应用到情报检索中，尝试建立高级情报检索系统[5]，真正实现了非布尔逻辑中的自然语言检索[2]；近些年则致力于发展情报检索系统的智能化。

为全面了解自然语言的发展状况，以中文检索式：主题=“自然语言处理”“自然语言”在中国知网检索；英文检索式：主题=“Natural Language Processing”或“NLP”在Web of Science（WoS）中检索，检索文献的年限为1980年-2020年，共获取中英文献41062篇。

根据所获文献总量统计，涉及自然语言的论文在2004年开始迅速增长，预计2021年将超过4000篇，可见自然语言在国内相关领域已经进入白热化的发展态势。主要关注的研究领域有计算机软件及计算机应用、自动化技术、中国语言文字、外国语言文字、图书情报与数字图书馆，这5个领域均有超过1800篇的文献，其中计算机类文献高达21818篇。涉及的主题除了自然语言和自然语言处理，还集中在深度学习、人工智能、机器学习、问答系统、机器翻译等方面。给予此类研究资助最多的是国家自然科学基金、国家社会科学基金和国家高技术研究发展计划的研究类项目，已发表超过5000篇研究性论文（图1）。

图1 1980年-2020年间涉及自然语言的文献类型

2 自然语言在文献检索中的应用

自然语言能够直观展现文本的名称、内容和特定的词汇，对一些没有规律性的数据进行处理和分析，其检索方法没有特定的规范方式，约束较少，能给用户提供较大的发展空间。用户在使用时不需要考虑是否存在相关的检索规则和检索程序，可直接使用自己的语言和系统进行沟通，最大程度减少人机对话障碍。

随着信息技术的发展，欧美等西方国家越来越关注自然语言处理在情报获取中的应用，尤其重视在军事领域的应用。自然语言处理技术在能够通过通信、信息捕捉和信息控制等方面为军事行动提供交流渠道，保障信息及时传送，提升军事行动的准确性。

2.1 数据的获取

数据获取是所有数据挖掘与分析的开始，文本挖掘则是数据挖掘在文本领域的扩展，自然语言是当前文本挖掘的重要技术，以发现知识为目的[6]。自然语言处理常用的方法有关键词提取、信息收集和信息分类等，根据预设程序划转为相应信息等级，并作出提示，该技术能够主动完成情报自动收集、梳理和分析工作。

在情报机构处理的各类情报素材中，公开来源的文本素材是情报的重要组成部分。在大数据时代，电子邮件、电子文档、电子数据库等信息基于新媒体平台快速传播，海量的信息为搜集情报提供了重要渠道，同时互联网信息也具有一定真伪性，对信息的甄别和分析也是一项重要的工作。以美国情报机构为例，通过新媒体平台获取信息是目前最为容易且普遍的获取方式，通过与主要信息来源企业合作，秘密对主要信息来源渠道进行监控。通过预定程序可以实现不间断、定时且全面的网络信息平台情报扫描，对涉及相关情报的信息进行搜索和下载，及时获取必要的信息。

2.2 情报检索

在知识是生产力的知识经济时代，社会的发展越来越依赖于知识的获取和利用。数据仓库储存的知识包括空间位置数据、多媒体数据、文本数据等[6]，图书馆是数据仓库的载体，已经成为信息传播和交换的中转站[7]。要在浩瀚的知识库中快捷地找到关键信息并进行高效处理，需依赖于图书馆强大的自然语言检索功能。

情报检索语言是基于情报搜索的需求而研发设定的模拟人工语言逻辑和人工语音思维的受控语言，用来标引和检索文献，通过深入探索文献中潜在的规律和内容，挖掘其信息价值。通过梳理1750篇涉及情报检索的文献信息，发现国内关于自然语言与情报检索的研究始于1981年。在对近3年的文献进行关键词共现网络分析发现自然语言处理是情报检索的研究基础（图2）。

图2 2018年-2020年间基于情报检索的关键词共现网络分析

黄祥喜等[5]指出在情报检索中对数据事实检索将超过纯书目检索，这必然依赖自然语言处理，而人工智能和知识库的发展将促成自然语言处理的实用化。日本九州大学尝试利用自然语言处理，自动创建词库，建立高级情报检索系统[8]。2000年后发展出虚拟信息顾问系统，具有强大的开放性和扩展性，可根据用户输入的问题，从知识库中搜索并返回一个经过分析处理的答案，实现了自然语言处理在情报检索中的智能化应用[2]。

情报检索语言要求用户具备一定的专业检索知识，普通用户很难接受。而情报检索中的自然语言取自文献原有的题名、章节名、摘要和正文。因此，掌握自然语言检索方法更易被普通用户所接受，各学科的用户在检索时也会感到使用本学科领域的自然语言比受控词表方便得多[7]。

3 自然语言在文献知识处理中的应用

随着各类电子数据库、电子图书馆收录的数据呈几何数上升，准确、高效地获取和处理所需信息需要依赖自然语言处理的人工智能和信息处理技术，现已成为帮助用户快速获取价值信息的有效方法。

3.1 文献信息处理

使用自然语言处理文献信息有许多细节方法，其中使用计算机来执行自动摘要的重要性在网络信息飞速增长的时代尤为重要。从文档中抽取关键句、关键段落进行组合，增强文摘关联性，用于自然语言识别是当前自动文摘研究的主要方法，包括：自动摘录、信息抽取、基于理解的自动文摘、基于结构的自动文摘[7]。

由于使用文本提取技术获得的数据来源不同，即使同一实体所含有的信息也因各网站、平台设置的不同而存在差异，比如数据的格式、属性等。在批量处理数据之前，必须对收集的数据进行清洗，按照属性、字段、发布时间、主题、业务类型等进行归类和结构化处理[9]，成熟的自然语言处理技术可实现对信息的批量清洗、特征提取和结构化处理。

3.2 知识文库

虽然利用自然语言技术可以解决文献信息提取、情报检索之类的问题，但因自然语言本身的弊端，给信息检索工作带来诸多困难。相对于英语的结构简单化，汉语的多义性、同义性结合人们的生活、思维和表达的复杂化，使汉语言广泛存在各种歧义。在自然语言处理中，对汉语的语法分析和语义理解至关重要，消歧是梳理语言和文本清洗的预处理工作，需要工作人员具备丰富的知识背景和高储存量的知识文库。而依赖于计算机学习、机器翻译的文本识别更加需要词汇库、知识库、语料库等词汇储备，因此词汇知识库的建设已经成为当前自然语言发展的关键问题。

近20年涉及知识库的文献有1633篇，通过分析近3年的200篇文献，发现各专业各单位在开展知识库的研究与建设方面互相之间的关注度很高，主要集中在长短句记忆、统计学习方法、知识图谱构建、命名实体等方面（图3）。

图3 基于知识库的文献互引关系图

建立词汇知识库不但要考虑使用者的便利，还要根据不同的专业类型建立专用词库，如：判决文书词库、信息知识文库、媒体专用词库、自然资源词库、化工材料词库等。加强和丰富基础词库建设，将是影响和限制自然语言发展的关键环节。

4 结束语

自然语言在文献知识处理中的应用主要集中在情报检索、文本挖掘、文本分类、检索匹配等方面，主要目的是获取知识。自然语言处理技术在文献检索系统中的应用已有诸多成果，但由于自然语言（尤其是汉语）本身的复杂性和多义性增加了检索和识别的难度，尤其是在知识组织方面很薄弱。鉴于自然语言自身的特点，建议加强基础数据库、语料库、词汇知识库的建设，提升计算机处理自然语言的能力。