基于TF-IDF的古籍文本内容特征提取方法

2019-10-09龚科瑜张一驰

电子技术与软件工程 2019年17期

文/龚科瑜张一驰

1 引言

随着计算机技术的逐步发展，大数据、人工智能等领域的逐渐兴起，使用计算机技术处理、分析人类语言成为可能。目前有关自然语言处理的研究中，大多集中在对当代新闻语料、日常对话语料和新媒体语料的处理分析，对古代经典文本的研究涉及较少。部分人文社科研究者还在使用手工统计等方法分析文本，时间成本投入巨大、错误率高，研究效率较低。因此，借助计算机技术，数字化的分析古代经典文本的特征，以辅助人文社科研究者进行科研工作，有着显而易见的价值。不仅如此，对古代经典文本的处理和分析，还有助于构造相关领域的知识图谱，进而提升使用深度学习技术的自然语言处理方法对中文文本的语义理解能力。

2 基于统计的文本内容特征

常见的文本特征包括字符数、非重复字数、词数、标点符号数等。然而，这些传统的统计特征不能刻画出文本所蕴含的内容信息，对文本分析的辅助作用极其有限。因此，需要引入自然语言处理技术中的词频和逆文本频率等工具来描述文本内容的特征。

2.1 词频

所谓词频(Term Frequency, TF)，即某个词汇在一段文本中的出现频率。将某段文本p的总词数记为c(p)、某个词汇w在该段文本中出现的次数记为c(w)，则w在该段文本中的词频为：

通过统计词频，可以观测到一段文本中最常出现的词汇以及词汇频率分布情况，进而刻画这段文本的语言学特征。

2.2 逆文本频率

逆文本频率(Inverse Document Frequency, IDF)可以反应一个词汇在文本中的常见程度。记全部语料的文本总数为|d|，出现某一词汇的文本总数为|n|，其中n为d中包含词汇w的文档，则词汇w的逆文本频率为：

基于统计的文本内容特征提取依赖于词汇的频率。一些常用词在全部文档中都有很高的出现次数。这些词虽然词频很高，但并不具备较强的区分能力。逆文本频率可以很好的刻画一个词汇在全部文档中的独特性。词汇的独特性和文本的内容特征高度相关。因此，引入逆文本频率可以很好的反映出某个词在全部文档中的内容区分能力。

2.3 TF-IDF值

将某个词汇的词频与逆文本频率相乘，即可得到该词汇的TF-IDF值，即：

图1：《庄子》内七篇字频统计

TF-IDF值融合了词频和词汇的独特性两部分信息，可以较为清晰的体现出某个词汇对于某段文本内容的描述能力。研究者可以将不同文本中出现的词汇按照其TF-IDF值由高至低排序，值较高的词汇能够更好的体现出该段文本的内容信息，进而得到不同古籍的内容特征。

3 古籍文本内容特征提取方法

本研究使用Python语言编写程序，通过计算词（字）频、逆文本频率指数和TF-IDF值，提取古籍文本的内容特征。

3.1 提取流程

参照自然语言处理的常规流程，古籍文本的内容特征提取分为数据预处理、特征计算、结果分析与可视化三个步骤。

数据预处理阶段可分为数据清洗和中文分词两大模块。在数据清洗阶段，要注意繁简转换、对原始语料文本错误的修订以及异体字的归一化。在中文分词阶段，要注意不同分词工具对古代汉语的分词能力的强弱，若分词结果不理想，也可以考虑按字处理文本。

古籍文本内容特征计算要按照词频、逆文本频率、TF-IDF值的顺序依次计算。在计算完全部文本的字频信息后，要观测统计结果，结合古汉语常见的停用词，筛去“之”、“也”等不具备区分能力的词，再计算逆文本频率，这样可以减少计算量。在计算逆文本频率及TF-IDF值时，要考虑目标古籍文本内容特征的提取粒度。根据研究者的需求，按类别、书目、篇章、段落等不同层次进行内容特征的提取。具体策略要结合待研究的问题进行分析，不可一概而论。

结果分析与可视化，目的是呈现出目标古籍文本的词频分布特征及内容信息。古籍词频分布信息可以把词汇按照出现频数排序作为x轴，对应的频率值取对数作为y轴，做图给出，并探究该古籍文本是否满足Zipf定律。内容特征可以根据不同粒度的词汇TF-IDF值按从高到低排序，以表格形式给出。

3.2 实验结果

以《庄子》内七篇文本为例，计算得到该书共使用汉字1501个，字频分布如图1所示。

其中，词频最高的十个词依次是：之（616次）、而（449次）、也（396次）、不（386次）、其（326次）、以（301次）、者（279次）、为（243次）、乎（237次）、人（224次），该信息可以作为汉语史研究的佐证材料之一。

按照不同篇目词汇的TF-IDF值排序，取排序前十的字作为该篇目的内容特征，得到不同篇目的内容特征表格如表1所示。

根据专家学者对《庄子》一书的解读，我们容易知道：北冥、鲲鹏等为《逍遥游》中提到的主要意象，《齐物论》以辩论、梦境和庄周梦蝶的故事为主干，《养生主》的核心为庖丁解牛的寓言，《人间世》以颜回为主要人物讨论了心斋、材与不材等问题，此后几篇不一一列举。由此可以看出，本文所设计的古籍内容特征提取方法能够较好的提取到《庄子》不同篇目的内容特征。

4 结论

使用自然语言处理中的统计词频、逆文本频率、TF-IDF值等方法，可以较好的提取到古籍文本中的内容特征，能够帮助语言学、古典文献学等领域的人文社科研究者更便捷的理解古籍文本的语言学特征及内容特征。当前，基于深度学习的文本理解技术还依赖于大量语料数据，但古籍文本数据量极少，目前还不能产生较好的效果。随着计算机技术的逐步发展，待深度学习技术更为成熟之后，也可以尝试使用基于知识图谱和注意力模型等方法提取古籍文本的内容特征。