文本挖掘在高校历史档案编研中的应用策略探讨

2021-04-14鲁达志

卷宗 2021年1期

王静王喆鲁达志

（吉林大学档案馆，吉林长春 130012）

高校历史档案是学校校史文化的重要载体，它真实而全面的收集了高校在学校文化传承、办学教育思想、科学研究等历史发展进程的珍贵资料，是见证高校发展与变化的一面明镜。而产生于各高校建校早期的历史档案不仅有效的记载着高校这一时期的历史轨迹，同时也是当时国家政策制定、执行、反馈的最好的外在表现之一。将这些珍贵的档案资源尤其是历史档案资源应用于档案编研及校史研究中，不仅能够增加研究成果的真实性、权威性，更是对学校发展历程的进一步开拓和完善。

档案机构针对历史档案的传统编研模式为：成立编研小组、对档案文献进行整理、研究与考证、编写研究成果。这一过程基于多人协作且对人工依赖程度较高，当所需处理的档案资料体量较大时效率不高，另一方面因为信息处理的标准因人而异，编研成果的客观性也将大打折扣。利用文本挖掘技术模拟传统编研模式对数字化完毕的历史档案中的文本内容进行分析与挖掘，获取有价值的、潜藏的新知识和史实，可以辅助档案工作人员对学校历史进行编纂和研究。

1 文本挖掘应用面临的问题

1）原始档案文献的数字化。高校历史档案多形成于学校建校初期，产生年限较长，以笔者所在学校为例，最早的历史档案可追溯至百余年前，这一部分档案多为手稿形式。由于年代久远,受当时纸质、书写工具及保管条件的限制,很多手稿档案如今纸张发黄、变薄、受潮,字迹褪色、掉色严重, 与此同时手稿档案往往还存在字迹潦草等现象给档案的开发、利用和研究工作带来很多不便。这也造成了历史档案资料大多处于“重保管, 少利用”的状态。虽然部分高校档案部门已经认识到了历史档案开发和利用的重要性并且逐步开展了这部分档案的数字化加工，但是加工形式多为图片扫描，想要借助文本挖掘来辅助编研，必须将档案文献进一步转换为文本类型。

2）待挖掘案例的选取。历史档案体量庞大，隐含知识丰富，先期挖掘案例的选取关系挖掘过程的效率、结果的有效性验证等，因此需要多方考察与论证。在进行档案编研实际选题前，需要对历史档案的原始状况进行初步采集与分析，划定编研选题及相关档案的范围，排除不属于编研范畴的档案信息。

3）文本数据转化。文本挖掘从广义上讲属于数据挖掘的范畴，但是有别于传统的对结构化的数据进行统计分析的数据挖掘技术，文本挖掘首先需要将非结构化的文本内容转化为结构化的数据值型数据，再采用成熟的数据挖掘技术进行后续的处理。因此如何将文本数据转化成可以直接进行数据挖掘分析的结构化数据，是实现文本挖掘的首要和核心任务。

4）文本挖掘方式的选择。文本挖掘是一个广泛概念，包含文本分类、文本聚类、序列标注、信息检索、文本摘要等多种方法，这些方法又包含多种算法，其实现过程及挖掘的侧重点不一，如何选定适用的算法将依赖具体案例和编研需求而定。因此，在进行历史档案的实际挖掘操作前，需要对挖掘内容和挖掘方法进行初步规划。

2 文本挖掘应用的策略探讨

以高校历史档案的现实情况为依据，结合其他领域成功的应用范例，笔者将整体挖掘过程分为4个主要环节，分别为：

1）文本数据获取。因历史档案原件年代久远且多为手稿，除去前文提到的档案纸张和字迹等问题还可能存在有批注、修改、繁体字等情况，因此数字化加工人员尝试利用OCR识别技术来辅助档案原件进行文本转化。OCR识别技术相对于传统的手工录入方式来说，具有处理速度方面巨大的优势。但考虑到原始档案的实际情况，需要重视识别前期的影像前处理工作以及后期的人工校正工作，这样才能进一步保证文本处理的质量。对于原始档案实在辨识不清的情况，可以采取手工著录的形式来进行文本转换。

2）文本预处理。在这一环节的处理上，首先需要对原始历史档案文本进行内容筛选即简单分析去除无关文献，再进行文本标准化和文本结构化处理。文本标准化主要指去除无效、特殊字符，错别字修复、简体字繁体字统一、构建同义词、近义词表以减少文本特征等过程，目的在于通过有效的设计和利用标准化模型来降低后续文本分析任务的复杂性。文本结构化将文本对象转换为数值类型，从而使文本挖掘任务转换为较为简单的数据挖掘任务。历史档案文档大多为包含大量连续字串的中文文本，除了标点符号外没有任何间隔。因此在处理历史档案文本时首先应该完成对文本的分词。然而不同的分词结果可能会影响算法处理结果，所以正确的切分是文本预处理的关键一步。分词后得到的词项和词集再进行特征表示、特征抽取等环节，随后以此为基础建立分析模型。模型的建立需要如实地反应词汇与原始文档的关系，还要有对不同文档的区分能力。值得注意的是任何统计模型都不能把原始文本的所有含义表达出来。因此在对历史档案进行分析时，应当以当前档案编研工作真正关心的信息和需求为出发点来进行文本建模。

3）文本挖掘分析。历史档案文本转换为结构化的向量形式后就可以进行后续的挖掘分析了。常用的文本挖掘分析方式有：文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布趋势和趋势预测等。根据编研任务的不同，我们可以选取其中某些分析方式为自己所用。聚类技术可以自动对大量无序、无类别的档案文档进行归类，将内容相近的文档归类并自动生成这一类档案的主题词，为编研人员确定编研类目提供方便，这是一种无监督的挖掘方式。而分类技术可以实现档案史料的有监督挖掘，即通过预设主题分类对原始档案资料进行自动分析和判别，从而划分出满足编研需求的文档对象。文本摘要技术可以对文本内容进行压缩，生成原始档案文档的简要概述以帮助编研人员快速领会原文档的基本内容，从而节省了编研人员对文档的甄别时效。关联分析可以协助编研人员从原始档案文档集合中挖掘出不同词语间的关系。分布趋势和趋势预测对原始档案文档观点进行倾向性分析和统计，可以协助编研人员识别文档的分布趋势。

4）文本可视化。在文本挖掘过程中可以结合可视化技术及工具来实现挖掘过程及结果的展示。通过开发相关功能，将数据映射为图表、图形等形式，并添加点击、缩放等交互操作效果来全面直观的掌控挖掘过程，协助编研人员观察和探索文档间及文档内部的隐含信息。可视化功能的加入为编研人员提供了参考思路，增强了编研人员对历史文档的认知效率与认知能力，减轻他们的信息压力与信息负荷，从而也成为数据分析领域中不可或缺工具。