档案信息智能采集技术的创新应用研究

2021-12-02顾伟

北京档案 2021年11期

顾伟

摘要：档案信息智能采集技术是大数据环境下获取数字档案信息资源的重要技术手段。本文在分析档案信息智能采集技术现有研究成果的基础上，根据档案信息智能采集方法的不同，提出了改进档案信息智能采集技术应用的创新方式，以达到提高档案信息智能采集技术实用性和有效性的目的。

关键词：档案信息智能采集改进方式应用研究

一、引言

大数据环境下，智能信息采集技术是实现电子档案齐全完整收集的重要手段，尤其是对网站网页、社交媒体等“新领域”电子档案的收集有着重要意义。这些“新领域”的档案信息不仅来源渠道广、数量大，而且更新速度快、存在时间短，若不能做到及时发现、主动采集，就会被新的信息所覆盖。因此，利用档案信息智能采集技术实现档案信息自动采集变得日益迫切和重要。

目前，已有学者从不同角度对档案信息智能采集问题进行了研究，张倩认为利用自动搜集方式是获取档案信息资源的新方式[1]，王维娜提出了互联网条件下档案信息采集的原则[2]，符昌慧从个性化服务的角度指出有效采集档案数据的困难之处，以及如何制定合理的采集策略和选用合适的采集工具[3]，程知构建了档案数据智能采集模型[4]，冉朝霞基于舆情数据研究了档案信息跨维度收集与分类方法[5]。但是，这些研究较少地关注档案信息智能采集技术的实际应用，故此，本文从实践创新的角度研究档案信息智能采集技术。

二、档案信息智能采集技术

档案信息智能采集技术是在电子环境下，为齐全、完整、及时、准确地收集數字档案信息资源，将档案实践工作与计算机信息采集技术相结合而产生的应用技术。档案信息采集是档案数据存储、清洗、分析和应用的首要环节，在丰富数字档案信息资源和开展档案数据治理工作中占有重要的作用。从档案信息采集技术的发展阶段来看，档案信息采集技术经历了人工采集、计算机自动采集、网络信息搜集和智能信息采集四个阶段。

本文所研究的档案信息智能采集是档案信息采集技术的第四个阶段，它是利用信息爬取技术主动在互联网上按照预设采集规则对来源不同的档案信息进行采集，并对采集到的档案信息进行数据类型解析和异构数据分类存储，并在分析档案信息有效性和关联性的基础上，智能化地筛选和提取出与采集主题高度相关的档案信息及其元数据，以此实现档案信息精准化自动采集目标的技术。与前三个阶段相比，档案信息智能采集不仅要能实现档案信息的自动搜集，而且还要对搜集到的档案信息进行分析与处理，达到档案信息精准聚合的目的。这是融合档案学、情报学、计算机科学等相关领域的专业知识，通过语义理解、逻辑推理、数据分析、知识发现与关联等技术模拟人类认知功能和智能活动而开展的一项智能化工作。档案信息智能采集技术能够为实现档案信息的完整收集提供技术保障，有助于实现档案信息采集由被动向主动的转变，在新媒体、网站网页信息归档、档案编研等方面有着重要的应用价值。

三、档案信息智能采集方式

（一）档案信息自动采集方式

档案信息自动采集是按照一定的智能采集算法将搜索路径上所有档案信息都保存下来的方法。它在采集过程中不设置任何条件，可以做到档案信息的完整捕获和实时保存，适合舆情类档案信息的采集。该方式的不足之处在于这种采集方式未做信息过滤，采集到的信息虽较为完整，但也存在部分无用信息，为后续档案信息的处理增加了难度，不利于档案信息资源的开发利用。

（二）档案信息自定义采集方式

档案信息自定义采集是一种能够根据档案用户需求，定向采集档案用户所需要的档案信息的采集方式，适用于网页网站类档案信息的采集。与档案信息自动采集方式不同的是，它能根据档案用户采集需求自动生成采集规则，做到精细化的智能采集，避免了大量无用信息对采集结果质量的影响。同时，这种采集方式能够对网站网页中文字、图片、视频等不同格式数据进行智能解析和分类存储，这为档案信息利用打下了良好的数据基础。但该方式的难点在于采集规则的准确描述与设置。

（三）档案信息定制采集方式

互联网上的信息展现形式和技术实现方式是多种多样的，在高安全性的网站中，其内容是通过技术手段动态加载实现的，因此，使用静态页面采集技术是无法采集到网站信息的。针对这类情况，我们需要使用定制采集的方法来实现。这里的“定制”是指在分别分析每个网站技术框架的基础上，采用相应的采集策略以实现档案信息实时准确地采集。这种采集方式的优点在于针对性强，能精准获取需要采集的档案信息，缺点在于成本较高，通用性不强。

（四）移动端档案信息采集方式

移动端档案信息采集方式是对微信公众号、微博等移动端的档案信息进行采集所采用的方式。在网络媒体时代，移动端的信息发布数量和扩散效应已明显高于Web端，所以，移动端的档案信息采集变得越加重要。与Web端档案信息采集相比，移动端档案信息采集在采集方法上与其完全不同，在技术实现上也更为复杂，不同移动端的信息采集方法不完全相同，因此，移动端档案信息采集的开发难度和成本更高。

四、档案信息智能采集技术应用的创新方式

（一）合理优化档案信息智能采集的输入方式

明确档案信息采集需求，合理优化输入方式是提升档案信息智能采集效果的有效手段。目前，改进档案信息智能采集输入方式至少有三种方法：一是采用同义词等价替换的方法。在信息采集之前，我们利用同义词识别技术对输入内容进行同义关系分析，根据相似性、显著性和易理解性等原则将用户输入替换为采集系统最能理解的表达方式，从而得到较好的采集结果。二是利用自然语言处理技术，在语义层面提取采集需求的关键信息。用户需求表达方式是多样的，直接将这些需求输入采集系统，采集系统不一定能智能化地准确把握采集需求的关键内容及其之间的相互联系。因此，我们可以对用户采集需求做语义分析，提取关键语义信息，然后，利用深度学习和机器学习等人工智能技术找出这些关键信息之间的关联关系和限制关系，最后，将这些关键信息和限定信息以正则表达式的方式输入采集系统，实现精准描述用户采集需求的目的。三是设置简单、合理的信息采集规则。已有实践经验表明，在信息采集过程中，设置太过复杂的规则往往不利于获得较好的采集结果。简单、明确、合理即是精准。采集要求过多、描述词汇过长反而会误导采集系统，产生错误的采集结果。

（二）改进档案信息智能采集策略

档案信息智能采集的目标是获得高质量的采集结果。我们可以从采集策略上进行调整，不断提高采集系统的适用性。一是在技术上做好网络站点反爬措施的应对，扩大采集的来源和范围。现在，网络信息爬取技术是一种常见的信息采集手段，安全性高的网站都会采取反爬措施以防止信息采集系统对网站信息的自动爬取。因此，我们应该采用多种的技术手段，如采用动态调整采集时间间隔、使用代理IP方法和基于深度学习的验证码识别平台等技术，降低反爬技术对采集系统的影响。二是要注意对采集目标的保护，将集中式采集变为分散式采集，避免因为信息采集造成采集目标的宕机。在短时间内频繁地对网络站点进行信息采集，会产生大量的网络并发访问，客观上会增大网络站点服务器的压力。如果该服务器并发处理能力有限，则信息采集的过程相当于是对该网络站点做一次网络攻击，必然造成服务器的宕机。因此，从保护采集目标和实现信息长期持续采集的角度来说，应将集中式的连续采集变为控制访问次数的分散采集。

（三）加强档案信息智能采集系统的数据处理能力

通过采集系统采集到的原始信息可能存在一些与采集需求關联度较小的信息，这些信息的存在使采集结果含有“杂质”。将含有“杂质”的原始采集结果进行“提纯”处理，并以直观方式展现采集信息的价值，也是档案信息智能采集必须解决的问题。为此，我们可以采用无监督聚类算法，对原始采集结果进行智能化甄别。通过聚类算法建立采集信息的数据模型，利用该模型找出与采集需求关联度较小的误采信息，并将误采信息删除，以提高采集结果准确性。

五、档案信息智能采集过程中应注意的问题

（一）档案信息采集的法律和隐私保护问题

档案信息采集的目的是利用技术手段在互联网上收集档案信息，但客观上，档案信息采集也存在着促进档案信息资源共享与侵犯档案主体信息权利的两面性。档案信息采集的正当性和有效性源于档案信息主体的授权，而区分这种两面性和界定这种授权的关键之处在于档案信息的开放程度和访问权限[6]。因此，我们在进行档案信息采集时，首先要明确档案信息采集的法律边界和个人隐私的保护范围，依法合规的采集档案信息。

（二）档案信息采集标准化建设问题

制定档案信息采集标准，明确档案信息采集规范，既有助于提升档案信息采集的质量，又能为档案信息资源共享提供保障。但在实践中，笔者仅发现一项与档案信息采集有关的标准即《建设工程档案信息数据采集标准》。因此，我们应该针对不同领域和行业，因地制宜做好档案信息采集标准化建设工作，为档案信息治理奠定良好的数据基础。

（三）异构档案信息的集成管理问题

档案信息的采集将产生大量多源异构的数据，表现为数据来源、数据结构和数据存储的多样性。多源异构问题给信息整合和数据应用带来了较大的困扰，因此，为多源异构数据提供统一表示、统一存储和统一管理的方法变得日益重要。在实践中，我们应该结合应用场景的要求，尽可能将异构数据集成到统一数据平台中进行管理，实现档案信息的有效汇集。