基于人工智能技术的文档全过程控制与档案自动归档服务研究
2020-10-26邵甜甜霍义方
邵甜甜 霍义方
摘 要:飞速发展的信息技术对档案管理工作带来了前所未有的挑战和机遇。本文理论结合实际,从“前端”、“自动”、“校验”以及“服务”四个方面构建人工智能技术为档案工作提供的应用策略,最终实现文档全过程控制和档案自动归档服务。
关键词:人工智能;全过程控制;自动分类;主动服务
1 引言
随着信息化与数字化的快速发展,人工智能技术已经应用在各个行业领域,其应用也为档案管理工作带来了一系列历史性变革与发展的机遇。通过人工技能技术改变传统档案管理模式与方法,提升档案管理生产力,为提升企业核心竞争力提供信息服务显得尤为重要。
2 文档全过程控制与档案自动归档服务
1)文档全过程控制。文档全过程控制区别于传统的档案管理,是指根据文件的全生命周期,采用科学的方法和手段对文档各个阶段的真实性、准确性、规范性、同步性、完整性、系统性、高效性、安全性进行管控,使文档始终处于有序合理的状态,有效积累企业知识资产。
2)档案自动归档服务。档案自动归档服务区别于传统的档案整理、归档与利用,是指将档案分类、档案鉴定、档案著录、档案编目、档案归档、档案利用等流程节点线上化、自动化、前端化、主动化。传统的档案整理、归档与利用是一项繁琐、重复、枯燥、耗时、易错的工作,通过对人工智能技术的引入,实现档案智能分类、智能鉴定、智能编目、智能归档、主动服务等。
3 可行性分析
1)理论基础。(1)文件连续体理论。20世纪90年代,澳大利亚档案学者阿普奥德创建并完善了文件连续体理论。文件连续体理论将文件的运动过程看作为一个连续统一体,并通过多维坐标体系(文件保管形式轴、价值表现轴、业务活动轴和形成者轴)来描述文件的运动过程。它更加灵活的阐释了文件运动的规律以及主客体之间的联系,更加强调文件运动的多维性、整体性与连续性。(2)新来源观。“新来源观”的倡导者特里·库克从新的视角赋予了来源概念新的涵义,使来源更加抽象化和概念化,即“来源不仅指文件的形成机关,而且包括其形成目的、形成活动、过程、处理程序和职能范围等”。新来源观为电子文件智能捕获与分类奠定了理论基础。(3)宏观鉴定。从年龄鉴定论、行政官员决定论、职能鉴定论、文件双重价值论发展到宏观鉴定理论,视野不断的扩大,关注点逐渐从“重视案卷的年龄以及肯定来源原则——形成机关的地位与职能——文件属性与利用者需求——文件的职能背景”进行演变,档案价值从第一价值发展到了双重价值,最后上升到社会价值,视野逐渐广泛化,为智能鉴定提供了理论基础。
2)信息技术。自然語言处理技术(NLP)是人工智能的一个子领域,通过对已有标准库进行深度学习与训练,将卷积神经网络(CNN)应用到文本分类任务。使用Python作为分类技术引擎的开发语言,更便于接入TensorFlow或Keras等深度学习框架,用Text-CNN或RNN作为分类模型,将Word2vec训练好的词向量初始化,训练过程中再对词向量进行微调,完成对档案自动分类与自动归档。
搜索引擎的技术可用于推荐系统完成档案主动推荐与服务,搜索引擎解决运算性能的一个重要的数据结构是倒排索引技术(Inverted Index),而在推荐系统中,一类重要算法是基于内容的推荐(Content-based Recommendation),这其中大量运用了倒排索引、查询、结果归并等方法,另外点击反馈(Click Feedback)算法等也都在两者中大量运用以提升主动提供推荐服务的效果。
4 人工智能技术应用策略
1)前端捕获。将档案管理的理念、方法提前融入到文件过程中去,在电子文件产生阶段,通过语音识别、机器学习、神经网络算法等相关信息技术让计算机智能分析,通过模仿人脑的机制来解释和处理数据,建立大脑神经网络系统传递信息,分析图像、声音和文本。从而实现在电子文件产生阶段,前端自动捕获业务系统中的元数据,为档案整理提供接口,根据分析结果自动鉴定档案价值,推送保管期限建议值,将档案属性和管理方法纳入文件产生阶段,为全过程控制和自动分类奠定基础。
2)自动分类。实现档案的自动归档其中一个重要步骤是档案自动分类,通过自然语言处理技术来实现。自动分类的标准化模型建立的过程,需要对大量的已完成分类的档案数据进行训练,训练的文本数据可在档案文件题目或文件中文中提取,识别准确率和识别效率随着训练量级的增多和模型算法的优化而提升。在电子文件产生阶段,通过自然语言处理技术,基于行业档案标准分类与前端捕获的元数据,便可匹配合适的档案类别,分类过程包括数据训练、特征抽取、训练模型、分类预测等几个主要环节。通过业务接口将前端捕获和自动分类的电子文件归档到档案系统之后,可采用可视化的电子档号章和自动编页等技术,实现档案著录的自动处理。
3)规范校验。规范校验包含校验文档的完整性、规范性,完整性校验针对项目档案尤为重要,项目文档过程的完整性和及时性更是衡量项目文档全过程控制结果的最佳衡量标准之一。在文档的任何阶段,均可将现有文档与模板进行比对,通过可视化数据分析,呈现出文档完整率以及缺失的文档类别。规范性校验将通过设定的合规程度,由系统辅助人工进行二次判断和处理。主要针对文档的签署常见问题:签章手续不完备、代签、漏签、无签署日期等,利用计算机学习相关技术,将文本进行OCR处理后再进行特征分析,对于空白率高的文档,以及确实签字的进行筛选,并使用Open-cv的图像识别算法,对签章进行图像识别,最终反馈不规范文档序列。
4)自主服务。档案利用是整个档案管理工作的出发点和终极目的,搜索是利用者获取档案信息的主要手段。目前无论是电子档案系统和智慧库房管理系统都提供了较为丰富的档案搜索功能,但均处于被动等待的角色。通过人工技能技术,根据用户的岗位角色及其历史搜索的内容,完成档案信息的推荐,变主动为被动,让用户获取推荐结果的过程可以是持续的、长期的,增加用户的对于档案利用的“粘性”。
5 风险分析与对策
1)安全风险。档案自动分类模型需要对大量的、异构的、多元的真实档案数据进行模型训练,建模过程将会需要采集大量档案数据做整合训练,相关合作技术团队可直接或间接接触到档案数据,在内容防扩散方面和数据安全管理方面带来了挑战。针对数据安全风险,可形成固定的研究团队,对数据进行严格保密,并组织专业技术人员形成监管小组,建立电子档案安全保密制度,签订安全保密协议,并对研究团队人员进行安全保密教育。建立监管机制,对技术研究服务机构的保密、安全措施落实情况进行监督、检查,杜绝研究服务机构擅自复制、留存、使用档案数据的行为。
2)技术风险。人工智能技术的开发对比目前的档案管理系统而言,对档案管理软件供应商需要有较高的技术要求,对提供人工智能服务的科技公司又有一定的业务门槛,如何基于档案业务结合人工智能技术需要选择合适供应商,具有持续的技术开发能力,最大限度的满足企业对系统的开发需求。针对技术风险,可选取技术能力较强,稳定的档案管理软件供应商进行长期合作。加强沟通与协商,从规划制订到项目实施,请供应商全程参与,以充分了解需求,将可能的技术难点考虑全面。
6 结束语
互联网+时代,人工智能对各行各业都造成了深远的影响,档案行业也不例外,将人工智能技术与档案工作紧密结合,充分挖掘先进的信息技术,业务引领技术,终将迎来档案工作的自动化与智能化。