APP下载

基于神经网络的档案开放鉴定智能模型研究

2022-05-30陈茜月

档案管理 2022年5期
关键词:神经网络

陈茜月

摘  要:从档案开放鉴定工作实际出发,对档案开放鉴定工作流程和智能化开放鉴定工作在问题本质层面本质解析剖析。立足人工智能理论框架,结合数据挖掘技术,搭建基于神经网络的档案开放鉴定智能模型,能够将档案界各专业领域专家的知识储备库进行整合,从鉴定主体上防止了档案价值预测的片面性,从而弥补现有档案鉴定体系的缺陷。

关键词:档案开放鉴定;神经网络;智能化开放鉴定

Abstract: Regarding of open appraisal of Archives, the comparison of manual method and intelligent method of the open appraisal of Archives are analyzed in the essence level. The artificial intelligence technology is used to build an intelligent model of archival open appraisal based on neural network, which can integrate the knowledge of experts in the archival field. This can prevent the one-sided prediction of archival value from the appraisal subject, and make up the defects of the existing archival appraisal system.

Keywords: Open appraisal of archives; Neural network; Intelligent open identification

《档案法》和《“十四五”全国档案事业发展规划》中扩大了开放档案时限范围,将档案封闭年限由30年缩减为25年,实施尚未移交进馆档案的开放审核;首次“鼓励和支持其他档案馆向社会开放档案”,且首次将开放档案审核之责前置到移交进馆环节。但是,目前开放鉴定工作面临档案种类繁多、内容复杂各异的难题,也面临专业力量不足、专业水准整体偏低等棘手问题。2018年4月,人工智能档案联合实验室的成立,为人工智能在档案领域的具体应用打开了新的局面。北京市市场监督管理局基于档案图像识别和内容识别等人工智能相关技术手段,研发了档案页面公开级别智能鉴定工具。[1]

1 档案开放鉴定智能化技术

1.1 档案开放鉴定工作中人工化与智能化的本质解析。依据国家档案局发布的《各级国家档案馆开放档案办法》及多省开放档案实施办法规定,档案开放鉴定工作流程总体核心工作包括解密审查、开放鉴定、开放鉴定的审核、开放审批这四大步骤。常用的开放鉴定方法有直接鉴定法和德尔菲法、宏观鉴定法。“直接鉴定法”是指通过直接审阅文件的内容判断其价值;德尔菲法(Delphi Method)也称专家预测法,这种方法是指邀请在某一领域的一些专家或有经验的管理人员对某一问题进行预测并最终达成一致意见的结构化的方法。

人工开放鉴定具体工作的核心内容是根据具体的鉴定标准,由鉴定人员判断该文件是否满足开放条件。此过程涉及几个具体问题:是否满足申请开放的基本条件、制定具体开放鉴定标准、由鉴定人员审核、给出是否开放意见、根据实际需求进行二审、给出最终开放鉴定意见。

上述过程可解析为计算模型的具体单元,通过人工智能算法实现具体操作:①是否满足申请开放的基本条件。此项工作具体内容是:案卷是否满足25年开放的期限,以及是否过保密期等。②制定具体开放鉴定标准。此项工作具体内容是:在国家、省级相关开放鉴定的普适标准上进行扩充,同时将涉及国家安全及国家重大利益的内容、违反社会稳定的内容加入到标准内,结合当前案卷具体内容要求,以及相关个人敏感内容,综合制定出当前案卷的开放鉴定标准。③由鉴定人员审核。此项工作具体内容是:依靠鉴定人员的政治素养、文化素养、历史知识、业务素养等各方面综合水平对案卷内容进行鉴定。要求鉴定人员具有较高的政策水平、作风严谨。④给出是否开放意见。此项工作具体内容是:根据鉴定人员的综合判断,对当前档案是否开放给出开放、需二审、不开放的最终意见。开放鉴定工作中人工化与智能化的本质解析见表1。

1.2 档案开放鉴定智能化技术基本逻辑原理。依托人工智能等高新技术手段开展档案开放鉴定工作的基本逻辑原理是根据档案全文信息数据资源及敏感词、字等信息利用技术辅助手段实现档案开放鉴定的初审、复审、终审等全流程工作。[2]基于人工智能技术的档案开放鉴定工作思路的根本问题是对档案文本数据的分类问题,即是否包含有不宜开放的内容。

2 基于神经网络的档案开放鉴定智能模型

根据档案开放鉴定智能化技术基本逻辑原理可知,基于人工智能技术的档案开放鉴定工作的根本问题是对档案文本数据分类问题。因此,开展文本分类应先确定选取何种分类方法,明确分类体系,即确定档案文本数据的特点以及开放鉴定的实际工作需求。

深度学习是实现具有多个隐藏层的机器学习模型,将低层特征向深层高级特征予以转化来表示属性类别,目的是发现数据的分布式特征,形成更深的网络结构来实现特征提取。深度学习方法是将特征提取和分类融为一体,通过自动获取特征信息,给出分类结果。[3]在档案智能开放鉴定模型中,最终将分类转化为开放鉴定的意见。

2.1 檔案文本预处理。文本预处理阶段包含文本去噪音和文本表示两个步骤。文本去噪音的目的是将完整的档案文本数据划分为单个的词,同时去除掉无意义的字词。包括中文分词、去除噪音和数据增强三个部分。对于档案开放鉴定智能模型来说,去除噪音的步骤尤为重要,否则会带来大量无意义的待鉴定的文本数据,增加了档案开放鉴定智能模型的时空成本。将文本转换为计算模型(开放鉴定模型)能够识别的数据形式。这种能被计算机模型识别的数据形式就是文本的表达方式。文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算。文本的表示决定了模型分类的精确度、时间复杂度和空间复杂度。宏观来看,文本的表示方式分为浅层表示法和深层表示法。基于神经网络的分布表示一般称为词向量、词嵌入或分布式表示法。神经网络词向量表示技术通过神经网络技术对上下文,以及上下文与目标词之间的关系进行建模。用一个低维稠密的向量去表示一个词。由于神经网络较为灵活,这类方法的最大优势在于可以表示复杂的上下文。

2.2 档案文本神经网络分类器。在智能化模型中,词单元使用词向量来表示,经训练,每个词表示为k维向量,利用词向量间的距离来判断词间语义相似度。每个神经网络包括输入层、隐藏层、输出层。对于档案文本数据来说,通过预处理后,将档案词集中的每个词单元逐一进行词向量编码,然后形成词向量空间。

预处理后得到的每个句子S的分词序列如公式: ,l代表句子中词的总数,也就是句子长度,ci代表句子中第i个词语。单个句子经Word2vec处理后得到一个分布式词向量 ,k即词向量维度。故,句子长度l,词向量维度k,于是二维句

据此,档案文本数据中,每个句子即表示为一个类似于图像矩阵的二维矩阵 ,并将作为神经网络的输入层数据。

在训练阶段,利用训练样本集,不断地调整神经网络分类系统的输入和输出的连接权重,一直调整到神经网络分类器的分类结果最佳为止。在分类阶段,分类器针对不同的待分类文本,选择合适的输入层和输出层,从而完成档案文本数据的分类判定工作。

档案文本数据经神经网络分类器处理后,将输出该页档案文本数据的分类结果,包括无敏感信息、敏感信息A类、敏感信息B类等分类结果。同时,一个档案文本数据集合的分类结果可能不止一个,如某案卷可能同时涉及多个不宜公开的文本信息,此时CNN分类器会输出多个分类结果。

2.3 综合意见审核模块。在综合意见审核模块,CNN分类器在给出分类结果的同时,会提示具体引起分类的关键字词,由档案开放鉴定专家组审核后,给出最终意见。

综合意见审核模块的设立,能够将人工智能判定模型的意见及判定依据呈现给鉴定专家,经专家人工审核后,由专家授权,选择是否保留模型判定结果的最终意见,或是将该案卷进入人工审核流程。据此能将智能档案开放流程更严谨化、全面化。

2.4 基于神经网络档案开放鉴定智能模型框架。开放鉴定智能模型首先對待检测的档案文本内容进行预处理操作,包括分词、去停用词等,以此去除无意义词语,减少噪音并提高检测效率;清洁后的档案文本数据经Word2vec处理后,转换为词向量表达,输入到神经网络分类器;然后经过多次调整分类系统的输入和输出的连接权重,由档案敏感词库对筛选后的字词单元再次校对和过滤,由Relu、softmax函数将词向量映射到一维空间,给出档案文本的分类结果;最后在综合开放意见模块,经专家审核最终开放鉴定的结果。智能模型框架图如图1所示。

构建人工智能手段用于辅助档案开放鉴定工作的首要前提是构建一个完整的计算模型。该模型应在档案开放鉴定工作逻辑化的基础上,利用计算语言对档案数据进行抽象处理,将档案开放鉴定工作转换为计算问题。

*本文系中国高等教育学会档案工作分会重点研究基金项目“高校档案文化记忆与大学文化记忆研究”(ZGD-ZD-2020-15)、河南省档案科技项目“基于智慧管理的高校档案数据化研究”(项目编号:2019-X-17)的阶段性成果。

参考文献:

[1]陈会明,史爱丽,王宁,金文光.人工智能在档案工作中的应用实践与挑战——以北京市市场监督管理局为例[J].档案与建设,2019(07):53-56.

[2]谭洪杰.《档案法》修订对档案开放鉴定工作的影响及应对措施[J].档案天地,2020(12):44-46.

[3]张迪.基于深度学习的中文文本分类算法研究[D].西安科技大学,2019.

猜你喜欢

神经网络
基于递归模糊神经网络的风电平滑控制策略
BP神经网络在路标识别上的应用研究
神经网络抑制无线通信干扰探究
基于Alexnet神经网络的物体识别研究
基于BP神经网络的旋转血泵生理控制
基于神经网络MRAS的速度辨识仿真研究
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源