人工智能在档案工作中的应用研究
2018-09-10沙洲
[摘要]人工智能已经成为“互联网+”时代下中国发展战略之一,对中国各行各业产生深远影响,档案行业也不例外。论文概述了人工智能的发展历程和代表性技术,认为人工智能在档案工作中的应用主要包括网络档案信息资源智能收集、数字档案信息资源智能分类与检索、智能化档案价值鉴定、智能化档案安全管理和智能化档案提供利用服务。在实际应用中人工智能还存在一些问题,需要深入研究并加以解决。
[关键词]人工智能档案工作智能化
[分类号]G270.7
The Application of Artificial Intelligence in Archival Work
Sha Zhou
(Management School of Anhui University,Hefei,Anhui,230601)
Abstract: Artificial intelligence has become one of the development strategies in China under the"Internet +" era. It will have far-reaching impact on all walks of life in China, and the archives industry is no exception. This paper summarizes the development process and representative technology of artificial intelligence, and points out that the application of artificial intelligence in archives work mainly includes intelligent collection of network archives information resources, intelligent classification and retrieval of digital archives information resources, intelligent archives value appraisal, intelligent archives security management and intelligent archives utilization services. However, there are still some problems in the practical application of artificial intelligence, which need to be studied and solved.
Keywords: Artificial Intelligence; Archives Work; Intelligent
2017年7月,國务院印发《新一代人工智能发展规划》,指出到2030年我国的人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心[1]。因此,研究人工智能在档案工作中的应用对实现“互联网+档案”的战略目标有着十分重大的意义。
1人工智能概述
1.1人工智能的“前世今生”
人工智能一词最早可以追溯到20世纪50年代在美国Dartmouth学院召开的“Dartmouth会议”,在会上Minsky等科学家将人工智能定义为用机器模拟人类智能的一门科学,他们也因此被称为人工智能之父[2]。此后,人工智能的发展可谓跌宕起伏,总体上可以分为三个阶段。第一阶段是“推理期”,当时人们认为逻辑推理能力是机器具有智能的重要成分;第二阶段是“知识期”,即认为知识是有智能的机器所必备的;第三阶段是“学习期”,人工智能开始从数据中学习知识,通用的学习方法在许多商业应用中显示出无可替代的价值[3]。
1.2人工智能的代表技术
人工智能的代表技术主要有自然语言处理、模式识别、专家系统、机器学习以及分布式人工智能。自然语言处理是用计算机对人类的口头和书面形式的自然语言进行加工处理和应用的技术[4]。自然语言处理的应用包括机器翻译、信息检索和社会计算等[5]。模式识别研究的是使一个计算机系统具有模拟人类通过感官接受外界信息、识别和理解周围环境的感知能力[6]。模式识别的应用包括文字识别、语音识别以及人脸识别等。专家系统是一个智能计算机程序系统,其内部含有大量的某个领域专家水平的知识与经验,能够利用人类专家的知识和解决问题的方法来处理该领域问题[7]。机器学习是研究机器模拟人类的学习活动、获取知识和技能的理论和方法,以改善系统性能的学科[8]。分布式人工智能研究的是由多个问题求解实体组成的系统中,各实体间交互作用、知识和动作如何分布与协作,从而提高系统的整体性能[9]。Agent(艾真体)是一种具有智能的实体,它通过传感器感知环境并通过执行器对所处的环境产生影响[10]。
2人工智能在档案工作中的应用
2.1网络档案信息资源智能收集
网络档案信息资源是以数字化形式记录,以多媒体形式表达,分布式存储在网络计算机磁介质、光介质以及各类通信介质上,并通过计算机网络通信方式进行传递和再现出来的档案信息内容的集合[11]。在“互联网+”时代,网络档案信息资源的数量不断增加,种类也越来越丰富。因此,在档案工作中可以应用各种智能Agent对海量的网络档案信息资源进行搜索、分析和过滤,从而达到智能收集所需网络档案信息资源的目的。智能Agent有很多种结构,包括基于模型的反射Agent、基于目标的Agent以及学习Agent等[12]。智能Agent具有非常强的自主性和交互性,它可以根据使用者制定的收集规则主动地收集所需信息,并为使用者提供相应的服务。每种智能Agent的实际功能和所要达到的目标是不同的,比如百度和谷歌所使用的智能爬虫就是智能Agent的一种,它的功能就是将定向或者非定向的网页抓取下来进行分析并得到格式化的数据。在实际档案工作中,档案工作者可以根据不同的收集需要选择不同的智能Agent。
2.2数字档案信息资源智能分类与检索
数字档案信息资源一般包括文本类数字档案信息资源和多媒体类数字档案信息资源。在档案工作中可以应用自然语言处理、模式识别和机器学习的相关技术对数字档案信息资源进行智能分类。文本分类是自然语言处理技术的一种,它根据一个已经被标注的训练文本样本集合,找到文本属性和文本类别之间的关系模型,然后利用这种学习得到的关系模型对新的文本进行类别判断[13]。文本分类可以实现对文本类数字档案信息资源的智能分类:一方面,它可以通过档案工作者预先设定的档案分类法对数据库中的文本类数字档案信息资源进行智能分类;另一方面,它也可以对存在于网页中的文本类数字档案信息资源进行智能分类。此外,档案工作者还可以采用基于图像识别、语音识别和视频识别等技术的智能分类技术对多媒体类数字档案信息资源进行智能识别和分类。
由于数字档案信息资源数量和种类的急剧增多,导致传统信息检索的弊端越来越明显,特别是在检索效率方面已经无法达到档案工作者的要求。因此,在档案工作中可以应用智能检索技术来提高检索效率。智能检索运用了自然语言处理和模式识别等多种人工智能技术,它和传统信息检索最大的区别在于它可以检出与用户所输入的检索内容关系最为密切的结果,并且可以对这些结果进行相关度排序,从而大幅度缩短用户获取所需信息的时间。智能检索不仅可以检索文本信息,也可以检索图像、声音和视频等多媒体信息,它在多媒体类数字档案信息资源越来越多的“互联网+”时代已经发挥出传统信息检索无法比拟的能力。
2.3智能化档案价值鉴定
档案价值鉴定工作是一项非常复杂的系统工程,它直接决定了档案的“生”或“死”,因此在鉴定过程中要注意各种规则和方法的综合运用。建立档案价值鉴定专家系统可以辅助档案工作者开展鉴定工作,特别是对那些难以确定保存价值的文件,档案价值鉴定专家系统不仅能够像人类档案价值鉴定专家一样给出相对权威的建议,而且不受任何时间地点的限制。档案价值鉴定专家系统的建立一般有三个步骤:设计初始知识库是将人类档案价值鉴定专家的知识(鉴定规则和方法等)获取到知识库中,并将这些知识转化为计算机可以理解的形式;開发并实验原型系统是在设计好初始知识库之后,用一些足够简单的档案价值鉴定任务来训练整个系统;改进与完善知识库则是通过档案价值鉴定的实践反复对知识库和推理规则进行改进,从而归纳出更加完善的结果。一个基本的档案价值鉴定专家系统模型如图1所示,将档案价值鉴定专家的知识存入知识库之后,档案工作者通过接口向专家系统提出鉴定问题,专家系统经过推理再通过接口将结果反馈给档案工作者,其中解释器负责对系统行为进行解释。
2.4智能化档案安全管理
档案安全是档案工作的底线,是档案事业的根基[14]。档案工作者可以将指纹识别、人脸识别以及虹膜识别等智能识别技术用于档案库房的门禁系统中,这样既可以保证未经许可的人员无法擅自进入库房,也使得档案工作者进入库房更加便捷。智能监控是第三代视频监控技术,它可以通过对原始视频图像经过背景建模、目标检测与识别、目标跟踪等一系列算法分析,进而分析其中的目标行为以及事件[15]。智能监控系统最大的优点在于能自动进行实时分析报警,能在威胁发生之前提醒工作人员注意防范,因此档案部门采用智能监控系统可以进一步提高档案库房的安全程度。此外,在档案库房中还可以将智能控制技术应用在恒温恒湿系统中,从而达到自动控制环境温湿度的目的。
目前,在数字档案信息安全保护方面可以应用的人工智能产品主要是智能防火墙和智能入侵检测系统。智能防火墙运用了多种人工智能技术来识别和决定访问控制,在大多数情况下可以自主地完成病毒拦截和阻止网络攻击等任务,还可以提供强大的身份认证和审计管理等功能。传统的入侵检测系统虽然可以通过实时监控检测到入侵现象并发出警告,但缺点是效率低且误报率高。智能入侵检测系统不仅可以更加快速、准确地识别入侵现象,还能够自动追击攻击者并收集攻击数据。因此,在档案工作中使用智能防火墙和智能入侵检测系统能从多个方面来保护数字档案的信息安全。
2.5智能化档案提供利用服务
档案提供利用工作是档案工作的中心任务,是档案工作为社会主义事业服务的直接体现[16]。传统的档案提供利用服务方式一般包括阅览服务、展览服务和咨询服务等,而新型的档案提供利用服务方式主要是网站服务和新媒体服务。2016年4月,工信部、国家发改委和财政部印发了《机器人产业发展规划(2016—2020年)》,其中指出要推进重大标志性产品率先突破,并将智能型公共服务机器人列为十大标志性产品之一[17]。未来,档案工作者可以将智能型公共服务机器人应用在传统的阅览服务、展览服务和咨询服务中,为用户提供各种智能化服务。比如在阅览服务中给用户定时提供茶水,在展览服务中为用户提供指引和讲解,在咨询服务中更加快速地帮用户解答相关问题等等。由于新型的档案提供利用服务方式是通过网络进行的,因此用户量巨大是其最明显的特点,尤其是“两微一端”的飞速发展,直接使得档案利用者的数量呈几何级数增长。档案工作者可以应用数据挖掘技术对利用者的行为进行深度挖掘,以便及时准确地掌握利用者的个性化信息需求,从而真正地实现“以用户为中心”。
3人工智能在档案工作中应用的问题及对策
3.1人工智能与其它技术综合应用
在“互联网+”时代,移动互联网、云计算、大数据以及物联网等技术在档案工作中的应用并不是孤立,而是彼此相互促进。同样,人工智能技术的应用也离不开云计算和大数据等技术的支持。但目前大多数档案部门并没有许多云计算和大数据技术的应用经验,应用物联网技术对档案实体进行管理的档案部门也不是很多。在档案信息化程度参差不齐的现状下,盲目地应用人工智能技术不仅不利于档案工作智能化的发展,而且在一定程度上可能适得其反。因此,档案部门在应用人工智能技术时应注意其与云计算和大数据等技术的深度结合,做到均衡发展、综合应用。
3.2人工智能的应用成本
由于人工智能的研究方向比较多,导致其技术应用成本大小不一。特别是在目前的实际档案工作中,如果档案部门在档案工作的各个环节都应用人工智能技术,其成本必然大大增加。比如开发各种功能的智能Agent和档案价值鉴定专家系统、安装智能防火墙和智能入侵检测系统以及购买智能机器人等等,都需要大量的资金投入。其中开发档案价值鉴定专家系统以及购买智能机器人的成本可能会很高,而目前一般的档案部门显然无法承受如此巨大的因技术升级所带来的成本问题。因此,档案部门要想全面应用人工智能技术,降低其应用成本是十分必要的。
3.3人工智能的应用安全性
在档案工作中应用人工智能技术的目标就是更多地减少人工干预,使各项工作更加智能化。然而,在档案工作实际中许多环节都涉及到安全性问题,如果不能保证人工智能本身的应用安全性,那么所谓的智能化也只能是纸上谈兵。目前,人工智能最大的安全性问题在于其最终是否能够超越人类智能。现阶段这种可能性并不大,档案工作使用人工智能技术还面临着技术不可控进化以及被黑客控制的风险。因此,档案部门在应用各种人工智能技术之前应充分了解其设计思路及具体功能,做好一定的安全评估和管理工作。
3.4档案工作者与人工智能
档案工作者难以适应人工智能主要表现在两个方面:一是档案工作者对人工智能的抵触;二是档案工作者自身的素质不高,无法灵活运用各种人工智能技术。任何一种新技术在档案工作中应用的初期都会使档案工作者产生一定的抵触情绪,特别像人工智能这样的技术,可以应用到档案工作的方方面面,势会颠覆档案工作者的原始认知。因此,档案部门可以通过一定的教育方式让档案工作者明白人工智能的优点,从而改变他们的观念。此外,在应用每种人工智能技术之前,都应安排一定的技术人员对档案工作者进行全面的培训,从而保证他们可以灵活地运用这些人工智能技术。
4结语
人工智能在档案工作中的应用非常广泛,包括网络档案信息资源智能收集、数字档案信息资源智能分类与检索、智能化档案价值鉴定、智能化档案安全管理和智能化档案提供利用服务等。但目前人工智能在档案工作实际中的应用还存在着与其它技术综合应用的问题、成本问题、安全性问题和档案工作者难以适应等问题。从国务院印发实施的《新一代人工智能发展规划》中可以看出,人工智能的各项技术将会愈加成熟。因此,“互联网+”时代下档案工作者要紧紧抓住这次契机,通过不断的探索和研究,将人工智能应用到档案工作实际中,使档案工作真正地实现智能化。
参考文献
[1]国务院.国务院关于印发新一代人工智能发展规划的通知[EB/OL].[2017-9-11].http://www.gov.cn/zhengce/content/2017-07/20/content_5211996.htm.
[2]Nilsson N J. The Quest for Artificial Intelligence: A History of Ideas and Achievements[M]. Cambridge: Cambridge University Press,2009:77-80.
[3]余扬.人工智能六十年[J].中国发展观察,2016(6):11.
[4][6][7][8][9]蔡自兴,等.人工智能及其应用[M].第5版.北京:清华大学出版社,2016:377,28,197,253,373.
[5][13]李生.自然语言处理的研究与发展[J].燕山大学学报,2013(9):380-382,379.
[10][12]Russell S J, Norvig P.人工智能:一種现代的方法[M].殷建平,等译.第3版.北京:清华大学出版社,2013:32,43-49.
[11]曾娜.网络档案信息资源组织研究[J].档案学通讯,2010(1):45.
[14]国家档案局.国家档案局关于印发李明华同志在全国档案安全工作会议上的讲话的通知[EB/OL].[2017-9-26].http:// www.saac.gov.cn/news/2017-06/26/content_192040.htm.
[15]黄凯奇,陈晓棠,康运锋,等.智能视频监控技术综述[J].计算机学报,2015(6):1095.
[16]王英玮,陈智为,刘越男.档案管理学[M].第4版.北京:中国人民大学出版社,2015:242.
[17]工业和信息化部,国家发展和改革委员会,财政部.三部委关于印发《机器人产业发展规划(2016-2020年)》的通知[EB/ OL].[2017- 9- 26]. http://www.miit.gov.cn/n1146295/n1652858/ n1652930/n3757018/c4746362/content.html.
[作者简介]
沙洲,安徽大学管理学院2016级档案学硕士研究生,研究方向是档案利用理论与实践、电子文件管理。