强档的必由之路是建设智慧档案
2023-03-22杨冬权
杨冬权
《档案与建设》开设“强档论坛”,我首先想到的强档之路,就是建设智慧档案。因为在内外条件都已具备的条件下,建设智慧档案,无疑是做强档案工作、提高档案部门和档案人员地位的现成捷径、不二法门、唯一道路。
1 什么是智慧档案
记得2019年7月,我在江苏的一个会议上,首次公开提出了我所理解的智慧档案的概念。之后几年,我又利用写文章、演讲等各种不同形式,在许多不同场合,呼吁建设智慧档案。
我所说的智慧档案,包括智慧档案馆和智慧档案室。我所理解的智慧档案,不是之前人们所说的档案自动监控和自动调取、库房温湿度和有毒有害气体自动调控、档案柜架自主移动、人流物流自动监控之类的侧重档案外在管理的自动化档案馆室,而是对档案内容进行智慧性处理和开发,让档案增强人的智慧,帮助人进行决策和管理等,让人因档案而变得更聪明,这才是真正的智慧档案。这就必须做到两点:第一点,把档案中电脑不能识别和处理的内容,转化成电脑可识别处理的数据,也就是先把档案“数据化”。第二点,用各种数据挖掘技术和手段,对所有档案数据进行关联性处理和关联性推送,让所有数据形成关联,形成新的知识、新的信息,并主动进行推送。没做到这两点的档案馆室,最好不要侈叫智慧档案馆室。
2 为什么说建智慧档案是强档必由之路?
智慧档案馆室是之前纸质档案馆室和目前正在建设的数字档案馆室的升级版和代替版,它比纸质和数字这两代档案馆室有着太多的优越之处,是对档案馆室的质的提升。
我们可以把数字档案馆室和智慧档案馆室作一个对比。
数字档案馆室,主要是对纸质档案进行扫描,形成纸质档案的电子图像,并为每一份档案著录标题、责任者、形成时间、关键词等几项必要的信息,最后进入网络,进行远程利用。
而智慧档案馆室,虽然也对纸质档案进行扫描,但扫描的结果,不仅形成电子图像,还对档案内容进行识别,形成电脑可以识别和处理的数据。也就是说,它扫描的结果,既有电子图像,又有档案全文数据。接下来,档案的全文数据被导进档案数据库(或数据湖或数据海)中,以后就可以通过数据挖掘技术,同数据库中的其他1万件、100万件、1亿件甚至更多档案中的全文数据产生关联,并能自动关联性地推送出来,形成许多它所不具备且是前所未知的新知识、新信息。
例如:一张纸质的北京市地图,在数字档案馆中,人们可以看到地图上的许多地名,但也仅此而已,不可能得到其他信息,也不可能由此知道其他的新知识。但在智慧档案馆中,这张地图上的每个地名,都同数据库中的其他信息产生了关联,产生了新的知识。如果搜索“天安门”,网络会给你推送同天安门这个地名有关的很多信息,如:天安门距离北京任何一个地方的里程有多少,不同交通工具的交通路线怎么走,需要多长时间,天安门什么时候建的,什么时候大修过,它有多高、多宽、多大,多少个厅,各有什么陈设,什么时候在天安门发生过什么大事……这些就都是这张地图或这件档案以外的新信息、新知识。这在过去纸质和数字档案馆室中是不可能有的。
再例如,一份30页、15000字的某市政府工作报告,在数字档案馆室中,除了能查到这30页的电子图像,知道它的题名、责任者、成文时间等几个关键词,其他的你不能知道更多。但在智慧档案馆室中,除了以上这些,这件档案中的15000个字,都可以被电脑识别出来,当中的每一个实词,都可以同数据库中的其他信息产生关联,形成新的信息并可主动推送出来。如果查阅这份工作报告中2021年的粮食产量,数据库还会推送出这个地方之前历年粮食产量的对比、增减幅度、增减趋势等。一份政府工作报告查阅下来,你就基本知道了这个地方多年的经济和社会发展情况。
又例如,某个企业新归档了一件贷款发票。在数字档案室,你查到它,只能知道该企业某年某月某日从某银行贷了多少款,利息是多少,其他信息你就不知道了。而在智慧档案室中,数据库可以告诉你,到此时为止,这个企业一共贷了多少款,各个银行分别是多少,各种利息的分别是多少,今后每年企业要还多少利息,企业有没有信贷风险,怎么还贷对企业更有利,等等。
智慧档案馆室中这些根据数据挖掘而新生成的新信息、新知识,真正提高了人的智慧,提高了人的素质,使人变得无所不知。所以,这才是真正的智慧档案。
建立了智慧档案室以后,档案人员就是单位中最聪明、最智慧、知识最丰富的人。单位的每一件人事档案归档后,智慧档案系统可以随时报告单位领导,到此时为止,单位共有局级干部多少人、超编多少或缺编多少;处级干部多少人,超编多少或缺编多少;单位干部的年龄结构、知识结构、专业结构;今后干部队伍建设的着力点在哪里,等等。某市卫生局档案室每天归档完后,都可以根据智慧档案系统向领导报告,今天全市病患看得最多的是什么病,这种病可能什么时候开始流行,要采取什么预防措施;或报告今天有多少年轻人在购买老年病的药,有骗医保倾向,应该怎样处置,等等。这样,在领导和别人的眼里,档案人员就不再是过去的那个可有可无的“调档员”,而是知道很多他所不知道的知识、想出他还没有想到的信息及对策的高级参谋、智慧助手。做到了这一步,档案部门和档案人员的地位很快就会得到重视,得到支持,得到加强。这不是最好的强档之路吗?还有比这更好的强档之路吗?
由上可以看出,智慧档案从以下几个方面实现了强档:
第一,它大大地增强了档案的价值和作用。在纸质和数字档案馆室中,档案的价值只在利用者利用这件档案时才发挥出来,它只对直接的利用者有价值、起作用。而在智慧档案馆室中,所有档案的利用都会关联到其他档案,其他档案也会被间接地利用,所有产生关联的档案共同发挥出更广泛和更大的作用。例如,在纸质和数字档案馆室中,某市2021年政府工作报告,只在某人专门利用或直接利用它时,它才会发挥作用。而在智慧档案馆室中,别人利用2019年、2020年或其他历年的政府工作报告,甚至利用所有同2021年政府工作报告中某项信息有关联的其他档案时,2021年政府工作报告中的很多信息,也会被关联性地利用到,被间接地利用到,从而间接地体现出其价值,间接地发挥出其作用。这样,在纸质和数字档案馆室中,档案可能平均每年只被利用一次、发挥一次作用,但在智慧档案馆室中,每件档案平均每年可能被间接地利用一百次、一千次。档案不但对直接利用它的人体现价值、发挥作用,而且对间接利用他的人也体现价值、发挥作用,档案发挥作用的范围大大地扩大了。这就成百上千倍地增强了档案的价值和作用。
第二,它有力地增强了档案工作的作用。在纸质和数字档案馆室中,由于档案被利用的范围小、频次低,作用不明显,因而档案工作的作用也不明显。而在智慧档案馆室中,档案被利用的范围大大扩大,频次大大增加,特别是档案工作者往往提供出领导和其他工作部门都提不出的新信息、新知识,甚至可以预测趋势、提示风险、拓宽工作路径,因而大大提高工作效率和管理水平,这就大大提高了档案对各单位和对社会的支持作用。
第三,它大大地强化了档案部门和档案人员的地位。如上所说,智慧档案馆室建成后,档案部门和档案人可以主动给各方面推送人们有兴趣或需要的东西,特别对单位领导来说,档案部门和档案人,就不再是简单的“调档员”“提档手”,而是能给出很多新知识、新信息甚至新方案的高级参谋、助手、智囊,是智慧的化身,是离不开的超过历史上诸葛亮和吴用那样的“智多星”。档案部门和档案人一定会倍受尊敬和重视,他们的地位一定会有实质性的提高。这里,档案人的聪明与智慧,都是智慧档案所赋予的,是人工智能技术把档案中的所有知识、信息、智慧点结合了起来、挖掘了出来、呈现了出来的结果。
3 为什么智慧档案能强档?
第一,是在大数据环境中,档案发挥作用的方式不一样了,或者说,档案被利用的形式不一样了。在纸质和数字档案馆室中,利用档案是个别性或针对性利用。张三来用甲号档案,那么,甲号档案只有被张三利用后才发挥作用,而且只对张三有作用。这种传统的、一对一的利用,我们可以称之为直接利用、专门利用或针对性利用。它所发挥的作用,是直接作用、专门作用或针对性作用。而在智慧档案馆室中,甲号档案不但在张三来利用时会被直接利用、发挥直接作用,而且在李四来用同甲号档案中某信息有关的乙号档案、王五来用同甲号档案中某信息有关的丙号档案时,都会对李四、王五等人发挥间接作用。这里,李四、王五等人并没有直接利用甲号档案,而是在利用乙号档案及丙号档案时,关联性地利用了甲号档案中的某一信息,甲号档案是被李四、王五等人间接地、关联性地利用到的。我们可以把这种非一对一利用的关联性利用,称之为间接利用,或广泛性利用、专门性利用。它所发挥的作用,是间接作用或关联性作用、广泛性作用、非专门性作用。在智慧档案馆室中,档案发挥作用的主要形式,将不再是针对性、个别性的直接利用,而将是更主要的除此之外的大量的非针对性、非个别性的间接利用与关联利用。直接利用将只占极少数,更大量、更日常的是间接利用。这种间接利用、关联利用,在纸质和数字档案馆室中是不曾有过的,是只在智慧档案馆室中才会产生、形成的,其所发挥的作用,是直接利用的千百倍。
在纸质和数字档案馆室中,人们利用某一件档案时,某一件档案才发挥作用;在智慧档案馆室中,别人用另一件同这一件档案内容有关的档案时,这一件档案也会自动地被利用,被“钩连”出来,被“牵扯”出来。数据库中的每一件档案,都会被多次地、反复地、经常地“被利用”到。这就是档案发挥作用方式的改变,或档案利用形式的改变。这种改变,是前所未有的改变,是意义重大的改变,是可以千百倍发挥档案价值和作用的改变,是可以让档案人聪明、智慧千百倍的改变,是可以让档案形成单位和全社会获得千百倍经济和社会效益的改变,是可以实质性提高工作水平、决定性提升档案部门和档案人员地位的改变。这种新改变,在信息界、数字界已经发生了好几年,在档案界也正在逐渐发生,并将会随着智慧档案馆室的更多建成,而日益广泛成为档案利用的新常态。
第二,是信息技术发展变化,从过去的针对性检索,发展到现在的广泛性搜索和关联性推送。人工智能技术的应用,把早期的信息检索变成了对信息的智能搜索、全面分析、综合挖掘、关联性推送,使得人们不但能准确地查到某件档案,而且能搜索到同这件档案内容有关联的其他的大量新信息和新知识。例如,过去检索“天将降大任于是人也”这句话,电脑只能告诉人们,它出自《孟子·二章》;但现在搜索这句话,电脑还可以告诉人们这一章的全文,全文的翻译和赏析,“是人”是在什么时候被改成“斯人”的,哪些书的版本中是“是人”,哪些书的版本中是“斯人”,以及跟这句话类似的其他古人的励志名句等,从而赋予人们更多新的知识。再例如,过去在电脑上检索张三任市长的通知时,电脑只能提供这一份通知,但现在搜索这份通知时,数据库还会推送出张市长之前任副市长的任职通知、免职通知,以及更早前他任局长、副局长,处长、副处长等所有的任免通知,还有他的简历、照片、录像、文章、讲话等所有关于他的信息。另外,信息技术特别是人工智能技术,已经能够通过对数据的挖掘,代替人去分析、思考,提出预警、提示,提供方案,甚至去干活。比如,人工智能能够根据处理器中输入的大量古诗词,选择任何主题,创作出新的诗词来,其水平不亚于人类诗人;输入大量病历档案后,人工智能能通过对数据的挖掘,进行医学诊疗,能读X光片,能诊断疾病,能开药,其水平高于多数人类医生。这些,都是对大量数据进行分析、挖掘并加以自我学习的结果。所以,基于信息技术的这一提升和改变,是一个质的、革命性的提升和改变。
第三,档案内容基本都可以转变为电脑可以识别和处理的数据。过去,由于缺少档案内容的识别转换技术,大量的档案内容不能被电脑识别和处理。但最近几年来,随着一些新的识别转换技术的应用,档案中的文字,可通过手机软件,识别转换成电脑可处理的文字即数据,其准确率普遍超过八成,有的甚至高达95%以上。音像档案中的声音,也可以全部转化为电脑可处理的数据。照片档案、录像档案中的人名甚至一些地名,也能被人脸识别技术等“破译”出来,从而成为电脑可处理的数据。通过这些识别和转化,档案中可被电脑处理的数据十倍、百倍地增加了,它可发挥的作用,也十倍、百倍地增强了。原来一件档案只有几个主题词可以被检索,现在一件档案中的每一个实词都可以被搜索。作为生产要素的档案数据,比以前大大地增加了;档案中可利用的资源,也比以前大大地增加了。这就让档案的价值和作用,呈现出几何级数的增长,甚至指数级的增长。
4 怎样建设智慧档案馆室?
建设智慧档案馆室,有两项重要工作必须做:
第一项工作,把档案全部数据化。也就是把电脑不能识别处理的档案,识别转化成电脑可以识别处理的数据,从而最大限度地发挥档案的价值和作用,把档案中的“死”信息挖掘出来,让它活起来、亮起来;把档案里的“死”资源释放出来,让它生动起来、活跃起来,把档案由死的、半死的变成活的、跃动的,用人工智能技术为档案赋能、加分、增值、添彩。
可用以下几种办法识别转换:第一种,把印刷的文字或书写工整规则的文字,用通用的OCR技术转换成电脑可处理的数据,其准确率可达99%左右。第二种,把手写的文字,用特殊的手写字识别转换软件,转换成电脑可处理的数据,准确率可达80%—95%;或者用声音转换技术,由人来读档案,并用声音转换软件,把声音转化成电脑可处理的数据;实在不行,则用手工录入的方法进行计算机录入。手写字档案在扫描后可以形成两种成果,一种是档案的电子扫描版图像,它跟档案原件是一模一样的;另一种是电子扫描版上每一个字的识别转化版,也可称为文字释读版,是电脑可处理的数据。它既可以导入数据库,成为数据库的一部分,供电脑进行大数据的挖掘、分析、处理、推送,也可以与电子扫描版放在一起,以“左图右文”的形式供利用者直接利用。
对录音档案,可用声音转换文字的设备或软件,把声音转化成电脑可处理的数据。
对照片和录像档案,可用人脸识别技术,把画面上的人名、地名等识别标示出来,变成电脑可处理的数据。
以上这些档案的识别转化,己开放和非涉密的,可委托专业公司去做;未开放和涉密的,可以自己来做。在顺序把握上,可以先识别已开放档案中利用率高的和涉及民生的。未开放的,暂时不用识别,等鉴定开放后再识别。
特别需要指出的是:纸质档案的数据化,既可用纸质档案,也可用纸质档案的数字化图像,而且成本都是一样的,还都比过去的数字化成本低,速度也更快。这是过去没有想到的。
第二项工作,应用数据挖掘技术,对现有数据进行挖掘和推送。由于绝大多数档案馆室现在都有一部分电子数据,包括新生成的电子档案、非电子档案的目录和著录信息等,所以,可从建设智慧档案馆室伊始,就应用数据挖掘技术,对现有数据库进行挖掘和关联性推送。这需要同数据挖掘公司或专家合作,研发出相应的软件和设备来。这样做时,档案人的主要任务就是提需求。需求提得越全面、越细致,将来系统就越好。
除以上两项,当然还有一些其他工作。但这两项做到了,智慧档案馆室的基本条件、主要功能就具备了,就可以称之为智慧档案馆室了。这两项工作是最有意义的,是最应该优先安排的。其他工作都没有这两项工作重要,意义都不太大,可以缓做,有些甚至可以不用做,比如对档案的自动监控,对档案的数字化扫描,对档案的著录等,因为这些是在智慧档案馆室建设中意义不大的事。
档案部门中有些工作的意义和必要性并不大,做了对工作并不会产生质的提升。例如,20世纪80年代,我在国家档案局档案馆室业务指导司工作时,一次到一个省级档案馆调研,看到他们的员工正在忙着调库,按照新的党群口、经济口、教科文卫口等全宗群划分,把同一个库房中不属于一个全宗群的档案,移到另一个库房去,让每个库房的档案都是同一全宗群或相邻全宗的档案。当时我就觉得,这是一种劳民费时的做法,没什么必要性。因为即使通过手工的档案存放位置图,也可以轻松地调出档案,而不用花这么大力气,去干这种劳师动众、劳而无功的事。又有一次我到一个地级市档案馆调研,他们很高兴地让我看他们的一项全市推广的新工作:案卷封面铅字化。过去的案卷封面上,标题、保管期限等,都是手写的,他们认为不够美观,于是重新换上新的卷皮,卷皮上的字,全部用铅字手工排好,再印上去,目的是让档案和库房看上去更美观。我看了好几个馆,每个馆都在换卷皮、印铅字,每个馆都买了几版铅字,像印刷厂一样,档案人员在拣字、排字、印字。他们希望通过我向全国宣传推广他们的做法,但我说,这样做,卷皮上一个新的信息也没有增加,档案并不能因此而查得更准、调得更快,档案工作不会得到任何实质性的提高,除了好看以外,没有任何实际意义。所以,从那时起,我就知道我们档案界,有些人喜欢“翻烧饼”,做劳而无功的事,就像希腊神话中的西西弗斯一样,把石头推上山顶掉下来,再重复往上推,虽然费了很大劲,但却徒劳无益。因此,我要提醒档案人:要善于做最关键、最重要的事;不要在无用之功上下力气,不要做劳而无功、事倍功半的事;不要热衷于搞形式主义、做表面文章。
当前,在建设智慧档案的内外条件都已具备的情况下,不建智慧档案馆室而干其他事,就是在干非必要、非紧迫的事,就是在干事倍功半的事。因为建设智慧档案是唯一的强档之路,它能让档案工作和档案人员的地位得到跃升和猛进,我们何乐而不为呢?