APP下载

智慧档案时域下数据处理技术应用于档案编纂的思考

2019-12-16周倩唐伟鹏

山东档案 2019年2期
关键词:选题成果智慧

文·周倩 唐伟鹏

“智慧档案”起始于2008年IBM提出的“智慧地球”“智慧城市”的未来人类社会美好发展愿景。[1]2018年7月在青岛举行的第五届全国高校青年档案学者学术论坛随之以“档案与智慧社会”为主题,借鉴浙江智慧档案与青岛智慧档案馆的建设经验,探讨在全国各地进一步推广“智慧档案”的理念,推进以“智慧化”为目标的智慧档案工作与智慧档案馆建设,以应对当前“互联网+智慧城市”的发展趋势,促进档案资源进一步开放和挖掘利用,让档案贡献智慧的力量。习近平总书记也强调,把智慧档案建成在全国可推广应用的科技成果,实现数据资源整合与开放共享,使档案事业朝着智能与智慧的方向迈进。[2]

档案编纂作为传承社会记忆的重要方式之一,随着智慧城市、智慧档案的建设也在潜移默化地受到影响,载体形态与传播形式日趋丰富,但档案编纂工作流程亟待升级。近十年来,云计算、大数据技术迅速崛起,档案编纂可运用强大的数据处理技术,改进文献编纂的环节,提升文献校对与编辑加工的品质,并以多元化、多媒体的方式呈现,编纂出真正符合大众文化需求、传承智慧城市记忆的作品,让档案编纂成果能以趣味性、易读性的方式引起“畅销书”式的活态效应,让档案真正贴近生活,发挥育人价值,为智慧社会服务。

一、智慧档案时代档案编纂事业的升级

(一)编纂工作的主体由单一走向跨界融合

2016年在韩国首尔召开的第18届国际档案大会以“档案、和谐和友谊”为主题,其中“档案行业内外的合作”也成为本次大会学者们热议的论题之一,说明过去档案工作的主体——档案馆已经不再“一家独大”,档案事业已经步入了寻求跨馆、跨界的社会合作和群策群力的新时代。在智慧档案建设的当下,档案编纂工程的多方跨界合作尤其明显。档案馆无疑是各载体类型档案存储资源相对丰富的宝库,然而容量有限,又受历史收藏因素影响,仍然有许多珍贵的原始资料保存在图书馆、博物馆或者散存于民间,所以需要通过合作互通才能集齐原始资料。而且档案馆内的人才储备类型单一,对档案编纂成果的展示形式比较陈旧,迫切需要跨界合作来各尽所长,优势互补,汇聚科技力量与思维的火花,创新档案编纂成果的形式。近日,上海师范大学信息管理系与上海金山档案馆就合作打造了一款“纸上渔村”的游戏,该游戏的素材便来源于金山档案馆的上海渔村档案汇编成果之中的一张特藏档案《海渔图》,通过游戏的虚拟体验让用户仿佛身临其境地了解上海的渔村文化,改变了对档案编纂成果的刻板印象,让白纸黑字真正“活”了起来。

(二)编纂成果利用服务由被动变为主动

传统的档案编纂成果主要以书籍出版物的形式出现,由于受到出版发行量等条件的限制,书籍出版物的传播范围以及传播速度较为缓慢,造成了社会的认知程度不高。[3]而且这类出版物通常厚重,满页白纸黑字,除了相关领域研究者会阅读利用外,无法吸引社会大众兴趣,社会总体利用率相当低。智慧档案建设中的重要一环便是档案社交媒体的推送服务,许多档案馆官方微博或者微信公众号都会主动向用户推送本馆参与编纂或者馆藏的专题数字档案汇编成果珍品,以介绍内容或者节选精华组成专题的形式分期推送,使档案编纂成果变被动为主动服务,如云南大学民族档案学微刊公众号下就有“论著辑要”模块,定期推送民族档案学研究相关的档案编纂出版物内容介绍及节选精华,让躺在图书馆的档案编纂成果为大众所认识并便捷地提供利用。

(三)编纂工作的制度法规将不断完善更新

在智慧档案建设过程中,档案编纂工作的制度法规也会不断地调整更新,更关注网络环境下涉及纸质编纂成果的数字化转录版权以及其内容是否符合档案公开的相关规定;数字档案编纂物的网络转载中的著作权保护;盗版数字编纂作品的出版与非法转载等一系列问题。有的名人日记、手稿、作品汇编成果甚至牵扯到个人隐私权的保护问题。而且档案编纂成果的载体形式越来越多种多样,所以编纂工作的制度法规一方面将扩大受保护的档案编纂成果的载体范围、涉及的权利范围,另一方面也将加强网络转载与传播的著作权保护。

二、智慧档案时域下数据处理技术在编纂环节中的应用

(一)科学地选题

选题在档案编纂中占有举足轻重的地位,通常需结合社会需求、材料基础、编辑力量来综合考量选题,社会需求关系到编纂题目价值的实现;编纂力量制约着题目完成的质量,材料基础为题目发挥价值的根本,三足鼎立共同发挥作用。如何能在智慧档案时代海量的数据中抓取文献编纂需要的信息来辅助选题决策,数据处理技术便派上了用场。

1.运用社交媒体征集社会需求反馈

现代社交媒体是人们茶余饭后必备的交流互动平台,目前80%的档案信息门户网内都配备了用户反馈论坛及互动功能,档案馆可以在此发布相关备选文献编纂主题信息,征求用户的建议。此外,如今各大档案馆均有认证的微信公众平台和微博平台,可在网络上发起关于备选编纂文献题目的在线投票,档案馆可根据需要建立用户数据库,采集记录用户的详细信息如过去的利用记录、用户的喜好和特殊需求等等,并通过相应软件对用户信息进行统计、分析和处理。[4]以此来遴选出符合大众期待心理的编纂选题。

2.运用智慧档案管理工具统计资源藏量

材料基础是指编纂选题所依据的档案价值、数量与构成,因此选题必须具备一定的档案基础,才能保证题目顺利进行并最终完成。所选档案材料的价值越大,编纂作品越有意义。目前在智慧档案管理平台中配备有智能化统计功能的软件平台很多,量子伟业和光典在此方面的研发水平走在前列,尤其是光典在今年发布了基于OAIS参考模型设计的光典V5.0实力吸睛,光典V5.0开发模式参考魔方设计,将每一项档案业务拆分为一个“键”,可根据客户需求灵活组配业务功能“键”,部署自己的档案业务魔方,各业务功能“键”还可调整,定期更新,大大降低了系统二次开发的成本。配备的智能化台账分析功能“键”给档案编纂者带来了便利,可统计选题相关的档案藏量有多少,辅助决策。

3.运用大数据挖掘“时间衰变算法”预测选题预期价值

时间衰变的概念来源于德国心理学家艾宾浩斯设计的“遗忘曲线”,描述了人类大脑对新事物遗忘的规律,遗忘是有规律的,遗忘的进程很快,并且先快后慢。因此人们的兴趣偏好会随着时间的转移而发生变化,这个数据挖掘算法最初是用来帮助电商通过计算用户的网上购物浏览、收藏、加入购物车和购买的记录数据以了解用户对各种商品的兴趣取向,从而根据市场需求更好地推荐商品。笔者认为对待选题编纂成果的预期社会效应预测与编者力量集聚也可以运用此算法,该算法以Spark实现模型为工具,结合业务的实际场景,可以从出版商处计算出与待选主题相近的以往出版编纂成果的市场销售情况、编者情况,从图书馆提取待选主题相近的以往出版编纂成果的借阅次数,再辅之档案馆的档案查询记录数据、查询者身份数据,综合时间的推移,计算出近期的关注热点,通过共被引分析还能进一步分析出热点研究方向的编者集聚,给选题的确定以及编辑的选择带来更多的启发,让档案编纂成果选题具有一定的群众文化需求与市场、科研需求。

(二)高效搜集编纂档案素材

一般来说,与编纂题目相关的档案文献是客观存在的,但因档案资源内容混杂、保存分散且数量巨大,编者要从海量的档案资源中提取出目标素材资源,需要运用一定的策略方法把握专题内档案文献的分布状况,尽可能全面而又博约得当地搜集档案素材。

1.充分利用人工智能检索技术

20世纪90年代以来,现代信息技术的革新加速推进了档案馆的信息化进程,充分掌握并运用现代信息检索技术是每个档案编纂者必须掌握的首要技能,检索工具的演变经历了从原始的手工检索到计算机检索、网络化检索的发展,如今在往智能化检索方向迈进,目前大部分智慧档案管理系统配备的都是支持语义关联功能的检索系统,即通过先进的检索系统实现不同受控词表和不同结构知识组织系统间的兼容和转换检索,在档案信息系统中做到直接抽词、赋词,并实现自动标引、自动分类、自动全文检索等功能。[5]

而由人工智能驱动的语义检索系统并非传统的字符匹配技术,是由人工智能模拟人的认识能力,实现根据档案信息内容及内容关联程度直接解决现实问题的功能。利用Python编程爬虫技术可以实现广泛的数据抓取,目前已经研发出了人工智能专利检索Patentics小程序不仅能根据元数据在全球的专利数据库中自动匹配出相关的专利文献,还具备类似Citespace的功能,根据用户想要了解的诸如研究爆发点、关键词、共被引、作者相关信息生成可视化集聚地图,非常直观。笔者认为智能检索技术的应用将使档案编纂者检索时不仅能看到档案原文,还能获得相关类似编纂成果在全球的馆藏、编者集聚、查阅利用程度等更为丰富的信息。

2. 档案专题数据仓库成为素材汇集的阵地

在智慧档案时代,新的电子档案资源在源源不断地产生,因此电子档案将成为档案资源的主流。档案专题数据库作为跨全宗、多类别的档案数据链接组合及系统性的档案数字化综合开发成果的重要形式,以各类档案基础数据库为主要数据来源, 通过档案信息管理系统, 按照某一专门题材内容编制而成的各类档案数据集合。[6]档案专题数据库包括文献数据库、多媒体数据库、数值型数据库、事实型数据库。目前文献数据库与多媒体数据库是各大档案门户信息网提供的档案编纂利用的主要素材汇集阵地,如云南档案网直接提供有涉及云南少数民族档案、云南南侨机工及滇军抗战相关原始档案材料的专题数据库在线阅览服务,浙江档案信息网的专题数据库便是多媒体与文献数据库融合的典范,利用VR技术,提供了关于“难忘浙江事”“大写浙江人”等相关珍档扫描原件的在线虚拟展览,还配有二次编纂文字说明,非常生动。

但是目前各大档案信息网内的专题数据库都是互相孤立的,所以需要技术手段的运用,将每个网站内相关专题数据库抓取出来,组成一个共建共享的档案编纂数据仓库,目前,国家超级计算深圳中心研发的“超算档案云”是利用云计算技术及各种信息化手段,在实现智能档案管理基础上,实现档案信息资源共享的超大分布式系统,它的优势就是存储容量巨大,并且采用B/S结构,支持Oracal、MS SQL Server数据库,它内嵌有支持档案编纂的功能,又有国家政策和技术的支持,笔者认为“超算档案云”将会在数字档案编纂仓库组建这一领域占有一席之地。

(三)智能多载体地转录编辑

1.智能化的转录加工

档案文献的转录加工不仅要将档案原文字符如实地转录到其他载体上,还要根据出版形式的要求对其字体、行款格式、批语标记等进行必要的技术性处理,智能化的转录加工将可调控一切。

(1)利用OCR光学识别进行传统纸质档案信息的转录加工

OCR 光学字符识别的原理是采用光学的方式实现纸质文档--点阵图--文本文档的转换。跟传统的扫描技术有所区别,传统的扫描技术只是将纸质版原件转换成了电子版原件,只有载体形态发生了改变,但不能对其文字信息与格式信息进行提取、编辑,OCR技术则不仅具有可以自动判断、拆分、识别和还原各种通用型印刷体文本及表格的功能,还能自动分析文稿的版面布局,自动判断出标题、符号、段落格式等相应属性。目前有许多OCR软件如Tesseract OCR、厦门云脉、白描、星如文字识别、文通慧视等,功能非常强大,能在提取文本信息的基础上,对行款格式、批语标记、标点分段、字体字号等进行处理,大大方便了后期的编辑。

(2)利用现代多媒体处理软件对新型载体档案信息转录加工

现代新型载体的档案主要包括照片、实物档案转录图片、音频视频、口述档案转换的多媒体文件等,对新型档案内容的复制与迁移需要日常磁带备份技术或异地远程数据复制技术等来实现, 可进行网络共享备份、异地数据备份或自动智能化备份。[7]在对这些档案进行迁移后,需进行必要的技术处理,以保证档案编纂成品的品质。对于照片图片可利用ACDSee Free、光影魔术手、Adobe Photoshop CC等专业的图片处理软件来调整图像的成像度、分辨率、尺寸,去掉图片的污点与划痕、改善褪色以及字迹模糊状况;对于音频可用Adobe Audition CS6来剪辑掉非公开部分的内容,并且消除噪音,改善音质;对于视频可用Adobe旗下的After Effects以及Premiere、爱剪辑,在尽量保持文献原貌的前提下,增强画面清晰度,在需注释介绍的部分配上文字说明,依编纂逻辑顺序用转场特效进行各章节自然衔接,保持编纂成果完整性;对于口述档案信息的转录可用一些可支持方言及多国语言的语音识别软件,科大讯飞旗下的“语记”、飞讯官方的一款手机录音软件“录音宝”、Speechnotes等都是直接在移动设备上就可在线录音并即刻转为文本的软件,非常便捷。可配合“录音整理校对专家”辅助使用,减少错误率,给读者完美的编纂成果。

2.运用电子编辑软件排版与定校

电子编辑软件自身配备了海量的各类型版式模板可供使用,可以给档案文稿拟定标题、添加标点、插入目录、撰写题解、按语或凡例等评论性的辅文、插入注释等,做好排版设计,还可自动校对文字内容、标点使用是否有误,能对插入的图像平移、缩放、剪裁、调整颜色和亮度,更改照片的形状,并支持Word 文档、JPEG、PDF、xps、html等多种格式的输入与导出,使用起来非常便利。Adobe InDesign 是目前国际上最常用最专业的排版软件,但是对于非专业出版设计人员而言,使用较为困难。笔者认为微软的office Publisher于档案编纂人员来说是最佳选择,使用方式比较“傻瓜式”,工具栏设计跟word版面一样,还能使用内嵌的海量编辑模板,设计控件的排列可以自由控制,实现过程非常容易、有趣而快速,让档案编纂彻底从传统模式中解放出来,实现智慧编纂。

(四)依托智慧档案信息系统实现流程掌控

档案编纂是档案提供利用的主要方式之一,所以智慧档案管理信息系统都内嵌有档案编纂管理系统,如今国内涉及档案编纂管理功能的信息系统能实现专家智能决策功能的很少,随着元果科技、科大讯飞、光电V5.0等一批智慧档案管理软件系统的崛起,其内嵌的档案编纂管理功能将会越来越完善,实现从编者人选到选题、搜集素材、编辑加工素材、排版设计的人力资源匹配与编纂过程全流程的掌控。

智慧档案信息系统的终极目标是要打造为一个档案知识库,智慧档案信息系统在组织信息资源过程中就加入机构部门、主题、领域、责任者等方式,并能根据分类提取相关的关联词组,并描述出它们的上下位类和语义联系,以方便相同类型的档案信息进行聚类组织。[8]而且其内置的数据统计功能能够提供各专题档案的聚类、以往二次或多次编研档案知识模块的集合、刚解禁档案的集合等丰富的素材,也能统计出以往主题相似已出版成果的编者情况与利用情况数据,作为选题参考。

智慧档案信息系统内嵌的档案编纂管理系统按编纂环节实行模块化管理,赋予不同职能环节的编纂者相应的权限,即负责相应编纂环节的人员只能浏览和修改自己权限内的编纂内容,系统日志随时监控每份档案素材的编纂情况,并具有时滞控制提醒功能,一旦超时未完成预定工作任务,就会自动提醒。自动编目系统按照编纂者给出的编排指令在线对档案资料进行动态的虚拟编排,自动校对文字与格式错误,上传指令给专家窗口审核人员进行收尾的完善。通过智能化的管控,让档案编纂过程实现定质标准化运作,提升编纂品质。

(五)档案编纂成果展示形式活态化

过去档案编纂成果以纸质出版物、光盘出版物为主,而现在主要以网络出版物为主,通常挂接在各档案信息网、档案局(馆)官网内,以专题数据库及网上在线展览的形式呈现为主。近年来,随着VR虚拟技术传入国内掀起一股热潮,如浙江宁海、上海静安、香港等地均推出了“VR+档案”应用的活态档案编纂成果体验展。2017年4月,清华大学团队结合帝王《起居注》《内务府奏销档》及《圆明园内工则例》等的记载,深入研读文献史料,重新发掘圆明园不为人知的历史人文过往、园林建筑风情,重现园内昔日盛景,研发了VR圆明园移动导览系统和圆明园虚拟游园系统。VR 虚拟技术可运用于网络档案编纂出版物的展示上,既可以通过挖掘编纂成果内容,将其进行虚拟场景还原,让人身临其境般地体验,也可直接做成VR书籍,进行虚拟翻阅,既节省资源,又能使其得到永久的活态保存。还可利用3D打印技术直接对一些从实物档案上转录的档案汇编进行档案实物再现的活态化展示。

三、结语

档案编纂是开发利用档案的智慧结晶,也是传承档案文化、发挥档案价值的重要传播纽带,在互联网+智慧城市快速发展的当下,档案编纂的发展不应该止步不前,应搭上智慧档案建设的快车,依托智能的管理平台、技术手段、传播媒介,优化编纂流程,并且创新编纂成果向社会提供利用服务的方式,让原本束之高阁的前人智慧成果真正融入社会大众的精神生活,传承社会记忆,弘扬优秀档案文化。

猜你喜欢

选题成果智慧
验收成果
数说中国—东盟经贸合作成果
谈诗词的选题
2018数博会4大成果
选题有误
一张图看懂“论坛成果清单”
有智慧的羊
智慧派
智慧决定成败
智慧往前冲,统计百分百(1)