数字人文技术在档案编研中的应用研究
2020-04-08叶靖宜
叶靖宜
摘要:数字人文是在人文计算的基础上发展起来的,侧重人文社会科学研究对象知识本体的数字化保存和应用。近年来随着信息化技术的不断发展,数字人文技术深入档案编研领域不断尝试和应用,自我国大力推进档案信息化建设以来,已经产生了大量数字档案信息资源,但过程中也产生了信息化程度低、缺乏组织规范、技术不成熟等問题,文章从国家政府和档案馆自身两方面有针对性的提出建议,以期为档案编研工作提供参考和指导。
关键词:数字人文;档案馆;技术应用
中图分类号:TP393 文献标识码:A
文章编号:1009-3044(2020)03-0013-03
1 数字人文的概念
1.1 起源与概念
目前,学术界普遍认为数字人文起源于人文计算(Humani-ties Computing),1949年,意大利耶稣教神父罗伯托·布萨(Ro-berto Busa)在IBM公司的协助下,使用计算机处理神学家阿奎那(Thomas Aquinas)的全集,半自动地生成其中中世纪拉丁文字词的索引,自此引起了学者们对于人文计算的关注和研究。数字人文是在人文计算的基础上发展起来的,但两者研究的侧重点有所不同,人文计算强调的是计算机技术在人文社会科学领域中的应用,而数字人文是针对计算工具与所有文化产品交叉领域的研究[1],侧重人文社会科学研究对象知识本体的数字化保存和应用[2]。
1.2 数字人文的定义
对于数字人文,学界尚未形成统一的定义,剑桥大学艺术、社科人文研究中心学者Katy Barrett认为,数字人文是利用计算机对于传统人文研究资料进行处理和分析,结合人文学科方法论和计算机进行人文研究[3]。伦敦国王学院的Willard Mc Carty教授认为,利用研究对象数字化对人文科学研究的内容、方法和模式进行支撑、保障和创新是数字人文研究的核心[4]。我国学者赵生辉认为,数字人文是围绕人文社会科学领域特定研究对象知识本体的数字化保存和应用所进行的相关信息资源采集、加工、组织、服务、研究、教育等活动总称[2]。而对于数字人文最经典的定义是美国伊利诺伊香槟分校图书情报学院院长约翰安斯沃斯(John Unsworth)教授提出的,数字人文是一种代表性的实践、一种建模的方式,或者说就是一种拟态、一种推理、一个本体论约定。这种代表性的实践可一分为二,一端是高效的计算,另一端是人文沟通[5][6]。
2 研究现状分析
截止到2019年7月,以“数字人文”为主题关键词检索中国知网期刊数据库,共检索到相关论文836篇,从图中可以看出,2010年以前,对于数字人文的研究文献数量几乎为零,学界研究者几乎没有数字人文相关主题研究,从2011年开始发文量才缓步提升,此时数字人文逐渐引起学界研究者的注意,有专家学者开始关于数字人文的研究。而从2015年开始,对于数字人文相关主题的论文研究明显增加,发文量显著提升,且每一年较前一年都有较大增幅。数字人文概念已经引起了广泛的关注和重视,关于数字人文的研究大幅上升。仅2018年一年的发表量就达到215篇,并呈现出持续增长态势。
随着计算机技术的普及与大数据分析在科学研究领域的渗入,数据密集型的科学发现第四范式日益兴起,数字人文研究越来越受到研究者们的重视。在“文学和语言计算学会”和“计算机和人文学会”基础上成立的国际数字人文组织联盟不断发展壮大。众多国内外数字人文研究中心不断涌现,也形成了大量经典数字人文应用案例,对于数字人文的研究热点也主要集中在高校图书馆、人文科学、图书馆学、大数据、可视化等方面。
弗吉尼亚大学的影谷(The Valley of the Shadow)项目是对历史信息的数字化,通过对于报纸、原始信件、演讲、地图等信息资源对于美国内战时期的历史进行还原与重现[7]。加拿大瑞尔森大学数字人文中心的REED Online项目集合了英国国王学院数字人文部门、多伦多大学图书馆相关人员及多家出版商,对于早期英国戏剧记录学术交流模式的改进进行了探索[8]。马里兰大学、伊利诺伊大学香槟分校、国家超级计算应用中心等高校与机构共同参与的Monk项目[9],基于Word Hoard和NORA两个前期项目平台,开发人文领域的文本元数据中的新知识,为人文学者提供集成化的文本挖掘平台。耶鲁大学的“机器人读Vogue”(Ro-bots Reading Vogue)项目[10]嘱于可视化与图形化的应用,通过对经典时尚杂志Vogue的封面、内容、数据进行深入挖掘,探索Vogue杂志从性别研究到计算机科学等问题的可能性。
我国对于数字人文的研究起步较晚,2008年,台湾大学成立“数位人文研究中心”,对明清档案、古契书、国民党党史、台湾老照片、植物标本、民族文化等多种资源进行数字化研究,成为台湾“数位典藏科技计划”的重要组成部分[11]。2011年5月,武汉大学成立了我国大陆地区第一家高校数字人文研究中心,形成了包括历史地理信息系统、古籍档案语义分析、新闻传播文本挖掘、法律文档数据库、计算机语料库研究等一系列数字人文实践项目[12]。由于我国拥有灿烂的传统文化艺术资源,形成了一批基于文物保护、史学研究、古籍研习的数字人文项目,如“数字敦煌”项目[13],“中国历代人物传记资料库(CBDB)”项目,“全唐诗分析系统”和“全宋诗分析系统”[14]以及“古籍研习平台”等,为我国传统文化艺术和保护提供了支撑和平台,为人文学者以及普通用户对于传统文化艺术的研究提供参考和便利。
3 数字人文在档案馆中的应用
3.1 背景与意义
档案馆作为众多文献档案的集中存储场所,本身就是一个丰富的数据库,对于档案馆中现有的大量特色资源进行数字化的人文研究有着明显的价值和意义,通过档案信息化,使得档案资源可以不受时间、空间和载体的限制进行网络检索和远程共享,极大地提升了档案的利用率,实现档案馆作为传播文化和信息资源的社会机构的基本服务职能,档案馆本身具有的特有属性使其成为实施数字人文的绝佳场所。
自2000年我国大力推进档案信息化建设以来,已经产生了大量数字档案信息资源,如何对档案馆丰富的特色资源进行更深刻的人文研究,在档案数字化文本入库和档案信息的数字化文本呈现的基础上,从海量非结构化、复杂冗余的数据资源中提取出各档案文本信息间的模式与关联,提升对于问题研究的决策支持,真正实现大数据时代“信息为王”的理念是推进我国数字人文建设的关键问题。
3.2 现状与不足
我国档案信息化建设开始较晚,虽然经过近年来的蓬勃发展,档案信息化研究取得了明显的成果,但是目前我国的档案信息化还处于初级阶段。档案馆现有的档案信息化建设主要体现在对于初级业务流程的计划和管理,包括档案文件的在线检索与借阅的信息化管理,用户可以通过网络系统对于需要的档案进行档案的题录、文摘及全文等基础性的检索和查询;以及档案的收集、整理、立卷和归档等基础流程的信息化管理,档案馆的工作人员可以利用信息系统进行材料预立卷、整理组卷、归档验收及档案鉴定等工作。部分档案馆以案卷集解释档案资料信息等,仅仅只是实现了对于档案的题录、摘要等部分内容的在线发布和利用,提供的是“目录式服务”。
部分已经开始实施和推进数字化的档案馆也局限于对于纸质资源的数字化扫描和档案信息的文本入库,只是将自身的服务从“目录式”提升到了“全文式”[15],缺乏对于档案信息资源的深入挖掘与知识发现,还远远无法满足当前知识经济背景下研究者的基于档案信息的相关研究需求,也无法实现档案馆作为文化传播和信息资源载体提供知识的知识服务。
在推进档案信息化的过程中涌现出了很多问题,如在工作流程中缺少明确的组织和规范,档案馆推进档案信息化没有统一的方向指引,使得档案的数字化处理无法以一种标准化的形式迅速推进,导致档案信息化进程缓慢。同时,对于档案内容的揭示还存在不完善、不完整等问题,对于公文、电报簿册、书信、电话记录、图纸、登记表、报表、名册,照片、录音带、录像带等非传统性的档案信息资源的开发和利用还存在明显不足。从技术层面来说,目前部分数字资源无法进行内容识别,如对于手写档案等非标准化的档案信息的内容识别还存在困难,对于档案信息的知识发现仍然存在障碍,成为推动数字人文的瓶颈。
4 对策与建议
从国家和政府的宏观角度来说,我国国家档案局、中央档案馆及档案科学技术研究所、中国档案学会等相关主管部门与行业协会应当对于档案信息化建设引起足够的重视,清楚认识到我国目前档案信息化建设中存在的如目标不明确、机制不健全、沟通不顺畅等诸多问题,同时加强队伍建设,重视对于档案信息化专业人才的培养。目前档案馆需要的是多领域全面化的复合型人才,不仅需要具有图书情报、档案管理等领域的专业知识,了解档案馆里的工作流程,拥有系统化的档案业务知识,也要掌握相关的计算机科学和管理学基础,能够利用计算机软件、网络技术和硬件设备等展开档案信息化管理的相关工作,并对于数据存储、备份策略和检测机制等关键问题开展研究。总体而言,档案界对于相关档案信息化人才存在着较高的要求,而目前对于真正的档案信息化人才也存在着巨大的需求缺口,这也要求我国相关组织机构对于档案信息化人才进行针对性的、专业化的培养和培训,一方面提升现有馆员的相关理论和技术水平,一方面培养并引导一批新生的档案信息化人才加入档案馆,为档案馆注入新鲜的血液。
目前的档案信息化工作还存在着无组织、不规范等诸多问题,归根究底是由于缺乏相关的标准规范的引导,国家主管部门与行业协会组织应当积极合作,制定一套完整的档案资源信息化的标准对于我国现在的档案信息化工作进行指导。2017年5月,我国国家档案馆与中央档案局及其他相关组织机构成立了“档案信息化工作领导小组”,旨在对于我国档案信息化工作进行统一的领导和统筹规划,真正落实《全国档案事业发展“十三五”规划纲要》,不断提高以信息化为核心的档案管理现代化水平。这是档案界一次很好的实践,档案信息化小组应当在此基础上尽快出台关于档案资源信息化的标准和规范,不断健全相关法规和章程,有方向的引导和指引各档案馆档案信息化工作的实施和推进。
从档案信息化工作推进的角度,档案馆自身应该主动参与、积极推动档案信息化的建设,积极推动数字化资源的全文识别,不断完善和健全数字化档案资源的特色数据库,如公文、电报簿册、书信、电话记录、图纸、登记表、报表、名册、照片、录音带、录像带等非传统性的档案信息资源的开发和利用与存储也应当纳入研究的范围。从技术领域而言,需要不断推进相关计算机技术的研究,如手写识别、机器学习等算法的改良和优化,从而实现对于部分目前难以实现内容识别的档案资源的信息读取与入库分析,也可以选择商业外包的形式,对于无法进行全文识别的文本资源采用阅读翻译等商业手段处理,具体也应当视档案性质与档案馆实际情况而定。
参考文献:
[1] Robinson L,Priego E,Bawden D.Library and Information Sci-ence and Digital Humanities:rwo Disciplines, Joint Future?[EB/OL]. [2019-11-04]. https://www.zenodo.org/record/17969#.XcAcWjMzY2w.
[2]趙生辉,朱学芳.我国高校数字人文中心建设初探[J].图书情报工作,2014,58(6):64-69,100.
[3]陆璟.PISA如何测评阅读素养[EB/OL].[2019-11-04].http://www.jyb.cn/book/ydz d/201 103/t201 103 17_4203 68.html
[4]郭金龙,许鑫.数字人文中的文本挖掘研究[J]大学图书馆学报,2012,30(3):11-18.
[5]周琼,胡礼忠,图书馆员在“数字人文”中的作为——“2011数字人文国际大会”后的感想[J].图书馆建设,2012(3):82-84.
[6]范佳,“数字人文”内涵与古籍数字化的深度开发[J].图书馆学研究,2013(3):29-32.
[7]李娜.高校图书馆阅读教育工作探析[J].新西部,2013(13):121-122.
[8]燕今伟,刘霞,信息素质教程[M].武汉:武汉大学出版社,2008:195.
[9] Monk [EB/OL]. [2019-11-04]. http://mith. umd. edu/research/monk/
[10] Robots Reading Vogue [EB/OL]. [2019-11-04]. http://dh.li-brary.yale.edu/proj ects/vogue/
[11]台湾大学数字人文研究中心网站.中心介绍[EB/OL].[2019-1 1-04]. http://www.digital.ntu.edu.tw/introduction.j sp.
[12]武汉大学人文社会科学研究院网站,武汉大学成立数字人文研究中心——推动数字技术深层融人人文社会科学研究[EB/OL]. [2019-11-04]. http://ssroff. whu. edu. cn/info/1009/1407.htm
[13]敦煌石窟公共网,数字敦煌工程简介.[EB/OL]. [2019-11-04].https://www.e-dunhuang.com/index.htm
[14]朱本军,聂华,跨界与融合:全球视野下的数字人文——首届北京大学“数字人文论坛”会议综述[J].大学图书馆学报,2016,34(5):16-21.
[15]杨力,姚乐野.基于知识管理的数字档案馆服务体系构建[J]档案学通讯,2010(1):58-60.