图书情报档案领域数字人文研究综述
2021-05-16孙鸣蕾房小可
孙鸣蕾 房小可 陈 忻
一、引言
数字人文是针对计算与人文学科之间的交叉领域进行学习、研究、发明以及创新的一门学科,其概念最早是由罗伯特·布萨提出的。将计算机技术与书籍的编辑工作相结合的思想也逐渐向文学、历史学等领域不断发展。我国台湾地区在数字人文(台湾叫数位人文)领域一直排在世界前列。我国大陆地区的第一个数字人文研究中心是2011 年在武汉大学成立的,主要阵地是图情档领域。从内容上讲,关于数字人文在不同方面的研究层出不穷,但是很少有系统针对图情档学科在数字人文研究方面的综述性文章。对此,本文对国内图情档学科的数字人文相关文献进行整理及归纳,为后续的研究提供参考。
二、数据来源及相关统计分析
1.基于国家社会科学基金项目的趋势分析。通过检索国社科基金数据库、国社科基金官网等网址,总结出2010—2019 年度有关数字人文的国社科基金项目总体趋势和学科分布(图1、图2)。据不完全统计,我国最早的数字人文国家社会科学基金项目是从2010 年开始的,总体呈现增长趋势,高等院校对于数字人文的研究占比达到95%以上,属于主导力量。学科分布图显示,关于数字人文的研究主要集中在图情档领域,但语言学、新闻传播学、统计学、政治学也会有所涉及。其中2017 年和2019 年的项目最多,分别达到6 项和8 项。
图1 2010—2019 年度关于数字人文国家社会科学立项总体趋势图
图2 2010—2019 年度关于数字人文国家社会科学立项学科分布图
2.文献分析。
(1)数据来源。在大陆学者方面,选取了中国知网作为文献来源,时间截至2019 年,检索范围为图情档核心期刊(包括C 刊及北大核心)。其中图情档领域的检索条件为:主题=数字人文或者题名=数字人文或者关键词=数字人文,采用模糊匹配。经过手工筛选,最终得到有效文献187 篇。在中国台湾地区文献方面,通过检索台湾学术期刊在线数据库以及台湾学术文献数据库,检索条件为:主题=数位人文,共得到有效文献32 篇。
(2)文献总体趋势分析。本节主要对中国大陆及台湾地区的文献总体趋势进行分析。经过对知网图书情报领域的187 篇文献进行整理,发现我国图书情报领域最早出现有关数字人文的文献是在2006 年,2007 至2011 年的发文量并没有增长,依旧是保持在每年1 篇文章左右,2012 年的发文数量仅增长了1 篇。从2014年到2019 年文章出现了大幅度的增长。
相较于图情领域,档案领域在数字人文方面的研究起步较晚,直到2015 年才有相关文章出现,2017 年到2019 年文献数量较之前有增长,但发文数量依然较少,相较之前增长了11 篇,截至2019 年底有12 篇文献。
(3)文献的可视化分析。关键词出现的频次代表着当前的研究热度,并与之呈正相关关系,本文将摘要中的关键词抽取出来,构建关键词聚类网络。从表1 可以看出,数字人文与图书馆结合紧密,衍生出了关于高校图书馆、数字图书馆以及图书馆服务的相关研究。“美国”作为关键词的频次达到了11 次,说明美国在数字人文方面的研究一直以来为学者们带来很多启示。“知识图谱”“关联数据”“科研支持”“数字学术中心”这几个关键词频率达到了4 次,并且出现于2016—2018年,属于近几年数字人文研究的新兴领域。“档案”一词出现较晚,且频率仅为2 次,再一次表明数字人文在档案领域正处于起步阶段,相关研究相较于图情领域数量较少。从中心度来看,高校图书馆达到了0.46,并且与多个关键词联系紧密,表明学者多以高校图书馆为出发点研究数字人文的发展。
对于中国台湾地区文献方面,本文仅对台湾文献关键词进行分析(表2),通过分析高频率关键词,除“数位人文”“数位人文学”等关键词之外,“数位典藏”出现次数最多,频率达到了8 次,表明台湾学者一直以来将数位典藏作为研究的重点领域,在后面的综述中也会针对数位典藏进行阐述。通过对其他关键词进行分析后发现,台湾学者对于传统文化方面的研究甚多,佛教艺术、山水画等均为其研究对象。在与国外数字人文发展对比研究方面,我国台湾学者多选用东亚国家进行对比,比如日本等国,这与大陆学者多与欧美国家对比不同。关键词中的教学模式、课程评监等词表明台湾已将数位人文课程融入到了教育教学中,并且产生了教学研究成果。
表1 按频次与中心度关键词排名前11
表2 中国台湾地区文献关键词汇总
综上,作者对我国图情档领域有关数字人文的文献进行了定量分析,下面从定性的角度对所搜集的187篇文献进行归类。
三、图书情报领域数字人文文献综述
1.基于数字人文的图书馆特色馆藏建设。国内图书馆已开始对特色馆藏进行数字化,并开发了相关数据库,本章主要从特色馆藏数字化的对象进行分类,分为典藏文献数字化、古籍数字化以及上海图书馆的家谱数据库与名人手稿档案库数字化三个方面来进行阐述。
(1)典藏文献数字化。张毅[1]和程静[2]在文章中使用了地理信息系统进行研究。两位以华东师范大学图书馆特藏方志数据库建设为例,利用文本挖掘、GIS、可视化、关联数据等技术在时间和空间两个维度对方志资源进行揭示。而蔡迎春[3]将馆藏民国文献的整理与研究作为突破口,把“原版民国时期文献”和新中国成立后出版的“新版民国时期文献”结合起来,同样利用了GIS 系统及其他工具建设了能充分揭示民国时期文献及整理的数据库。除利用GIS 系统外,鲁丹[4]还借鉴DPLA 整合的方法,以全国师范大学图书馆联盟的异构特藏资源为基础,设计了数字人文系统平台。
徽州文书被称作“中国历史文化第五大发现”,时间最早可以追溯到宋代。汤萌[5]等人以徽州文书为对象,探索利用元数据与主题法结合的组织方法深度揭示资源内容并实现半自动标引。王蕾[6]认为中山大学图书馆有丰富的馆藏徽州文书资源, 可以组建历史文献数字人文研究平台,进一步开展徽州文书元数据标准方案研究。
中国台湾学者对于数位典藏的研究一直以来都排在世界的前列,而且还融入了教育教学之中。林国隆[7]将摘述已经完成开发的“以融入课程教学的屏东地方文史资源数字典藏”的七个地方文史网站内容,并以其中获奖的屏东崇兰“萧氏家庙”为例,对融入课程教学的地方文史资源数字典藏的相关内容进行了说明。
(2)古籍数字化。学者多以构建古籍研究平台对古籍进行开发。卢彤[8]通过网络访问、亲身体验与文献调研,考察了中文古籍数字化成果辅助人文学术研究的功能,这种将学术传统与信息技术融合在一起的开发模式,将是未来古籍数字化的发展方向。范佳[9]认为古籍数字化工作是数字图书馆建设的一个重要环节,应该从文本挖掘、GIS 技术、文本可视化和古籍语料库四个方面进行古籍数字化的深度开发。
(3)家谱数据库与名人手稿档案库数字化。夏翠娟[10]以上海图书馆家谱数据库中的“上川明经胡氏”和“湖广填四川”为例,详细展示了关联数据在数字人文研究中的作用和用法。作者在另一篇文章中以“名人手稿档案库”为例,结合多年来数字人文项目的探索与实践经验,从数字人文项目的建设方法、建设流程以及技术框架三方面梳理总结面向知识服务的图书馆数字人文项目的建设过程[11]1。
2.基于数字人文的服务。数字人文的服务主要体现在图书馆知识服务、学术服务以及科研服务三个方面。
(1)国外数字人文服务的借鉴。查阅相关文献,国外主要以图书馆机构为主体开展服务。田燕飞[12]采用网络调查法与案例分析法,选取美国十家高校图书馆,从数字人文咨询服务、数据管理、技术支持及协助申请资金等方面进行研究,认为我国应注重多机构和跨学科合作、加强数字人文资金的引进以及建立专业数字人文研究平台。同样,唐乐[13]通过调研美国耶鲁大学图书馆数字人文服务,得出结论认为我国高校图书馆应改造空间,积极与校内外机构寻求合作,支持用户对外学习交流。
(2)图书馆知识服务模式。图书馆的知识服务主要体现在构建相关模式以及实现馆员与用户的精准对接这两个方面。王新雨[14]分析了数字人文对图书馆服务创新的促进作用,从丰富知识服务产品形态、优化文献资源整合、发挥数字人文馆员作用等方面提出面向数字人文的知识服务策略,构建了面向数字人文的图书馆知识服务模式。孙辉[15]认为在新型科研信息环境中,应有效构建图书馆学科馆员与用户之间的深度对接和精准服务,深挖需求,提供信息资源保障和数据密集型科研能力保障。
(3)基于数字人文的学术服务。基于数字人文的学术服务主要包括学科服务与科研服务。在学科服务方面,李立睿[16]认为高校图书馆可以从重视用户个性需求内容识别、以协同化模式推动服务进程、加强综合化服务联盟构建等方面深化数字学术服务发展。王晓阳[17]重点以哈佛大学开展的培训项目“数字学术基础(FDS)”工作坊为案例,梳理和分析了哈佛大学组织开展数字学术培训项目的构建机制与内容。
对于图书馆科研服务方面,黄钰新[18]和赖永忠[19]在文章中对此均有研究。前者在解读数字人文与图书馆关系的基础上, 揭示图书馆在数字人文中的作用及角色,构建嵌入数字人文过程的图书馆科研数据服务模式并阐述服务内容。后者在解读数字人文概念的基础上,分析图书馆支持数字人文的内在逻辑并提出了相应的科研支持服务体系。
3.基于数字人文技术在不同领域的实践。上文对于数字人文的图书馆馆藏建设和服务进行了阐述,本章以数字人文的实践方法为划分依据,分别从视觉模型研究、知识图谱以及众包平台三个方面进行概述,提供了数字人文研究的新思路与新方法。
(1)视觉模型研究。关于数字人文视觉的领域,学者们通常采用构造相关模型的方法来进行研究。秦思琪[20]基于深度学习方法和哈希方法构建了面向数字人文的图像语义特征提取模型。周知[21]提出了一种面向数字人文视觉资源的语义知识层次化聚合服务模型,并且对聚合服务体系提出对应的服务保障方案。曾子明[22]提出了一种基于关联数据的数字人文视觉资源知识组织模型,并以敦煌文化遗产为具体案例进行进一步的说明与解释。
(2)知识图谱。许鑫[23]选取了三个文献集和两个引文文本集,通过构建两个无向的关键词共现网络和两个有向的基于文献引证的关键词网络,揭示数字人文的研究重点、核心领域与核心技术。周莉娜[24]等人在对领域知识服务需求进行调研的基础上,设计出了相关本体模型,采用知识抽取、知识融合、知识推理等技术自动构建唐诗知识图谱,实现了对大规模唐诗数据的语义化处理,为唐诗的研究方向提供新的思路。
此外,除国内特色资源的案例外,崔春[25]通过爵士历史的数字档案揭示音乐家之间的关系以及他们在爵士领域的社交网络,介绍了关联爵士项目产生的背景、具体内容、开发步骤以及项目中的关键问题。我国台湾的方瑀绅[26]通过Web of Science 资料库所收纳期刊发表的SL(“第二生命”数位学习平台)文献为对象,通过共被引知识图谱呈现的均衡分散现象,得出了SL 研究领域尚未形成自身独特的核心群集的结论。
(3)众包平台。众包平台是近些年提出的一个新思路,但是国内学者对此的研究不算是很多。韩文婷[27]以盛宣怀档案众包抄录项目为例,探讨了在不同任务复杂度和领域知识水平下,众包抄录任务绩效的差异,为国内数字人文类众包平台的建设提供了在任务设计、参与者招募及任务匹配方面的建议。
4.基于数字人文的教育。
(1)图书馆数字人文教育。本章中学者们多以国外图书馆的数字人文教育与国内图书馆数字人文教育的现状进行调研及对比,面向对象主要是社会公众和学生。肖平[28]通过塞勒姆州立大学图书馆的本科生数字实习计划、密歇根州立大学图书馆的数字人文社区活动以及亚利桑那大学图书馆的ISpace 场所建设这三个实际案例,探讨了高校图书馆参与数字人文教育服务实践的途径。先卫红[29]总结了国外图书馆数字人文教育许多成功案例。如加州大学欧文分校揭示了图书馆如何支持数字人文教研的有效方法,澳大利亚国立大学创建数字徽章项目等,她认为要通过创新创业素养教育、建设协同创新服务系统以及构建数字人文创客空间三种教育形式来实现图书馆的数字人文教育。杨晓雯[30]分析了高校图书馆开展数字人文教育的动因,随后通过调研美国20 个高校图书馆、ARL 相关报告和文献,认为我国开展高校图书馆教育是使命要求。
(2)高校数字人文教育。数字人文教育不能只局限于图书馆,高校也要加强对学生在数字人文领域培养。吴加琪[31]等人对国外数字人文专业研究生教育的部门设置、学位授予、培养力量、课程体系、职业发展等进行调查分析,提出我国应该以图书情报学科为主体开展数字人文教育、丰富数字人文专业教育形式、加强数字人文课程整合、发挥数字人文研究中心作用等解决方案。在国内数字人文教育的实践方面,王涛[32]以“数字工具与世界史研究”课程为例,认为本科层次的数字人文课程体系非常重要,并且需要借助完备的课程和实践,让学生为未来的数字人文挑战做好准备。
(3)数字人文馆员培养。美国首先在高校图书馆建立起了数字学术中心来为数字人文的研究提供支持,所以培养数字人文馆员也是必不可少的一环。郑丽央[33]通过调查发现美国十所高校图书馆的数字学术馆员岗位职责中都包括了数字人文服务,并得出高校图书馆数字学术馆员队伍的建设具有岗位多样、职责明确、分工灵活、服务全面等特点。朱慧敏[34]运用文献调查法和内容分析法,指出数字人文视域下,数字人文馆员的能力构建有助于图书馆服务升级转型。
5.档案学界数字人文文献综述。
(1)数字人文与档案工作关系探讨。李子林[35]13和吴加琪[36]系统地总结了数字人文与档案工作关系,都提到了加强与数字人文中心的合作。前者还指出数字人文背景下,应发挥档案专业优势,立足人文研究需求,引入数字人文技术才能更好地推动档案开发利用工作的发展。后者通过对档案工作参与数字人文进行需求分析,提出了档案工作可以在档案原始资源提供、推进档案数字人文项目、培养数字人文档案馆员、建立合理的知识产权保护机制等方面参与数字人文建设。
(2)数字人文在档案领域的应用。在数字环境下,关于档案资源的整合也是学者们广泛关注的主题。张卫东[37]等人认为现代信息技术的不断演进和发展为档案资源整合工作提出了更多可供探索的道路,数据驱动环境下的档案资源整合、档案智慧数据的整合与应用、馆藏史料的数字化编研等领域可能成为未来的研究和工作重点。
还有学者举出实际案例来探讨数字人文在档案领域的应用。例如,邹燕琴[38]以地方特色档案为研究对象,从社会记忆视域下地方特色数字档案资源开发模式的转变、社会记忆视域下地方特色数字档案资源的开发路径两大方面为构建完整的社会记忆提供借鉴。对于声像档案的利用,张美芳[39]提出面向数字人文的声像档案资源组织方法,构建了从数字采集到精准服务利用的模型。
(3)国外数字人文项目对档案领域的借鉴。数字人文在档案领域的实践以“威尼斯时光机”和“暗影之谷”较为著名。董聪颖[40]在文章中提到“威尼斯时光机”的案例,提出了数字人文视野下对档案信息资源开发利用的影响、档案资源的开发模式以及探索路径。赵生辉[41]深入研究了“影谷”项目,在此基础上认为应该积极参与“国家数字人文基础设施建设工程”的规划,建立档案领域数字人文项目的资助和认证体系,鼓励历史和档案领域研究机构依托优势开发数字人文项目。
通过对相关文献进行分析发现,国内图情档领域对于数字人文方面的研究还多集中于借鉴国外成果,并没有形成一个完整的研究体系。另外,相关文献仍然多以理论研究为主,缺乏相应的实践。现在的数字人文还处于不断的探索和发展阶段,仅有理论的支撑是不够的,高校可以聘请相关领域的专家,如计算机专家、历史学专家开展合作与交流,进行人文学与技术的深入合作。
随着大数据时代的到来,图情档领域学者们的研究内容也发生了相应的转变,关于数字人文的研究在这个时代脱颖而出。正如在2019 年“图书情报与档案管理研究生教育论坛及2019 图书情报与档案管理青年学者论坛”中马费成、冯惠玲等学者提到的:现在的图情档学界正在面临着变革,既要保留自身的特点,又要和其他领域展开协作。数字人文就是这样一种研究方式,通过计算机技术与传统人文学科进行深度融合,这就需要培养更多的高素质人才,才能更好地适应未来社会的发展。