2020年—2022年档案学界与图书情报学界开展数字人文研究的比较分析
2023-09-04豆志磊
摘 要:运用文献计量方法,对国内图书情报与档案管理专业数字人文研究的现状进行了梳理归纳,之后通过主题分析法,对各自的研究方向进行汇总,归纳三个专业数字人文研究现状,进而对档案类和图情类期刊在数字人文方面主要研究方向进行了对比分析。在此基础上,对档案专业相较于图情专业在数字人文領域研究中的不足分析其原因,并提出加大数字人文工具在档案专业的应用,进一步推进档案开放审核等举措,以进一步加大档案资源开发力度。
关键词:数字人文;档案学;图书馆学;情报学;资源开发;机器学习;知识图谱;开放利用
Abstract: By using the method of bibliometrics, this paper reviews the current situation of digital humanities research in the domestic library science, information science and archival science, analyzes their research directions through the thematic analysis method, and makes a comparison between the archival science journals and periodicals of library and information science in the field of digital humanities. On this basis, this paper analyzes the deficiencies in the archival research and proposes initiatives such as increasing the application of digital humanities tools in the archival profession and further promoting the opening audit of archives so as to further increase the development of archival resources.
Keywords: Digital humanities; Archival science; Library science; Information science; Resource development; Machine learning; Knowledge graph; Open utilization
数字人文是对人文科学与计算机科学交叉领域进行研究,出现时间短,研究热度高,引起图情档专业学者的广泛关注。孙鸣蕾等[1]对2010年至2019年数字人文在图情档专业的研究情况进行了综述,笔者在此基础上,对2020年至2022年国内图情档期刊上的数字人文研究成果进行了梳理、分析,为后续研究提供借鉴。
1 文献定量分析
1.1 数据来源。笔者以中国知网为文献来源,时间选自2020年至2022年,检索范围为图情档专业期刊。检索条件为:主题=数字人文,采用模糊匹配,共检索出文献843篇。经手工筛选,最终在档案专业期刊中得到目标文献155篇,图情专业期刊中得到目标文献280篇。
1.2 文献年度发表数量趋势分析。档案专业期刊2020年发表论文49篇,2021年60篇,2022年46篇,呈现先增后减的态势,增长率由22.4%变为-23.3%,短期内对数字人文的研究呈下降趋势。图情专业期刊2020年发表论文71篇,2021年90篇,2022年118篇,呈逐年递增趋势,且增速由26.8%增至31.1%,显示出图情专业在数字人文领域的研究处于上升且加速过程中。对比二者,档案专业在这一领域的研究短期内处于降温状态,图情专业则处于持续升温中。
1.3 发文期刊数量分析。由于档案专业与图情专业在从业人数、期刊数量上各有其特点,单纯比较发文数量显然有失客观,以期均刊载数字人文方面的文献可较好地反映发文密度,进而反映出研究者在这一领域成果多寡。基于此,笔者对三年内刊载数字人文领域文献排名前三的期刊及其平均刊载量进行了统计。其中档案专业期刊共18本,刊载数字人文文献最多的期刊为《山西档案》,三年内共刊载25篇,约1.39篇/期。其次为《兰台世界》,共刊载18篇,约0.50篇/期,《档案学研究》《档案管理》《黑龙江档案》并列刊载量第三,均为13篇,期均刊载量均为0.72。具体排名如表1所示。
图情专业共37本期刊刊载数字人文领域的文献,刊载最多的期刊为《图书馆论坛》,共计34篇,约0.94篇/期;其次为《大学图书馆学报》,刊载33篇,约1.83篇/期;排名第三的为《图书馆杂志》,刊载28篇,约0.78篇/期。具体如表2所示。
对比上述数据可知,档案专业在总发文量及平均发文量方面均低于图情专业。
1.4 作者分析
1.4.1 独著与联合作者对比。档案专业期刊有65篇文献为独著,两人合著的文献59篇,三人合著的文献22篇,四人合著的文献7篇,五人及六人合著的文献均为1篇。合作研究成果约是单独研究的1.38倍,显见在这一领域学者展现出强烈的合作研究特点,且以两人联合开展研究为主。
图情专业期刊有81篇独著文献,两人合著的89篇,三人合著的42篇,四人合著的39篇,五人合著的17篇,六人合著的7篇,七人合著的3篇,十一人合著的1篇。联合发表论文数量约是单独发表论文数量的2.44倍。
对比档案与图情专业,共同点是在这一领域的研究均以联合研究为主,且以两人联合开展研究居多。不同之处为图情专业学者三人以上联合研究的数量较档案专业更高,合作开展研究力度更大,且不乏中外学者联合开展研究的成果。
1.4.2 发文数量前十名作者分析。如表3所示,档案类期刊发文量排名前十的作者共18人(部分作者发文数量相同),发文最多的作者是张卫东,三年内共发表该领域论文10篇,其次是邓君,发表5篇;左娜、李子林、李姗姗分别发表4篇,赵瑞红、谢巍弘、王玉珏等分别发表3篇。其中,除李子林来自科研院所外,其他作者均来自高校,且张卫东、邓君、左娜三人均来自吉林大学。可见这一领域研究者中以高校为主,同时吉林大学学者在这一领域研究成果更为丰富。
图情专业期刊发文量前十的作者共12人(部分作者发文数量相同),发文数量最多的是王东波,共发表文章20篇,排名第二的刘炜共发表文章11篇,陈涛、李斌各自发表10篇文章,并列第三。其中,发文量前十的学者除刘炜、夏翠娟来自科研院所外,其他研究者均来自高校。
对比档案和图情专业期刊学者及其发文量可知,以高校学者为主是图情档专业的在这一领域研究的共性。但是,图情专业的发文量不论是单个作者还是总体数量,都是档案专业的一倍及以上,展现出更有广度和深度的研究特点。值得一提的是,邓君在档案专业期刊和图情专业期刊上分别发表5篇和9篇文章,体现出较强的跨学科研究能力。
2 档案专业研究主题分析
在研究主题方面,通过人工标注,档案专业期刊共15个主题,分别涉及档案资源开发、档案利用、学科融合等。从文献分布来看,基于数字人文的档案资源开发是目前研究的重点,一定程度上也代表着檔案专业目前主要的研究方向。因此,笔者重点对档案资源开发的研究内容进行分析,并与图情专业占比第一的研究主体进行比较,以便分析二者在数字人文领域主要研究方向上的异同。
2.1 红色档案资源开发。赵红颖、张卫东[2]以综合网络化、广泛社会化和深度智慧化为原则,提出红色档案资源开发的一种模式,即首先构建标准的红色档案资源体系,实现档案资源的数据化,在此基础上构建多个叙事角度,由此实现讲好中国故事的目的。薛文萍、周昊[3、4]等以沂蒙红嫂档案为例,指出当前档案领域在红色档案资源开发中存在的开发方式单一、受众面较小、内容挖掘深度不够等问题,提出以数字人文为工具,构建红色档案资源数据库,在此基础上进行数据挖掘,提炼出多层次的信息资源,形成红色档案资源利用的新思路。刘晓芯、杨不为[5]等采用样本观察、概念分析、问卷调研等方法,在梳理红色档案资源的概念、类型基础上,以延安数字档案资源为样本,对其开发与保护状况以及大学生群体获取红色档案资源的渠道、偏好、接受程度、价值认知、资源开发障碍等进行了实地调研,进而提出明确开发目标,强化保护意识,规范开发方式,理清权责归属,建立媒体矩阵的系统性开发方式。李姗姗、罗梦涵[6]等对红色档案从形态、载体、开发程度等方面进行了多角度划分,针对不同载体的红色档案资源,通过数据提取、语义标注、关联组织等方式将其转换为数据,进而提供可视化成果、智能化服务等。陈艳红、陈晶晶[7]对全国31个省级综合档案馆的网站进行了调研,就各网站在红色档案资源开发上存在的问题进行了汇总分析,指出存在的开发主体协同不够、技术运用薄弱等问题,针对这些问题提出邀请专业团队参与资源开发,运用信息技术加强受众的沉浸式体验,打造情感依赖内容,助力红色档案开发空间化等方式。由上述学者的研究内容可以看出,以红色档案资源开发为研究对象,既契合“四史”学习教育的主旨,又较好地利用了数字人文的研究工具,为档案资源开发提供了新的思路。
2.2 高校档案资源开发。贾钧[8]从理念、途径、方法三个方面对高校体育文化档案资源的开发进行了研究,从档案管理流程的角度提出建立档案智慧管理平台,扩大档案征集范围,将可公开档案分散保存到社会上不同物理空间的服务器上,扩展档案收集范围到每一位在校和离校师生等方法。巴特、邓君[9]对高校口述历史档案建设状况进行了分析,提出准备阶段明确权责主体,完善组织、经费、人员保障,访谈阶段立足校史抢救及励志育才,实施阶段分工明确,转录整理阶段做好校对、鉴定,管理与维护过程中实现在线查询、使用和共享,增强服务的普适性,利用时可通过制作专题片、相关文化产品等扩大影响力六个推进口述历史档案建设的路径。彭荟吉[10]在分析数字人文视角下高校档案资源开发必要性基础上,提出从多重脉络、人物事关系网、社会记忆重构三个层次进行档案资源开发的方法。其他学者还从高校档案资源的特征,[11]利用文本挖掘、组织关联技术[12]等方面对高校档案资源开发工作进行了论述。由于高校学者是数字人文研究的主力,因此立足自身,对高校档案如口述历史等资源从数字人文视角提出开发方法也在情理之中。
2.3 其他方面。李姗姗、梁钰唯[13]以西部电影集团为例,构建了电影档案资源共享平台开发框架,并从资源采集等五个方面提出具体实施路径。李思琪、孙志莹[14]从学科融合、资源特点和技术重塑三方面分析了数字人文与地图档案开发的契合点,并提出利用地图档案构建新型虚拟城市艺术地图等档案资源开发视角。这些研究方向或立足具体案例,或进行理论推演,在研究对象的选择上呈现出多样性,也为档案资源开发方法提供了更多可能性。
综上,79篇文章中涉及档案资源开发的占比51%。
3 图情专业研究主题分析
图情专业期刊文献经手工标注,共有16个主题,分别涉及技术运用、案例研究等。从文献分布来看,利用数字人文领域的工具对文献进行语义分析是研究的一个主要方面。
图情专业期刊文献中,共有52篇文章涉及技术运用,占比19%。
3.1 BERT预训练模型。利用SikuBERT预训练模型进行文献分析是此类研究的一个热点。林立涛、王东波[15]等以25部经人工标注动物命名的先秦文献作为语料,对由BERT预训练模型发展而来的系列模型进行训练,构建出古代典籍动物命名实体模型,并在此基础上以《史记》作为测试文献进行试验,达到预期效果。刘畅、王东波[16]等运用四种学习模型,以春秋至魏晋时期的六部有代表性的古籍为学习语料进行古文献分词技术研究。刘江峰、冯钰童[17]等以《史记》《汉书》《后汉书》《三国志》《左传》为语料,对BERT-base、RoBERTa、GuwenBERT、SikuBERT、SikuRoBERTa五种预训练模型在构建人名、地名、时间等命名实体上的优缺点进行了比较分析,由此构建了基于SikuBERT的典籍命名实体识别软件,为古籍信息挖掘提供了参考。徐润华、王东波[18]等以《资治通鉴》为语料,利用SikuBERT预训练模型自动生成摘要,并将其与百度智能云摘要等进行对比,验证了数字人文技术对古文进行自动摘要方面的优越性。耿云冬[19]、李斌[20]等学者也进行了类似研究,为古籍的深度开发提供了较为可行的方法。
3.2 知识图谱构建。王阮、邓君[21]以国家图书馆馆藏的东北抗联战士口述历史档案为数据源,利用数字人文技术构建口述档案资源的知识图谱模型,为口述历史档案资源开发提供了新途径。崔倩倩[22]利用CiteSpace软件对中国知网和Web of Science中主体为数字人文的文献进行了可视化分析,构建出数字人文研究的热点及该领域研究趋势。徐孝娟、孙爱华[23]等利用知识本体和知识图谱对皖西红色档案进行了关联、聚合,较好地证明了数字人文方法在红色档案资源开发中的作用。宋雪雁、霍晓楠[24]等利用社会网络分析法对《全唐诗》中贬谪诗人数据进行采集、清洗、可视化呈现。同时还利用计量统计法、QGIS地理信息系统对贬谪诗人的时空信息进行可视化呈现,为历史、文学研究提供了新线索。[25]这些研究体现出借助数字人文领域的研究工具进行图书文献资源开发的可行性。
4 档案与图情专业在数字人文领域的研究比较分析
对比档案专业和图情专业各自的主要研究方向,其研究共同之处主要体现在研究对象和研究目的上。研究对象上,三个学科均涉及古文献、红色档案、口述档案等,作为以信息管理为主要研究对象的学科,这一共同点实属必然,相应会存在同一学者在三个专业的期刊上均有文献发表的情形;研究目的上,均致力于利用数字人文技术对档案或文献进行资源开发,通过机器学习提高信息资源开发的效率,最终形成一套可行的方法、路径,不同之处主要有三方面。
一是档案专业主要聚焦于方法设计上,具体技术手段应用研究较少。而图情专业既有方法设计,又有具体技术手段的应用研究,研究层次更加丰富,对实践的指导性也更强。比如前述图情专业相关学者以及胡昊天、张逸勤[26]、王东波、刘畅等[27]众多学者较多地使用自然语言处理工具对文献进行预训练,以提高数据挖掘的效率、维度。
二是档案专业学者多立足自身可接触的资源进行研究,缺少国际视域下类似项目的研究分析。而图情专业在立足自身可挖掘的文献资源研究基础上,对国内外类似项目也进行了对比、分析,研究范围更广。徐彤阳、祁璇[28]对印度文学与艺术、数字历史、数字人文工具与平台开发等方面具有代表性的数字人文项目进行了系统梳理,并根据印度数字人文项目多向合作等特征,提出发挥自身资源优势,激发创造性,全面开展数字人文建设等启示。张素芳、张向怡虹[29]对美国国会图书馆的By the People众包项目进行了个案分析,总结了图书馆在进行数字人文项目众包时招募、培训、激励志愿者的手段,提出制定规划、明确定位、多途径激励、分阶段培训等众包项目实施建议。刘凌宇[30]以美国塞勒姆州立大学图书馆的数字人文项目为例,总结出其定位明确、注重馆藏特色资源开发、关注信息化技术运用以及优化师生项目合作方式等特征,提出在推进数字人文项目时可充分发挥中介作用,合理规划项目资源,制订多样化的培养计划,促进图书馆资源高效开发。还有其他学者对德国[31]、新加坡[32]、加拿大[33]、日本[34]等国的数字人文项目进行了系统研究,为我国数字人文发展提供了参考对象和发展思路。
三是档案专业在研究数字人文技术开展信息挖掘的同时,对信息内容及载体的安全性也给予了关注,而图情专业较少涉及。周耀林、吴化[35]从数字人文的角度对少数民族档案文献的保护从改善保存条件、加大保管力度、更新保护观念、拓展实践视野的角度提出对应的发展思路。王灿荣、刘喜球[36]提出通过采集口述档案、建立非遗数据库、开展信息共享等方法抢救性保护土家族文字、语言以及民间仪式传承人等民族文化。秦垒、姬荣伟[37]认为老字号档案可与数字人文结合进行资源开发,提出强化政府主导、扩大资源储备、应用数字技术、加大社会宣传等手段以保护老字号档案。还有其他学者从古籍资源保护等角度对数字人文背景下档案资源的保护提出了相关措施,为档案资源的长久保存提供了新举措、新路径。[38]
5 分析与展望
笔者认为,存在上述三方面差异的原因,与图情专业的研究对象多是公开文献,可集中精力提高其数据的结构化、易用性及传播便捷性,不需考虑数据的安全性保障以及信息的受控范围等因素有关。而档案专业在以档案为研究客体时,囿于其开放范围限制,语料选择受限,导致其研究多处于方法设计层面。因此,较之图情专业,档案专业为提高资源开发的广度和深度,除积极借鉴图情专业的研究成果,利用数字人文工具对档案资源进行更高效、更有深度的挖掘外,还可在相关法规规制下,进一步加大对档案资源的开放程度、程序方面的研究,分析档案开放利用中的权利矛盾,公众、档案馆、利用者在开放审核中的角色定位,促进档案资源精准开放,提高档案开放审核效率,为机器学习、知识库建设奠定更为坚实的资源基础。
参考文献:
[1]孙鸣蕾,房小可,陈忻.图书情报档案领域数字人文研究综述[J].兰台世界,2021(04):117-121+125.
[2]赵红颖,张卫东.数字人文视角下的红色档案资源组织:数据化、情境化与故事化[J].档案与建设,2021(07):33-36.
[3]薛文萍,周昊,王昊,谭必勇.数字人文視角下的红色档案资源建设——以沂蒙红嫂档案为例[J].山西档案,2020(02):85-91.
[4]王昊,薛文萍,周昊,谭必勇.数字人文视角下的红色文化传承——以红嫂精神为例[J].山西档案,2020(02):92-100.
[5]刘晓芯,杨不为,罗梦涵,李姗姗.数字人文视域下延安数字红色记忆资源的开发与保护[J].陕西档案,2021(02):24-26+29.
[6]李姗姗,罗梦涵,崔璐.数字人文视域下多模态红色记忆资源知识聚合与开发[J].档案与建设,2022(06):33-36.
[7]陈艳红,陈晶晶.数字人文视域下档案馆红色档案资源开发的时代价值与路径选择[J].档案学研究,2022(03):68-75.
[8]贾钧.数字人文视域下高校体育文化档案资源建设探讨[J].档案管理,2022(05):90-93.
[9]巴特,邓君.数字人文视域下我国高校口述校史档案建设路径思考[J].兰台世界,2020,No.572(06):31-34.
[10]彭荟吉.数字人文视阈下高校档案信息资源体系的开发与应用[J].城建档案,2021(03):42-44.
[11]曹晨.数字人文视域下高校档案资源的开发与利用[J].兰台世界,2022(10):116-118.
[12]赵瑞红,陈香.数字人文视域下高校校史研究新模式探析[J].兰台内外,2021,No.327(18):79-80.
[13]李姗姗,梁钰唯.数字人文视域下电影档案资源的建构与开发[J].档案学研究,2021(02):68-74.
[14]李思琪,孙志莹.数字人文视阈下地图档案资源开发探究[J].中国档案研究,2020(02):115-127.
[15]林立涛,王东波,刘江峰等.数字人文视域下典籍动物命名实体识别研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(10):42-50.
[16]刘畅,王东波,胡昊天等.面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(06):44-54.
[17]刘江峰,冯钰童,王东波等.数字人文视域下SikuBERT增强的史籍实体识别研究[J].图书馆论坛,2022,42(10):61-72.
[18]徐润华,王东波,刘欢,梁媛,陈康.面向古籍数字人文的《资治通鉴》自动摘要研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(12):129-137.
[19]耿云冬,张逸勤,刘欢等.面向数字人文的中国古代典籍词性自动标注研究——以SikuBERT预训练模型为例[J].图书馆论坛,2022,42(06):55-63.
[20]李斌,王璐,陈小荷等.数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例[J].大学图书馆学报,2020,38(05):72-80+90.
[21]王阮,邓君.数字人文视域下口述记忆资源知识图谱构建研究[J].现代情报,2022,42(02):22-33.
[22]崔倩倩.基于知识图谱的国内外数字人文研究可视化分析[J].图书馆界,2020,No.179(06):48-54+65.
[23]徐孝娟,孙爱华,史如菊等.数字人文视角下皖西红色文献知识本体及其应用[J/OL].图书馆论坛:1-14[2023-03-05].http://kns.cnki.net/kcms/detail/44.1306.G2.202212261 056.002.html.
[24]宋雪雁,霍晓楠,刘寅鹏等.数字人文视角下《全唐诗》贬谪诗人社会关系研究[J].现代情报,2022,42(02):14-21.
[25]宋雪雁,霍晓楠,刘寅鹏等.数字人文视角下《全唐诗》贬谪诗人的时空轨迹分析[J].图书情报工作,2022,66(07):26-34.
[26]胡昊天,张逸勤,邓三鸿等.面向数字人文的《四库全书》子部自动分类研究——以SikuBERT和SikuRoBERTa预训练模型为例[J].图书馆论坛,2022,42(12):138-148.
[27]王东波,刘畅,朱子赫等.SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究[J].图书馆论坛,2022,42(06):31-43.
[28]徐彤阳,祁璇.印度数字人文项目探析及启示[J].图书馆工作与研究,2022,No.315(05):59-65.
[29]张素芳,张向怡虹.图书馆数字人文类众包项目志愿者服务模式研究——以By the People项目为例[J].图书馆学研究,2022,No.519(04):94-101.
[30]刘凌宇.美国高校图书馆微型数字人文实践及启示——以塞勒姆州立大学为例[J].四川图书馆学报,2022,No.249(05):84-91.
[31]徐彤阳,王淑怡.多样合作与机构引导:德国数字人文项目特点及启示探析[J].图书馆建设,2022,No.316(04):92-101+146.)
[32]徐彤阳,贾翠淋.新加坡数字人文项目特点解析及启示[J].图书馆,2021,No.327(12):39-46.
[33]徐彤阳,黄映思.多元文化视域下加拿大数字人文项目调查概述[J].图书馆,2022,No.331(04):50-59.
[34]徐彤阳,顾婷婷.日本数字人文项目探析和启示[J].国家图书馆学刊,2021,30(03):88-99.
[35]周耀林,吳化.数字人文视野下少数民族档案文献遗产数字化保护研究[J].档案学研究,2022,No.188(05):123-129.
[36]王灿荣,刘喜球.数字人文视域下土家族濒危民间仪式保护与传承研究[J].兰台世界,2022,No.599(09):48-51.
[37]秦垒,姬荣伟.数字人文背景下老字号档案的保护与开发探索[J].北京档案,2022,No.373(01):29-31.
[38]张会芳.数字人文时代图书馆古籍文献资源的数字化长期保存机制分析[J].办公室业务,2020,No.350(21):191-192.
(作者单位:漯河职业技术学院 豆志磊,硕士,馆员 来稿日期:2023-04-20)