APP下载

基于文献计量的国内数字人文研究综述

2022-08-01李思雨邹鼎杰

图书馆学刊 2022年6期
关键词:人文领域文献

平 硕 李思雨 邹鼎杰

(国防大学政治学院军事信息与网络舆论系,上海 200433)

1 引言

数字人文起源于“人文计算”,是近年来人文社会科学与计算机技术、数字技术相互融合的新型跨学科研究领域。2004 年约翰·昂斯沃思(John Unsworth)等专家编写的《数字人文指南》是最早系统研究数字人文的著作[1]。在2009 年的现代语言协会年会(the Modern Language Association)上,“数字人文”作为新兴研究领域逐渐获得北美人文学界认可;同年,武汉大学王晓光教授发表的《“数字人文”的产生、发展与前沿》[2]最早将数字人文概念引入国内。随着研究的深入,国内外学者逐渐发现将数字技术应用到人文学科的重要价值——通过信息技术手段重塑和改造人文知识,使得深奥的人文知识被普通大众更好地理解和利用,进而提升人文学科的社会影响力[3]。数字人文连续3年(2018 年[4]、2019 年[5]、2020 年[6])入选图情档学界研究热点问题;冯惠玲[7]等权威专家将“档案与数字人文”作为展望“十四五”期间档案学重点研究领域之一,足以说明数字人文研究的重要意义。笔者运用网络爬虫爬取中国知网上的800 余篇数字人文文献,运用文献计量方法对文献进行分析,并进一步剖析现象、分析原因、提炼本质,发现数字人文研究发展规律,为开展数字人文研究提供思路。

2 数据来源和研究方法

2.1 数据来源

以中国知网为文献来源,运用普通检索策略,以篇名为检索点、“数字人文”为检索词,检索日期为 2021 年 11 月 9 日,检索得到 852 篇文献。运用“八爪鱼”网络数据采集器,自动采集852篇文献的题名、作者、来源、发表时间、数据库、被引、下载共7 项元数据,以Excel 形式导出,用于后续数据分析。

2.2 研究方法

笔者以文献计量方法为总体思路,对数字人文研究文献的发表时间、发表刊物、题名、作者、被引量、下载量等外部特征进行描述和分析,评价、预测数字人文研究发展现状和趋势。对于发表时间,主要考察历年发文量分布,描述分析数字人文研究发展趋势;对于发表刊物,考察数字人文的主要研究刊物、学科分布以及交叉研究特征;对于作者,考察高产作者以及作者合著网络,分析数字人文领域研究学术群体;对于题名,运用分词和词云工具细分数字人文研究领域;对于被引量和下载量,研究高被引文献和高下载文献,证实高被引和高下载的相关性,分析文献高被引和高下载的原因。

3 结果与分析

3.1 时间分布特征分析

以文献发表年份为横坐标,该年发表文献数量为纵坐标,绘制出文献发表数量趋势曲线图(见图1)。从图中可以看到,国内数字人文研究可以分为3个阶段。第一阶段为萌芽阶段(2005—2010年),该阶段除2005 年发表过1 篇包含数字人文术语的文献外,其余年份均没有相关论文发表;第二阶段为起步阶段(2011—2015 年),该阶段每年有数篇数字人文研究文献发表,但总量不多、体系性不强;第三阶段为迅猛发展阶段(2016 年至今),自2016 年发表36 篇文献开始,数字人文研究逐渐受到越来越多学者的关注,发表文献数量在2020 年达到峰值248 篇,5 年平均增幅达31.6%。截至检索日期,2021 年已经发表文献195 篇。可以预见,2021年数字人文相关文献数量将不会低于2020年。

图1 文献发表数量趋势曲线

在萌芽阶段,国内数字人文相关研究文献并不多见,笔者检索到2005 年廖祥忠在《现代传播》发表的《“超越逻辑”:数字人文的时代特征》是最早提及“数字人文”这一术语的文章,但其主要探讨数字化时代数字技术与人文精神的辩证关系,文中术语“数字人文”是这两个独立概念的简单相加,并未涉及到数字人文学科的本质研究,没有继续受到学界关注。实际上,最早将数字人文概念引入国内的文章是2009年武汉大学王晓光教授发表的《“数字人文”的产生、发展与前沿》,该文发表在2009 年“教育部人文社会科学研究方法创新论坛”论文集上,同时转载于科学网王晓光的个人博客中,并未收录进中国知网。

在起步阶段,数字人文研究与各类研究中心的成立以及相关研究会议的举办密切相关。2011年,美国斯坦福大学成功举办了“2011 数字人文国际大会”;武汉大学也于此年度成立我国首个数字人文研究中心;也正是从当年开始,中国知网开始出现数字人文相关文献,该年收录的3篇文献均来源于报纸。2012 年,研究人员开始在学术期刊中发表数字人文研究成果。经历了大约5 年的起步发展以后,数字人文研究在随后的5年时间里迎来了迅猛发展期。

在迅猛发展阶段,数字人文领域的研究如火如荼。2016 年,北京大学举办首届“数字人文论坛”,国内外数字人文相关领域前沿的专家学者做了专题报告,为国内学者开拓了视野,在一定程度上促进了学术研究的深入。随后,在2018 至2020连续3年的图情档学界研究热点评选中,数字人文均获得较高关注度;2019—2021年连续召开的3届数字人文年会,也推动了数字人文研究的迅猛发展。

3.2 文献来源分析

文献来源是指文献的发布平台,典型的发布平台有各类期刊、辑刊、报纸、硕博士论文、国内外会议等。期刊是数字人文文献的主要发布平台,800 余篇文献中,747 篇文献发表在期刊,占87.6%;其他文献来源分别为辑刊43 篇,占5%;报纸27 篇,占3.2%;硕士论文27 篇,占3.2%;中国会议论文4篇,占0.5%;国际会议论文4篇,占0.5%。

重点分析文献在各类期刊中的分布特征,发现有241种期刊发布了数字人文论文,发文量排名前20的期刊如图2所示。这20种期刊总共发表数字人文相关文献361 篇,占48.2%,文献分布特征基本遵循布拉德福定律。这20 种期刊中,包含图书馆类刊物10 种,累积发表文献216 篇;档案类刊物5 种,累计发表文献75 篇;情报类刊物两种,累积发表文献28篇;图书情报两栖类刊物两种,累积发表文献32 篇;数字人文专业期刊1 种,累计发表论文19篇。其中图书馆类期刊在理论层面关注数字人文在图书馆的研究进展、角色定位、教育课程、知识服务、国内外对比研究等主题,在实践方面关注古籍文本的自然语言处理和基础设施建设等主题;情报类刊物关注视觉检索、语义知识组织、关联数据、可视化等技术方面的研究;图书情报两栖刊物介于上述两者之间,但更偏向于实践研究;档案类刊物关注数字人文在档案学科的发展、资源建设、开发利用等主题;数字人文专业期刊主要关注数字人文在人文社会科学领域的理论与实践应用。尤其是《山西档案》《图书情报工作》等期刊专门将“数字人文”列入重点选题指南。此外,清华大学的《数字人文》(2019 年12 月创刊)和中国人民大学的《数字人文研究》(2021 年1 月创刊)两本学术期刊虽创刊时间较短,但期刊的专门性更强,将会成为数字人文研究的重要平台。由此可见,图情档学科领域对数字人文的研究十分关注。

图2 重要期刊发文量排名(前20)

同时,排名在20 名之后的221 种期刊也发表了377 篇论文,例如《马克思主义理论学科研究》《中国比较文学》《中国现代文学研究丛刊》《现代中文学刊》《中国史研究动态》《中国博物馆》《中国翻译》《电影艺术》《美术观察》《外语教学》《医学信息学》《新闻界》《现代传播(中国传媒大学学报)》《中国出版》《地理研究》等哲学类、文学类、历史类、艺术类、语言类、医学类、新闻传播类、出版类、地理类核心期刊都将数字人文理念和方法融入各自研究领域。数字人文呈现明显的跨学科、跨领域研究特点。

3.3 词频分布特征分析

运用“微词云”软件对文献题名进行分词,剔除动词、介词、副词等语义特征较弱的词性,发现词频不少于两次的关键词共166个,绘制形成如图3 所示的词云。从图中可以发现,除“数字人文”外 ,“ 图 书 馆 ”“ 档 案 ”“ 高 校 ”“ 资 源 ”“ 项 目 ”“ 数 据 ”“策略”“学科”“方法”“技术”等关键词出现次数较多且字体明显,说明这些关键词是数字人文领域的研究热点。

图3 关键词词频统计文字云

进一步分析词云中高频词汇以及词汇之间的相关关系,可以发现国内数字人文研究具有以下4个特点。一是国内数字人文研究活动主要分布在高校和图书馆。800 余篇文献中,有204 篇文献题名包含“图书馆”,92篇文献题名包含“高校”,61篇文献题名包含“高校图书馆”,这些文献主要研究国内外高校及公共图书馆数字人文理论研究与实践活动。例如,上海图书馆开展了“家谱知识服务平台”“盛宣怀档案知识库”等项目实践;11所高校(武汉大学、台湾大学、曲阜师范大学、中国人民大学、北京大学、南京农业大学、南京师范大学、南京大学、上海大学、上海师范大学、清华大学)相继成立了数字人文研究中心,开展数字人文的理论与实践研究。二是研究内容主要包括各类信息资源建设与运用。有118篇文献题名包含“档案”,86篇文献题名包含“资源”,71篇文献题名包含“数据”,这些文献主要涉及对档案等各类人文信息资源的建设和开发利用。比如,董聪颖[8]以“威尼斯时光机”为例,对数字人文背景下档案信息资源开发利用进行研究;朱令俊[9]从理论、实践两个层面对档案信息资源开发模式构建和实施进行研究。三是为数字人文研究的实现提供策略、方法和路径。有43 篇文献题名包含“策略”,39 篇文献题名包含“模式”,38 篇文献题名包含“路径”。比如霍艳芳[10]等人研究城市记忆资源建设,提出了资源开发路径;牛力[11]等人提出“发现”“重构”和“故事化”三原语为主线的档案研究路径,实现了理论与实践的深度交互。四是充分考虑引入现代信息技术手段解决数字人文学科问题。有32篇文献题名包含“方法”,23篇文献题名包含“技术”,20篇文献题名包含“可视化”,这些文献通过引入地理信息系统(GIS)、虚拟现实(VR)、可视化等现代信息技术,将人文信息以更加直观和可理解的方式向大众呈现,在拓展研究思路的同时,也促进了人文学科的创新发展。比如严承希[12]等人借助符号分析方法对“中国历代人物资料库(CBDB)”进行可视化分析;欧阳剑[13]运用文本挖掘与可视化分析技术对大规模古籍文本进行研究,展现了数字人文技术在人文历史领域研究的可行性。

3.4 发文作者及合著关系分析

总共有1045 名作者发表数字人文相关文献,平均每名作者发表文献0.81篇,中位数1篇,众数1篇。根据统计验证,发现该领域不遵循洛特卡定律,领域内发表1 篇论文的作者比率约为79.8%,远远超过洛特卡定律一般公式的常数60.79%[14]。经过分析,笔者认为洛特卡定律前提是趋于稳定的学科作者发文规律,数字人文领域研究远没有达到成熟的阶段,因此发表1 篇文献的作者较多,发表两篇以上的作者较少。发文量排名前20的作者如图4所示。这些作者主要来自吉林大学、南京理工大学、南京农业大学、中国人民大学等高校,也有作者来自上海图书馆等公共图书馆。这些作者发文量较高,除了与其自身学术造诣水平高、影响力广等因素相关外,也与这些作者所在单位建立的数字人文研究中心、开展的数字人文研究实践密切相关。

图4 作者发文数量(前20)

分析作者合著关系,有448 篇文献为独立作者,占52%;247篇为2人合著,84篇为3人合著,64篇为3 人以上合著;独著文献与合著文献占比相当。考察历年文献合著情况,发现近年来合著文献超过了独著文献,说明数字人文研究的合作趋势越发显著。利用Pajek 软件绘制该领作者合著网络,发现共有201 个互不连通的子网络,其中规模为2 的子网络121 个,规模为3 的子网络36 个,规模超过3的子网络44个。

重点分析规模排名第一的子网络,该网络如图5 所示。以点度中心性和中介中心性作为度量子网中作者重要性的指标,将该子网络的作者分为4 类。(1)点度中心性和中介中心性均比较高。主要有刘炜、赵宇翔、朱庆华、夏翠娟、陈涛、单蓉蓉等,这些作者在社群中处于核心位置,在社群中的影响力最为深远,是数字人文研究的主要推动者,通常是领域专家、高校教授以及具有多所学校学习背景或多机构联合培养人才。(2)点度中心性高但中介中心性不高。主要有许鑫、徐孝娟、贺晨芝、包弼德等人,这类作者多为导师,在自己研究团队中具有较强影响力,但是与其他团队研究专家交流合作较少。(3)点度中心性不高但中介中心性高。主要有张永娟、刘周颖、仝冲、张妍、林海清等,这些作者与研究领域内点度中心性较强的作者均有合作,在协调和沟通两个相对分离的群体时可以发挥桥梁作用,并有机会提升自身的影响力,是持续进行并推广数字人文研究的重要节点。(4)点度中心性和中介中心性均不高。主要有高旭东、郭金龙、陈刚、胡莹等。这些作者多处于合著网络末梢,大多是跟随导师进行研究的学生或研究员,在数字人文研究领域处于持续学习和研究阶段。

图5 规模第1的作者合著子网络

进一步分析发现,该子网络主要包含3个研究群体。(1)以上海图书馆为主的研究群体。上海图书馆的刘炜、夏翠娟等专家在社群内具有最高的影响力,一方面由于这些专家长期研究和开发数字人文项目并在上海图书馆官方网站上提供服务,另一方面他们与南京大学、华东师范大学、上海大学、南京理工大学等高校专家进行合作研究,逐渐形成高质量学术成果,成为社群核心。(2)以南京大学信息管理系为主的研究群体。此群体内最早开展数字人文研究的是赵生辉①;点度中心性和中介中心性都较高的赵宇翔②和徐孝娟③在南京大学的学习合作奠定了持续研究的基础;陈涛④丰富的教育背景和工作经历为其研究方向打下根基。上述4位专家在南京大学毕业或离任后,在新的工作岗位上继续深耕细作,开辟了南京理工大学、安徽大学和中山大学等研究群体,为数字人文研究的推广和普及做出巨大贡献。(3)以华东师范大学信息管理系为主的研究群体。此群体内主要由许鑫⑤和其指导的本科生与研究生构成,形成了相对独立的研究群体。早在2012 年,许鑫参与指导《数字人文中的文本挖掘研究》一文,成为子网络内最早研究数字人文的专家,但此后并没有持续深入下去。究其原因,笔者认为由于其担任经济与管理学部教授,研究偏向商务数据分析和科技情报分析等方面,对于在人文学科开始兴起的数字人文研究彼时还未成研究体系,因此直到2019 年才恢复关注数字人文,并指导学生在自然语言处理方面做出研究,由于其新近研究成果较多,也因此在子网络内具有很强的影响力。

3.5 高被引文献分析

被引量排名前10 名的文献如表1 所示。通过深入阅读文献内容可以发现,综述类文献、技术体系研究文献和领域建设文献最有可能获得较高引用量。10 篇文献中有两篇综述类文献,分别是《跨界与融合:全球视野下的数字人文——首届北京大学“数字人文论坛”会议综述》和《数字人文研究演化路径与热点领域分析》,这两篇文献全面系统地对国内外数字人文研究现状进行了综述,且发表时间较早,因此获得了较高引用量。有6篇是属于技术体系研究文献,其中《数字人文的技术体系与理论结构探讨》一文系统地对数字人文的技术体系进行分类和探讨;其余5篇为文本挖掘与可视化技术在数字人文领域的应用研究,这6篇文章将信息技术融入到数字人文之中,属于数字人文研究热点,因此获得较高引用量。余下两篇属于领域建设文献,主要讨论数字人文在我国高校以及图书馆、档案馆、博物馆领域的建设,《我国高校数字人文中心建设初探》一文发表时间较早,为后续数字人文中心建设研究提供借鉴;《图档博领域的智慧数据及其在数字人文研究中的角色》一文发表较虽晚,但将切入点放在图档博领域的智慧数据上,与大数据的研究热点相呼应,因此也获得了较高引用量。通过分析高被引文献,可以发现技术体系研究和领域建设是我国数字人文研究人员高度关注的议题。

表1 被引用量排名前10的文献

4 结论

4.1 数字人文是当前图情档学科领域的研究热点

通过研究文献标题和发文期刊来看,有超过60%的论文来自图书情报与档案管理领域,且这些文献涉及数字人文的基础理论研究、相关技术研究、项目实践研究、学科建设与教育等方面,说明数字人文在图情档领域研究已经具备一定规模。研究内容方面,在经历了数字人文与图情档学科辩证关系的探讨后,学者们更加注重把数字人文作为一种理念和方法融入学科研究中,例如数字人文在图情领域的自然语言处理和可视化研究、档案领域的数字记忆和数字遗产保护等研究都在不断发展和完善。在学科建设上,很多高校不同程度地建立了数字人文研究机构,国内包括武汉大学、清华大学等在内的11 所院校相继成立数字人文研究中心;课程设置方面,北京大学、南京大学分别开设面向数据素养和面向历史研究的数字人文课程[15],中国人民大学信息资源管理学院在图书情报与档案管理一级学科下自设数字人文二级学科,设置“数字人文”荣誉研究辅修学位[16],并开展了开放的数字人文专题系列讲座,进一步推动数字人文学科教育的发展。

4.2 现代信息技术是开展数字人文研究的重要方法

通过分析文献题名发现,“数据库”“技术”“可视化”“数字化”等计算机领域的名词术语赫然在列,这些高频词说明现代信息技术对于数字人文研究具有重要意义。数字人文是一个由技术驱动的研究领域,研究人员将数字化技术、数据管理技术、数据分析技术、可视化技术、虚拟现实技术(VR/AR)、机器学习技术等现代信息技术应用于人文学科中,为数字人文项目的实施提供了技术工具[17]。例如,在文学、档案学等领域,文本的数字化技术和自然语言处理技术为内容挖掘和分析提供方法;在地理学、历史学等领域,地理信息系统(GIS)在历史地图变迁和人物流动轨迹可视化呈现方面提供技术支撑。在实践中,各领域学者应用上述技术研究出大量的数字人文项目成果,例如上海图书馆的“中国家谱知识服务平台”和“盛宣怀档案知识库”;敦煌研究院和美国梅隆基金会合作的“数字敦煌”项目;北京大学和哈佛大学合作的“中国历代人物传记资料库(CBDB)”等等。这些项目成果能够更加直观、生动地揭示信息技术对于人文研究的重要意义,更好地实现历史文化资源的内在价值。

4.3 跨学科合作是数字人文研究的显著特点

通过检索结果和收录论文的期刊来看,数字人文研究主要集中在图情档学科领域,此外还涉及计算机学、哲学、文学、历史学、医学、考古学、地理学、教育学、传播学、语言学、统计学、艺术等学科,这使得数字人文具备了跨领域、跨学科的特点。通过查询发文量较高的18 位作者简介发现,有14 位作者有计算机相关专业和学科研究背景,其他4 位作者有文学、经济学、统计学和传播学专业基础,这说明数字人文研究不仅需要本学科学者不断努力,而且需要有计算机学为主的其他专业背景的学者参与进来开展跨学科研究。在研究项目上,社会机构与高校之间开展数字人文项目合作,能够有效促进数字人文在实践领域的发展。在研究平台上,不仅高校内部举办数字人文研究主题论坛,而且通过地区和全国范围内的学术交流活动,促进了数字人文学科的发展,所以只有多学科合作协同才能够打破学科间的隔阂和壁垒,更好地进行交流融合。

注释:

① 赵生辉,2012-2015 年南京大学信息管理学院博士后,现为西藏民族大学管理学院教授。

② 赵宇翔,2012-2015 年南京大学信息管理学院信息管理科学系助理教授,现为南京理工大学经济管理学院教授。

③ 徐孝娟,2012-2015 年南京大学信息管理学院博士研究生,现为安徽大学管理学院副教授。

④ 陈涛,2017-2020 年南京大学信息管理学院与上海图书馆(上海科学技术情报研究所)联合培养博士后,2020-2021 年上海图书馆(上海科学技术情报研究所)系统网络中心项目主管,现为中山大学信息管理学院副教授。

⑤ 许鑫,华东师范大学经济与管理学部信息管理系教授。

猜你喜欢

人文领域文献
Hostile takeovers in China and Japan
2020 IT领域大事记
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
领域·对峙
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
人文绍兴
The Role and Significant of Professional Ethics in Accounting and Auditing
人文社科
谁来教“医学人文”课
让人文光辉照耀未来