数字人文研究高被引文献的统计与分析
2021-06-29刘文秋
摘要:随着数字人文研究领域热度逐年上升,探究我国数字人文领域高被引文献的特征有助于掌握该领域的发展现状和研究热点,为相关研究提供参考和借鉴。文章以中国知网收录的数字人文领域高被引文献为数据来源,运用文献计量学方法及Excel工具对我国数字人文研究高被引文献的期刊分布、被引频次与作者分布、年代变化、机构分布、地区分布、主题分布、关键词等进行分析与挖掘,并从创建数字人文研究环境、构建数字人文学科人才培养体系等方面提出我国图书馆界支持数字人文研究的策略。
关键词:数字人文;高被引文献;统计分析
中图分类号:G353 文献标识码:A
DOI:10.13897/j.cnki.hbkjty.2021.0036
0 引言
数字人文(DigitalHumanities)起源于人文计算(HumanitiesComputing),是指运用计算机技术研究传统人文科学中已有的问题、挖掘和发现新的“人文导向”的问题[1]。数字人文研究最早可追溯到20世纪中叶,意大利著名人文学者Roberto Busa为了研究意大利神学家ThomasAquinas所撰写书籍的叙述方式和文本,与IBM公司合作,运用计算机技术启动“阿圭那项目”[1]。“阿圭那项目”即为人文计算的首个项目。国内关于数字人文研究最早的论文是周琼和胡礼忠在2012年发表的《图书馆员在“数字人文”中的作为——“2011数字人文国际大会”后的感想》[2],该文章也标志着数字人文研究开始在国内起步。经过十多年的发展,我国在数字人文领域的研究已经取得一定成果。针对国内数字人文研究高被引文献的特征进行统计与分析,有助于了解国内数字人文领域的发展现状和研究热点,为相关研究提供参考和借鉴。
1 研究方法
1.1 高被引文献的确定
1.2 数据源的确定及检索方法
本研究以中国知网期刊数据库为数据来源,检索时间为2020年12月7日。以主题或关键词为检索项,检索式为“SU=(‘数字人文+‘人文计算)ORKY=(‘数字人文+‘人文计算)”,检索结果为695条。由于已确定被引频次≥8的文献为数字人文的高被引文献,检索式为“(SU=(‘数字人文+‘人文计算) ORKY=(‘数字人文+‘人文计算))and CF>7”,统计出主题或关键词为(‘数字人文+‘人文计算)且被引频次大于7的文献共133篇。通过人工对文献数据进行清洗,剔除掉无关文献后得到132篇高被引文献,总被引频次2 745次,将所有检索结果导入Excel表中。本研究主要对这132篇论文进行文献计量分析,同时采用Excel作为数据的主要分析工具和制图工具。
2 统计结果与分析
2.1 高被引文献期刊分布
132篇高被引文献共发表在45种期刊上。发表2篇以上高被引文献的有22种期刊,其余23种期刊各发表1篇。图1展示了高被引文献发表在图书情报类期刊与非图书情报类期刊的占比图。其中图书情报类期刊有34种,共发表高被引文献119篇,占文献总数的90.15%;非图书情报类期刊11种,发表高被引文献13篇,占文献总数的9.85%。从表1可知,发表5篇以上的有8种期刊,共发表高被引文献72篇,占文献总数的54.55%;被引频次合计1 752次,占全部高被引文献总被引频次的63.83%。发表5篇以上高被引文献的8种期刊中,图书情报学核心期刊8种,非核心期刊0种。
上述数据表明,国内的图书情报类期刊刊载了90%以上的数字人文高被引论文,对数字人文研究的贡献最大。发表5篇以上高被引文献的8种期刊全部为图书情报类核心期刊,表明这8种期刊对数字人文研究成果的发表有更高的贡献率,相关研究人员可以重点关注这8种期刊在数字人文方面的研究,从而更高效地获取最新研究动态[6]。
2.2 高被引文献被引频次与作者人数分布
高被引文献132篇,总被引频次2 745次,篇均被引频次20.8次。被引频次≥50的有10篇;40-49次的3篇,30-39次的8篇,20-29次的17篇,10-19次的71篇,8-9次的23篇。圖2为高被引文献的被引频次分布图,其中横轴m为被引频次,纵轴为高被引文献篇数。
在132篇高被引文献里,署名独立作者的文献有66篇,占全部高被引文献的50%;署名2个作者的40篇,占30.3%;署名3个作者的20篇,占15.15%;署名4个及以上作者的6篇,占4.55%。文献合作率是指由两位及以上作者共同完成的文献数与文献总数的比率,由表2高被引文献作者人数分布表可知,数字人文领域的文献合著率为50%。论文作者合作度是在确定的时域内样本的每
篇论文的平均作者数,它是期刊论文作者合作研究程度的重要指标[7]。数字人文领域的132篇高被引文献共涉及173位作者,其作者合作度为1.31。
周晨在《国际数字人文研究特征与知识结构》[8]中以Web of Science为数据来源,统计得到475篇数字人文论文,作者917位,可知国外数字人文领域的作者合作度为1.93。高瑾在《量化数字人文综述》[9]中提到,Henny-Krahmer与Sahle两位学者通过分析德语地区的数字人文会议DHd2018的论文,发现其文献合著率为72.7%。由此可知,虽然国内数字人文领域的作者合作度与文献合著率都较为不错,但与国外相比,仍有一定的差距。
2.3 前20篇高被引文献分析
被引频次前20名的高被引文献见表3,被引频次最高的114次,最后1名33次。前20篇高被引文献被引频次合计1 114次,占高被引文献总被引频次40.58%,相当于15.15%的高被引文献贡献了40.58%的引用频次。20篇高被引文献中,上海图书馆的夏翠娟发表了3篇,北京大学图书馆的朱本军和聂华、华东师范大学经济与管理学部的许鑫、上海图书馆的张磊、南京大学信息管理学院的赵生辉等5位作者各发表了2篇,其他作者各发表了1篇。
被引频次前20名的文献共发表在10种期刊上,其中图书情报学专业期刊8种,发表18篇高被引文献,另外2篇发表在《南京社会科学》和《浙江档案》上。前20名的高被引文献中,《中国图书馆学报》发表5篇,《图书馆杂志》发表4篇,《大学图书馆学报》和《图书情报工作》各发表2篇,这4种图书情报学核心期刊上发表了65%的前20名高被引文献,成为数字人文研究高被引文献发表最重要的阵地。
文献的被引频次在一定程度上反映了论文的重要程度[1]。根据表3可知,从被引频次来看,被引用最高的为《数字人文的技术体系与理论结构探讨》,该文从宏观层面对数字人文的整体方法论和理论结构进行研究。从被引前20名文献的研究对象来看,涉及图书馆、档案馆、博物馆、历史地理信息、家谱、古籍等,表明数字人文是一个多学科融合的领域,具有研究对象多样化的特点[1]。从被引前20名文献的文章主题来看主要包括以下方面:(1)3篇综述性文献说明国内学者对数字人文领域的研究仍然处于初始阶段,其中《跨界与融合:全球视野下的数字人文——首届北京大学“数字人文论坛”会议综述》和《国内外数字人文领域研究进展分析》两篇文献从全球视角出发,对国内外数字人文领域的研究热点、实践和发展进行阐述;(2)研究数字人文的技术体系,探索文本可视化分析与挖掘在古籍中的应用、GIS技术在历史地理信息化方面的应用、关联数据在家谱服务方面的应用等;(3)研究数字人文对图书馆的影响,探索图书馆在数字人文研究中的参与问题和角色定位。
2.4 高被引文献年代分布
国内数字人文领域研究文献从2012年开始出现,当年即有高被引文献,133篇高被引文献分布在2012-2019年(图3)。除2015年稍有回落外,2016-2018年呈现持续上升的趋势。发表数字人文研究高被引文献最多的年份为2016、2017、2018、2019四年,并在2018年达到最高峰47篇。被引频次最高的文献也分布在2016、2017、2018、2019四年。考虑到文献发表时间的影响因素,理论上较早发表的文献,被引用的次数应当相对较高。反之,引用频次相同的文献,如果单纯以引用率为考察指标,则先发表文献的影响力要低于后发表的文献[4]。可见,数字人文研究领域的文献,2016年-2019年发表的高被引文献,无论从绝对数量还是影响力方面都更占优势。
2.5 高被引文献机构分布
以第一作者统计,132篇数字人文研究高被引文献分别来自82个机构,发表3篇以上高被引文献的机构见表4。
高被引文献涉及的82个机构中,公共图书馆3个,发表高被引文献12篇;高校图书馆31个,发表高被引文献44篇;高校院系、研究所47个,发表高被引文献75篇;其他机构1个,发表高被引文献1篇。高校图书馆、高校院系和研究所发文量大面广,作者众多,合计达到78个机构,占机构总数的95.12%;高校图书馆、高校院系和研究所发表的119篇高被引文献,占高被引文献总数的90.15%。由上可知,高校图书馆、高校院系和研究所在机构数量和高被引文獻篇数方面都占据绝对优势。由表5可知,高校图书馆、高校院系和研究所的高被引文献篇数、总被引次数、高被引文献百分比、篇均被引次数都比较高,表明高校图书馆、高校院系和研究所发文较为集中,文献影响力相对也较大,在数字人文研究领域起到了理论引领的作用。
2.6 高被引文献地区分布
数字人文研究132篇高被引文献分布来自国内24个地区及国外2个国家,高被引文献产出5篇以上的地区有6个。其中,江苏省31篇,占全部高被引文献的23.48%,上海市29篇,北京市17篇,广东省13篇,湖北省8篇,以上5省市分列高被引文献数量的前5位,合计占全部高被引文献数量的74.24%。江苏省和上海市高被引文献具备明显优势,不仅数量大,而且高被引文献辐射范围广,涵盖了公共图书馆、高校图书馆、高校院系和研究机构。高被引文献产出5篇以上的地区见图4。
2.7 高被引文献作者分布
以第一作者统计,发表数字人文研究高被引文献5篇的1位,3篇的3位,2篇的13位,1篇的92位。发表2篇及以上高被引文献的作者见表6。由表6可知,南京地区的作者最多,共有5位;其次是上海地区的作者,共有3位;广东地区的作者共有2位。作者的地区分布与上文2.6中的高被引文献地区分布趋势一致。8位作者所属机构为高校图书馆,6位作者所属机构为高校院系与研究所,2位作者所属机构为公共图书馆,1位作者所属机构为高校档案馆,与上文2.5中的高被引文献机构分布趋势一致。[FL)0]
2.8 高被引文献关键词分析
文献关键词体现其学科主题和关注点,高频关键词则反映该领域的研究热点。132篇高被引文献共有288个关键词,被引3次以上的高频关键词共计27个,见表7。
数字人文高被引文献的高频关键词反映出以下几点:(1)被引频次最高的关键词为“数字人文”123次,第三为“人文计算”14次,属于数字人文的2种不同说法,因为数字人文的概念起源于人文计算。(2)被引频次较高的是数字人文的研究主体,依次为“图书馆”20次,“高校图书馆”和“图书馆服务”各6次,“数字图书馆”4次,“数字人文馆员”3次,表明图书馆是数字人文研究的主要阵地,尤其以高校图书馆最为活跃。(3)关联数据、文本挖掘、数字化、可视化、知识图谱、社会网络分析、数据挖掘与数据仓储等是进行数字人文研究的技术与方法,也是数字人文研究领域的研究热点,相关关键词共出现12个,分别为“关联数据”和“文本挖掘”各7次,“大数据”6次,“数字化”和“GIS”各5次,“可视化”和“知识图谱”各4次,“社会网络分析”“数据挖掘”“数据仓储”和“文本可视化”各3次。(4)其余高频关键词,概括来讲主要是数字人文研究的应用领域,如特藏资源、知识服务、档案、古籍文献,其中“特藏资源”和“知识服务”各4次,“档案”和“古籍文献”各3次。
2.9 高被引文献研究热点分析
通过有计划地阅读梳理获取到的期刊文献摘要及全文,并结合上述高频关键词,得到数字人文领域研究热点如下:
第一,数字人文的概念及研究范畴。数字人文作为一个新兴的跨学科研究领域,由于研究背景和研究内容的复杂性,在各领域的研究应用中没有形成完全统一的研究范式[10],其定义也尚未形成统一认识。从“数字人文”概念的演化来看,其内涵与界限是随着数字技术和数字技术在人文领域的应用而不断发展变化[11]。数字人文的落脚点在人文领域,其努力方向是将数字技术与人文领域相结合,运用数字技术提出、探索和解决人文领域的各种人文问题[11]。
第二,数字人文在人文领域的探索性应用。随着数字技术的进步和数字人文的蓬勃发展,数字人文在多个人文领域进行了探索性应用,将其技术、方法与人文学科进行结合,进而提出新的思考方式、获得新知识。在本文分析的高被引文献中其应用领域主要集中在以下三个方面:一是档案领域,二是古籍领域,三是历史领域。
以历史和社会记忆为研究对象的档案领域是数字人文研究的重要对象和资源,有学者以威尼斯时光机器项目为例,构建数字人文框架下档案信息资源开发模式[12],或是通过案例分析数字人文对档案信息资源开发利用的影响[13]。古籍是人类知识文化的载体,利用数字人文的技术支持,对古籍进行数字化的处理、存储、组织与分析,可以实现对古籍的再生性保护和对古籍所承载文化知识的传播与传承[14]。历史研究在数字时代何去何从,这是史学理论的宏大问题。哈佛大学以宋代政治为例,从数字人文视角出发,借助符号分析法对“中国历代人物资料库”进行实证探索与可视化分析,为研究宋代党争政治格局提供了一种新的思考方式,同时展现了数字人文技术在人文历史领域研究中的可行性与巨大潜能[15]。
第三,图书馆与数字人文。数字人文是图书馆服务边界延伸的新兴领域,面向数字人文研究的服务是图书馆新的服务生长点。与高校院系和研究机构对数字人文研究的切入点不同,图书馆作为资源保存和服务中心,主要任务是利用新的技术手段重组资源,为人文研究者提供更好的服务,辅助人文研究[16]。一方面,引入“数字人文”的思维,可帮助馆藏资源可视化研究摆脱封闭性等限制,最终实现馆藏资源可视化的价值[17]。另一方面,图书馆具有馆藏及知识优势、技术优势、协作优势等,所提供的数字资源管理、数字学术、文本挖掘、教育和培训等服务内容能够促进数字人文研究的开展。
第四,数字人文教育。数字人文是近年人文社会学科的研究热点,而我国在有关数字人文课程设置及人才培养方面尚未形成系统的框架体系[18]。国内相关高被引文献主要介绍欧美高校数字人文教育发展历程和数字人文课程设置情况,提出我国数字人文课程及人才培养建议。
3 结语
经过十多年的发展,数字人文已得到普遍关注和实践,并成为人文社会学科的研究热点。近些年来,数字人文研究论文连年增长,其发表阵地主要在图书情报类期刊,表明数字人文研究已成为图书馆学情报学研究的持续热点之一。数字人文学科分布呈现以图书情报档案学为中心向其他人文学科蔓延的趋势[1]。
图书馆及高校在数字人文领域起到了引领的作用,有夏翠娟、刘炜、朱本军、聂华、柯平等著名学者活跃在这一领域。同时,无论从数字人文高被引文献的作者人数、发文篇数还是机构数量来看,图书馆及高校都是数字人文研究的主阵地,图书馆员及高校研究人员结合数字人文实践发表了大量研究论文。相较于图书馆和高校,其他机构发表数字人文高被引论文的数量偏少,这也与数字人文的应用领域有关。
图书馆作为数字人文研究的主阵地之一,本身拥有大量的相关数据库和古本珍本等馆藏资源,这些资源是人文社科类研究人员进行数字人文研究的重要基础[19]。针对数字人文研究的发展,我国图书馆界未来工作重点:(1)搭建跨学科、跨机构交流平台,提供资源、技术、服务和空间支持,营造友好的数字人文研究环境[20];(2)与高校院系、研究机构合作,突破学科藩篱,构建完整科学的数字人文学科人才培养体系[1],培養新生代数字人文馆员和数字人文研究员;(3)建设数字人文项目孵化器,同时为数字人文项目成果传播和转化提供途径等方面为数字人文研究提供支持。
参考文献
[1]邓君,宋先智,钟楚依. 我国数字人文领域研究热点及前沿探析[J]. 现代情报,2019, 39(10): 154-164.
[2]周琼,胡礼忠. 图书馆员在“数字人文”中的作为——“2011数字人文国际大会”后的感想[J]. 图书馆建设, 2012(3): 82-84.
[3]祝清松,冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报, 2014, 40(1): 39-49.
[4]李海霞,陈曙光. 阅读推广研究高被引论文的统计与分析[J]. 大学图书情报学刊, 2015, 33(3): 117-122.
[5]刘炜,叶鹰. 数字人文的技术体系与理论结构探讨[J]. 中国图书馆学报, 2017, 43(5): 32-41.
[6]顾琳. 基于文献计量的我国数字人文主要研究力量分布分析[J]. 大学图书情报学刊, 2020, 38(6): 111-116.
[7]刘瑞兴. 图书馆学期刊的论文作者合作度[J]. 图书情报工作, 1991(1): 24-26.
[8]周晨. 国际数字人文研究特征与知识结构[J]. 图书馆论坛, 2017, 37(4): 1-8.
[9]高瑾. 量化数字人文综述[J]. 图书馆论坛 ,2020, 40(1): 54-72.
[10]李慧楠,王晓光. 数字人文的研究现状——“2019数字人文年会”综述[J]. 情报资料工作, 2020, 41(4): 49-59.
[11]朱本军,聂华. 数字人文:图书馆实践的新方向[J]. 大学图书馆学报, 2017, 35(4): 23-29.
[12]朱令俊. 基于数字人文的档案信息资源开发模式构建和实施研究[J]. 浙江档案, 2018(12): 21-23.
[13]董聪颖. 穿梭千年:数字人文对档案信息资源开发利用的影响[J]. 档案管理, 2018(2): 11-14.
[14]魏晓萍. 数字人文背景下数字化古籍的深度开发利用[J]. 农业图书情报学刊, 2018, 30(9): 106-110.
[15]严承希,王军. 数字人文视角:基于符号分析法的宋代政治网络可视化研究[J]. 中国图书馆学报, 2018, 44(5): 87-103.
[16]夏翠娟,张磊,贺晨芝. 面向知识服务的图书馆数字人文项目建设:方法、流程与技术[J]. 图书馆论坛, 2018, 38(1): 1-9.
[17]张卫东,左娜. 面向数字人文的馆藏资源可视化研究[J]. 情报理论与实践, 2018, 41(9): 102-107.
[18]徐孝娟,侯莹,赵宇翔,等. 国外数字人文课程透视——兼议我国数字人文课程设置及人才培养[J]. 图书馆论坛, 2018, 38(7): 1-11.
[19]王贵海. 我国数字人文研究演进路径及图书馆支持策略探析[J]. 图书馆工作与研究, 2019(10): 106-113.
[20]柯平,宫平. 数字人文研究演化路径与热点领域分析[J]. 中国图书馆学报, 2016, 42(6): 13-30.
作者简介:刘文秋(1987-),女,硕士,广东财经大学图书馆助理馆员。研究方向:数字人文、阅读推广。
(收稿日期:2021-01-07 责任编辑:张长安)