APP下载

国家社科基金数字人文类项目立项现状分析

2021-01-29李攀登

山东电力高等专科学校学报 2020年6期
关键词:社科语料库人文

李攀登

(1.河南城建学院外国语学院,河南 平顶山 467036;2.河南大学外语学院,河南 开封 475001)

0 引言

数字人文也称人文计算,是近年来人文领域掀起的一股新的学术潮流。随着数字信息技术的高速发展和广泛应用,以“大数据”“数字化”“语料库”“数据库”“数字人文”等关键词为代表的数字人文研究方法正逐步改变传统意义上以纸质媒体为主要对象、细读为主要方法的人文学科研究范式,受到国内人文学者越来越多的关注。关于数字人文的概念,目前学界尚无统一的共识。文献[1]认为数字人文是将计算机技术应用于人文研究的前沿学科,是一个新兴的跨学科研究领域。文献[2]认为数字人文是“一种将新的技术工具与方法运用到传统的人文学科的教学、科研、服务以及其他创造性工作之中的新型学科”。国外也有学者如Ramsay将数字人文视为一种工具和方法。 因此,数字人文可以看作是一种把计算机技术与传统人文研究相结合的新学科、新领域、新方法、新工具。为探索数字人文近年来在我国的发展情况,预测其未来的发展方向,本文通过构建2015—2019年数字人文类立项课题语料库,利用Python和Excel等数据统计分析工具,采用量性研究的方法,从立项数量、学科门类、关键词、研究热点4个方面对数字人文类项目的立项情况进行统计分析。结果发现,数字人文类项目的立项数量稳步增长,其技术和方法在多个学科应用广泛,呈现出多学科渗透的趋势,具有广阔的发展前景,值得深入研究。

1 数字人文研究概念

数字人文将数字技术和数字方法引入人文学科,丰富了人文研究的问题、空间和立场。数字技术不再仅仅是一种工具,而是逐步成为一种新型的学术研究范式。近十年来,以大数据、语料库、数据库和数字化为代表的数字技术被逐步应用于语言学、历史学、艺术学等人文领域,拓展了人文研究的广度和深度,加深了人类对数字世界中人类文化的理解。

国家社会科学(以下简称“社科”)基金立项项目代表着我国社会科学研究的方向和水平,客观上反映了各学科研究的现状、重点、热点及发展方向,具有高度的权威性、导向性和示范性[3]。通过检索中国知网发现,目前国家社科基金数字人文类项目的研究主要涉及语言文学[4-7]、翻译[8-10]等,基于国家社科基金的数字人文类课题立项研究尚不多见。鉴于此,本文从数字人文视角,对近五年国家社科基金数字人文类中重点、一般、青年、西部和后期资助五大类项目进行梳理统计,分析数字人文研究的现状和热点领域,为后续的相关研究和课题申报提供借鉴。

2 研究设计

2.1 语料来源

本文使用的语料源自国家社科基金项目数据库和全国哲学社会科学工作办公室官方网站,获取的数据包括项目批准号、项目类别、学科分类、项目名称、负责人、工作单位等。根据实际研究需要,又以“大数据”“语料库”“数据库”“数字化”“数字人文”为关键检索词进行规范化整理,人工筛选提取国家社科基金中重点、一般、青年、西部和后期资助五大类相关项目信息共计666条,保存为Excel文档,并以“数字人文语料库”命名。

2.2 研究方法和工具

采用定量研究和定性分析相结合的方法,运用Python编程工具及其扩展的自然语言工具包(Natural Language Toolkit,简称NLTK)模块和Excel软件,经过数据收集、除噪、分词、检索、统计等步骤,生成表格和柱形图,以增强检索结果与数据之间的关联性和可比性,有助于对近五年数字人文领域立项情况进行比较分析。

2.3 研究步骤

2.3.1 语料采集和加工

通过分析国家社科基金项目数据库,批量下载数据库中近五年的项目信息,删除其中的基金项目代码列,增加立项年份列名,以便后期查询;清除其中未进行分类的国家社科基金重大项目,保留重点、一般、青年、西部和后期资助五大类项目信息。由于该数据库在更新方面会有延迟,因此通过在全国哲学社会科学工作办公室官方网站上检索2019年的项目信息,添加到生成的Excel表中。利用Excel的自动筛选功能,以 “大数据 语料库 数据库 数字化数字人文”(中间用空格隔开)为关键词进行检索,获取了2015—2019年重点、一般、青年、西部和后期资助五大类立项信息,生成数字人文语料库。

2.3.2 文本分词处理

因为汉字之间没有空格,会导致检索软件无法提取相关信息,需要对汉语文本做词汇或文字切分[11],因此采用Python中的Pkuseg分词模块,自建分词专用字典,确保检索词切分准确;对分词结果进行人工校对,确保统计数据的准确性和有效性。

2.3.3 语料检索统计

按检索词出现的频数由高到低排列,导出至Excel表格并存为“单词语料”。在这一过程中如果发现统计出的高频词异常或者没有统计意义,则放置在停用词表中,以避免再次统计。同时,运用Excel的统计功能,统计数字人文项目中每年的立项总数、类别汇总,生成直观的柱形图,为分析判断其研究现状和走势提供数据支撑。

3 数据分析

3.1 立项数量

从国家社科基金项目数据库下载相关数据,经过除噪、去重、整理后,生成数字人文立项课题语料库,收录各类项目共计666项,占全部国家社科基金项目的12.02%。统计出的数字人文项目立项趋势情况如表1所示,数字人文类项目在各个子项目类别中均有涉及,其中以一般项目和青年项目立项数量最多,分别为402项和135项,且呈逐年增长趋势。2016—2018年是数字人文项目立项的快速增长期,平均每年的立项增长率达到了7.76%以上,2018年较2017年增长17.20%。2019年国家社科基金数字人文立项总量有所下降,其增长速度放缓并趋于稳定。总体来看,数字人文立项数量持续增长,出现了利用计算机的强大数据处理和分析能力开展多元化的跨学科创新研究的诸多课题。可见,数字人文的方法和工具在近五年对人文研究产生了巨大的影响,数字人文项目对人文学科的贡献越来越明显。

表1 数字人文项目立项趋势一览表

图1为数字人文项目立项柱形图。从图1中可以看出,数字人文项目的立项数在重点、一般和青年类基金项目中较多,其中青年项目立项数连年增长,一直保持稳定增长态势。在大数据时代,青年学者在计算机和信息技术应用方面更为娴熟,对新兴工具和研究方法的学习和掌握较快,因此更能快速抓住数字人文视域下人文研究的新机遇,运用新兴数字技术和数字人文方法开展创新研究。

图1 数字人文项目立项趋势图

3.2 学科门类

国家社科基金项目共有语言学、新闻与传播学、中国文学、外国文学等共计24个学科类别。利用Excel的自动筛选功能,统计出近五年每一类别中数字人文类项目立项数,按照立项数由高到低,生成数字人文库各学科类别中数字人文项目数量及比例,如表2所示。

表2 各学科类别中数字人文项目数量及比例

从表2可以看出,国家社科基金项目中出现数字人文关键词最多的学科是语言学、图书馆·情报与文献学、管理学及新闻学与传播学。这四大学科的数字人文项目立项总数达394项,占全部数字人文立项总数的59.15%,成为与数字人文结合最为紧密的四大领域。随着语料库语言学的兴起以及计算机信息技术的飞速发展,以数据统计为基础的语料库研究方法获得学界的肯定,越来越多的人文学者开始建设各类数据库、语料库,意在跳出微观数据的羁绊,利用数字人文技术对宏观数据进行客观性真实描写。从表2中可以看到采用语料库方法进行语言学研究的项目达152项,占数字人文项目的22.82%。随着数字化浪潮的来临,各类文本、图片、音频和视频等资源的数字化存储和查询已经成为一种趋势,推动了图书馆和文献研究与数字人文的融合发展,近五年相关立项达97项,占全部数字人文立项总数的14.56%。同时,管理学及新闻学与传播学领域的数字人文立项数分别为85项和60项,各占12.76%和9.01%,这是由于随着数字阅读日益成为一种时尚,数字技术被用于大数据的组织、整理和分析,为管理学和传播学学者提供了差异化、规律性、宏观性、趋势性研究的可能和线索[12]。

数字技术在外国文学和中国历史中的应用还处在较低水平,五年内仅各有1项和4项有关数字人文的项目,与语言学和中国文学两大学科形成了鲜明的对照。出现这种情况的原因是文学研究者一直对技术持有排斥心理,认为科技的过份利用会扼杀创造性[13],对于新技术的利用重视不够,数字人文意识不强。事实上,学科交叉是学术思想的重要营养[14],未来知识的创新和人文的研究不仅需要内省式的文本细读,更需要计算机辅助下的文学分析,新的技术和方法将为未来的文学研究带来革命性的变化。

3.3 关键词分析

数字化、数据库、语料库、大数据和数字人文等五大关键词,体现了数字科技与人文学科的结合,代表着数字人文这一学术潮流的特征。表3为2015—2019年国家社科基金中数字人文关键词立项数目。从表3可以看出,随着“读屏时代”的到来,含有“数字化”的研究项目逐年递增,越来越多的人文学者看到了人文资源数字化带来的机遇。近五年数据库、语料库相关数字人文项目的立项数目虽有起伏,但总体仍呈稳中有升的态势。带有“数字人文”的项目数量增长迅速,从2015年、2016年的0项,到2017年、2018年的3项和1项,2019年达到6项。但近五年立项总量所占比例仅有1.5%,说明数字人文方法在国内仍处在起步阶段,因此值得学界进一步深化对数字人文理念的认知,持续推进更多与数字人文相关的跨学科研究。

表3 2015—2019年国家社科基金中数字人文关键词立项数目

分析有关语料库和大数据的立项清单,发现语料库的方法更多地被应用于语言研究,而大数据的方法通常被应用于信息管理、风险把控、质量评估等方面。可见,越来越多的学者意识到了数字人文这一跨学科手段在人文学科中应用的必要性,正逐步把数字人文的大数据、数字技术和数字工具应用范围扩展到各个学科。

国家社科基金各学科类别中数字人文关键词下各项目数量情况如表4所示。从表4中可以看出语言学、图书馆·情报与文献学等学科中数字人文类项目总量较多,尤其是“数据库”“语料库”和“数字人文”关键词表现突出,涉及语料库的项目有114项,这是因为语料库最早被用来对语言特征进行量化描写和解释,基于语料库和语料库驱动的研究范式已经成为观察语言现象、总结语言规律的常用方法。值得注意的是,涉及数字化的项目(59项)主要集中在图书馆·情报与文献学,而在其他学科的应用较少,可见数字人文的研究集中在数字图书馆、文献数字化等领域,与其他学科的交叉和融合还很有限,仅仅处在发展初期,未来需要开展更多跨学科的量化研究,加速数字人文的应用进程,拓展其研究范围。语料库的相关项目主要局限在语言学 (109项)学科中,采用语料库的方法进行跨学科协作性的研究还比较少见,因此未来其他人文学科应顺应时代的潮流,引入数字人文的研究方法,开辟人文研究的新路径,尤其是中国历史、外国文学等对技术持怀疑态度的传统学科。

表4 国家社科基金各学科类别中数字人文关键词下各项目数量

3.4 研究热点

对数字人文数据库中的项目名称信息进行分词,去除停用词并加载字典后,取排名前30的高频词如表5所示,并按照各关键词的相关属性进行分类如表6所示。

表5 国家社科基金数字人文类项目关键词频次表

表6 国家社科基金数字人文类项目关键词分类表

从表5和表6可以看出数字人文项目中,大数据、语料库、数据库和数字化四大高频词依次排列,突显出数字人文视域下大数据的应用较语料库、数据库和数字化更为广泛和普遍,在网络安全、舆情控制和资源管理方面发挥着不可替代的作用。数字人文的应用主要体现在宏观管理、国家治理、网络技术和语言教育4个方面,为机制、模式、体系、服务等宏观概念的构建提供技术和数据支持,促进了相关理论的创新和服务的提升;扩展到国家治理、资源管理、金融服务、理论创新等服务层面;数字人文的发展离不开网络技术和数字技术的支持,基于网络和数据的人文研究一直是热点;数字人文在语言教学和教育文化领域也有相当大的应用空间。

4 结语

本文依据数字人文领域具有代表性的5个关键词:“数字化”“大数据”“数据库”“语料库”和“数字人文”,检索近五年国家社科基金重点、一般、青年、西部和后期资助五大类项目,生成数字人文语料库,进行立项数量、学科分类、关键词和研究热点分析,结果表明:从宏观分析,数字人文的研究呈现出稳定发展、多学科渗透的特征,五大关键词中“大数据”和“语料库”等数字技术在各学科应用最为广泛,“数字化”和“数据库”方面的研究立项较少,比例相对失衡;从微观分析,数字人文在各学科的应用表现出明显的差异性,在语言学、图书馆·情报与文献学领域应用较多,而在外国文学、中国历史领域的应用较少,突显出数字人文在文学、历史学等领域具有较大的发展潜力;从应用范围分析,数字人文的方法在各个学科的交叉应用还有一定局限性,主要应用在宏观管理、国家治理、网络技术和语言教育4个方面。本研究从国家社科基金项目的立项情况考察数字人文在国内的发展,由于收集的样本有限,无法完全代表当前数字人文的发展情况,因此其结果还有一定的局限性,期待后续研究可以继续拓展深入。

猜你喜欢

社科语料库人文
社科成果展示
美在山水,魂在人文
最朴素的人文
基于语料库的清末民初日源外来词汉化研究
西安交通大学社科三刊简介
我校首次获批教育部人文社科一般项目
《语料库翻译文体学》评介
人文社科
语篇元功能的语料库支撑范式介入