基于作者履历信息挖掘的国内外数字人文研究对比*
2019-05-05徐孝婷朱庆华何晨晨
徐孝婷,朱庆华,何晨晨
0 引言
最早提出以履历作为研究科技人才政策方法的是美国Georgia 理工大学开展的“研究价值描绘(Research Value Mapping,RVM)”项目[1],取得了众多科研成果,一时间有关履历数据信息的挖掘引起学者们的关注[2]。履历(Curriculum Vitae,CV)作为研究人才的一种新视角,通过探寻人才的相关条件,分析其成长模式,对创新人才的培养具有重要意义。特别是在人才职业发展、人才流动、科研合作以及科研体制评估等研究中,履历分析起到至关重要的作用。一般数据库仅包含学历、职称以及代表著作、文献等信息,并不能准确反映出人才的成长轨迹以及重要特征。一份完整的履历不仅包含上述信息,还囊括个人基本信息、教育经历、工作经历、科研情况、研究方向、技能认可、职业认可、掌握语言、参加社会活动,等等。这些信息映射了个人职业生涯的整个轨迹[3],且按照一定的时间有序排布,能多方位地反映学者们多元性背景经历,可见履历数据可应用于探索人才成长、流动、合作、变迁等方方面面。然而,履历研究也存在诸多不足,如信息量庞大、履历信息编码主要依赖人工、编码工作繁杂、编码不规范[4]等。同时,多数学者反映在收集履历信息时存在缺失断层数据,学者个人主页或者单位介绍只是部分罗列,信息并不在完整[5]。目前虽然部分国家已经建立了履历数据库,如西班牙、荷兰建立国家范围的科研人员履历数据库[6],但这些数据库多侧重对公开成果的揭露,对于教育、工作、技能等信息的收集还不够完整[7]。可见,如何实现自动化编码、规范信息收集、健全履历库信息是履历研究需要关注的重点。
数字人文作为一门新兴的跨学科研究,侧重将数字化方法应用于人文社会领域,引起了国内外学者的广泛关注。作为新的研究范式,在实践中出现了一批以高校为依托的数字人文研究机构,国外一些高校还开设了相关专业。然而,通过文献分析发现,部分学者主要以文献综述探索研究内容的不同,较少有研究从作者履历信息的视角分析国内外数字人文研究的共性与差异。同时,国内因在学科培养上缺乏成熟的理论和实践指导,目前在相关专业建设上还处于空缺状态。基于此,本文通过挖掘作者履历信息,分析作者所在机构和国家分布特征,借助Nvivo11 从作者学科背景、研究技术手段、研究方向三个角度进行编码,探究国内外数字人文研究的相似与差异。
1 文献回顾
近年履历研究对象较集中于高层次人才履历文本的挖掘分析,如院士、科学家,以及百人计划、长江学者、杰出青年、诺贝尔奖获得者等,求职者、高被引学者、有留学经历的学生的研究也逐渐被引入研究范畴。学界对履历中涉及的国籍、年龄和性别、出生地、是否就读重点大学、师从名师、父母的教育程度、收入,以及学历结构、留学状况、职业变迁、科技产出与合作等信息各抒己见,认同其与人才成长[8]、人才流动与合作[9]、职业趋势发展[10]、资助效果[11]等具有密不可分的联系,履历信息的挖掘还可以应用于研究群体特征、科研项目政策和建制的评估[12]、预测求职效度[13]。履历作为研究评价人才的一种新视角,越来越被各国研究者所认可,为进一步剖析科学家的行为特点提供了可能[3]。Lepori 等Web of Science(WOS)无法获取非英文的科研产出,借助履历数据对瑞士传播学的领域地图进行分析,发现研究结果更为全面[9];Corley 等利用履历分析方法探索不同性别科学家职业道路的差异[14];李晓轩等发现拔尖人才的成才与师从名师、学历、是否出身于高级知识分子家庭、是否在著名研究机构从事工作等有较为密切的关系[15];牛珩等以三大高层次科技人才计划入选者为研究对象,发现我国高层次科技人才计划的入选者中女性偏少,入选年龄偏高,出生地以江浙为主,留学国家以美、日、德、英为主,不同人才之间的关联程度较高[16]等。
履历研究超越了引文分析的范畴,丰富了科学计量分析的视角。数字人文改变人文知识的发现 (Discovering)、标注(Annotating)、比较(Comparing)、引用(Referring)、取样(Sampling)、阐释(Illustrating)与呈现(Representing),实现了人文研究与教学的升级和创新发展[17],并将数字技术融入人文学科中,包括数字化、数字分析管理、VR/AR、机器学习等[18],其意义在于通过更智能的工具帮助人文学者提出、重新界定和回答人文领域的问题[19-20],由此引起学者们广泛关注。然而,纵观国内外文献发现,针对数字人文作者履历信息的研究鲜有发现。本研究以数字人文研究方向的核心作者为研究对象,通过履历信息挖掘解构学者在成长中的轨迹特征,希望探索出有价值的元素。
2 研究过程
2.1 研究对象
核心作者是贡献最大的骨干力量,通过对这一科研群体学术活动、履历背景的挖掘和分析,可以有效识别不同学科所属学校(机构)、课程设置等现状与发展脉络[21]。核心作者最低发文数Mc的值为:
NCmax是指发文最高的著者所发表的论文数。由此对于国外作者,本研究在WoS 中以“digital humanities”“humanities computing”作为检索词,对主题及标题进行搜索,经过人工筛选和去重,共获取682篇与数字人文相关文献。本研究中发文最高的著者所发表的论文数为15,由公式求得MC约为3。鉴于此,从682篇文献中筛选出最低发文量为3篇的核心作者,统计有67人共发表文献265篇,具体信息见表1。
对于国内学者以“数字人文”或“人文计算”在CNKI 进行全文检索,经过人工筛选和去重,共获取442篇与数字人文相关的文献。其中,最高发文量为7篇,计算可得国内核心作者的发文量至少为2篇,进一步统计有45人共发表文献153篇,具体见表2。
(1)作者机构性质。国外:58人来自高校、7人来自公司、2人来自研究所;国内:39人来自高校、4人来自公共图书馆、2人来自研究所(以发文时第一隶属机构为统计标准)。可见,数字人文研究的作者主要来自高校,同时也受到其他社会机构的关注。
(2)所处机构的发文量。国外发文量较突出的机构分别是英国的伦敦大学学院(UCL,30篇)、伦敦国王学院(KCL,28篇);表现较好的还有美国德克萨斯大学(UTD,17篇)、日本立命馆大学(UR,10篇),意大利巴勒莫大学(UP,9篇)等;国内发文量较突出的机构分别是上海图书馆(17篇)、南京大学(11篇)、华东师范大学(11篇)、北京大学(10篇)、武汉大学(10篇)、浙江大学(9篇)、中国科学院(9篇)、中山大学(7篇)、南京农业大学(7篇)、南京理工大学(6篇)等。这些机构大多属于文理科综合性大学,比较符合数字人文跨学科研究的背景。
(3)所在国家的研究重点。国外数字人文学者发文量贡献最大的国家是英国(95篇),其次是美国(64篇)、德国(18篇),再次为日本、加拿大、意大利和荷兰等,并形成了以英国和美国为中心的两大研究阵营。以英国为中心的阵营偏向于将数字化的科学技术应用到人文领域的方法或工具,如数字化、可视化以及机器学习,并探寻两者之间相关制度及框架构建。以美国为中心的阵营偏向于数字技术在历史、地理等具体人文学科的应用[7],如文本分析、数据挖掘、网络科学等,以及公众对数字人文研究活动参与情况的研究[22]。德国科隆大学(Univ zu Koln)重点研究文化遗产和人机交互;荷兰的几所高校则侧重对本国文化以及跨学科的研究。对于国内,上海图书馆侧重数字人文技术的研究;南京大学、北京大学、武汉大学侧重数字人文与图书馆以及多学科的结合;浙江大学、中山大学则重点关注数字人文平台的建设等。
表1 国外数字人文核心作者基本信息
2.2 数据获取
本研究中的数字人文国外核心作者履历包含其在工作单位网站展示的个人主页信息、部分Linkedin.com(领英)网站的职业档案、Google 等上的公开信息,少部分信息通过电子邮件获取;国内作者履历主要是从其在工作单位网站展示的个人主页信息、部分信息网页中获取。需要说明的是,因多数网页对学者科研成果信息的公布集中于突出成果,相关履历信息并不完全完整。为了更好地进行分析,本研究还参考了核心作者发表的有关数字人文研究的文章。此外,国外对用户的隐私较为关注,其公布的履历中很少涉及年龄、性别、出生地等信息,对此本研究不作考虑。通过为期34 天的收集,获取了国外49个学校网页上的学者简介、52份Linkedin 职业档案、3份邮件自述以及265篇文献;获取了国内45个学校网页上的学者简介、31份网页介绍以及153篇文献。本文除了上述对所在机构和国家信息进行挖掘外,还进一步从学科背景、研究技术手段和研究方向等三方面深入探究。
表2 国内数字人文核心作者基本信息
3 数据处理
将获取的国内外核心作者的履历共112份进行标记,将国外作者49个学校网页标记为A1-A49,52份履历标记为B1-B52,3份邮件转化为文本后标记为C1-C3,265篇文献标记为D1-D265;国内45个学校网页的学者简介标记为E1-E45,31份网页介绍标记为F1-F31,153篇文献标记为G1-G153。采用人工编码方式,分两组分别对国内外核心作者的履历进行编码。为了尽可能避免出错,选取2 位研究者负责编码工作,2 位研究者负责检查纠错。
(1)开放式编码。将所有有关的履历信息文本导入Nvivo11 中,围绕学科背景、研究技术手段、研究方向三个角度,采取一边浏览一边编码的方式,从国外作者履历中初步挖掘出分散的自由节点共116个,合并其中相近以及重复的概念最后选取自由节点47个,编码一致性达91%;对于国内作者初步挖掘出分散的自由节点共86个,合并其中相近以及重复的概念,最后选取自由节点46个,编码一致性达89%;
(2)主轴编码。进一步将所有自由节点进行归类分析,划分为更好层次的树节点。其中,国外数字人文作者履历被划分为3个树节点,研究方向被划分为3个树节点,研究技术手段被划分为3个树节点,树节点共有10个;国内数字人文作者履历被划分为3个树节点,研究方向被划分为5个树节点,研究技术手段被划分为3个树节点,树节点共有12个。具体如图1、图2。
图1 国外数字人文核心作者履历节点
图2 国内数字人文核心作者履历节点
(3)选择性编码。对编码形成的自由节点和树节点进行归纳,整合研究重心,将节点梳理为不同层次,最终形成理论模型。
4 结果分析
4.1 学科背景
学科背景统计的是学士到博士三个时间段,根据国家2011年颁布的《授予博士、硕士学位和培养研究生的学科、专业目录》,分为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学13 大门类。对于学科划分,如履历A12,本科专业是应用数学则归为理学,硕士是金融学则归为经济学,博士是应用经济学归为经济学。对于统计频次,如本科为心理学则文学计次为1,无硕士学历不记录,以此累加。在编码时发现部分学者存在跨学科的教育经历,如履历A1(艺术学-艺术学-文学)、A2(理学-文学-管理学)……A49(理学-文学-文学),具体见图4。统计发现,25 位学者信息存在缺失(有的没有读硕博经历,有的学习经历无法获取),此时跨学科频次记为0;共有53 位核心作者没有跨学科经历,46位学者具有跨两种学科的经历,13 位学者跨三种学科的经历。具体见图3、图4。
图3 国内外数字人文核心作者学科背景分布(部分)
图4 国内外数字人文核心作者跨学科背景分布(部分)
由图3可见,国内数字人文核心作者多来自文学、历史学、管理学、艺术学等学科,国外多来自文学、工学、管理学、理学等学科。在数字人文核心作者所属学科中,国外无涉及经济学和教育学背景的学者,国内数字人文核心作者跨学科较单一,主要是文学-历史学、理学-管理学、艺术学-文学以及文学-管理学4 大类。国外作者跨学科较为丰富,主要有理学-工学、文学-历史学、文学-工学、文学-管理学、理学-管理学等。无论在学科分布还是跨学科上,国外数字人文核心作者都体现出较为丰富、多元化的分布,可见数字人文专业发展以及人才培养需要重视跨学科交融。从上述学科背景看出,数字人文作者来自多个学科,部分作者自身已存在跨学科经历。不同学科存在差异且研究范式也不同,跨学科的数字人文教育存在难以逾越的鸿沟。数字人文人才的培养前期必须基于跨学科,打造全面应用型人才,最终实现数字人文教育从“跨学科”到“去学科”转移,培养一批专属于数字人文研究的人才,因此针对我国数字人文课程的开设需重点关注跨学科特性[23]。
4.2 研究技术手段
将研究技术手段分为研究方法、工具和编程语言三个父节点,如履历B3 中归纳的技能知识包括调查法、案例研究、Spss、Python,其对应的文献D23-D26 中应用了文献计量、访谈和AMOS 的方法,在编码时将调查法、案例研究、文献计量、访谈归于父节点“研究方法”将Spss、AMOS 归于父节点“工具”,将Python 归于父节点编程语言。具体见表3。
表3 研究技术手段
国内外方法使用较多的依次是问卷调查、数据挖掘、实验、文献计量、案例、访谈等,工具使用较多的依次是Excel、Spss、Ucinet、Matlab、Citespace、Netdraw 等,语言使用较多的依次是Python、R 语言、C 语言、Java、RDF、XML 等,国内外数字人文核心作者在此部分上的差异较小。纵观国外已开设数字人文课程的高校,对编程语言、研究方法以及工具的学习体现较为深刻。爱尔兰科克大学在本硕博三个阶段都设置数字人文专业,专业名称为数字人文与信息技术(BA)、数字艺术与人文(MA/PHD);其专业要求学生在本科阶段学会使用数字工具,掌握计算技术和编程语言,硕士阶段学习信息和通信技术(ICT)工具,熟悉如何借助数字形式捕获人文数据;博士阶段进一步学习高级计算和信息管理等技能,为人文学科深入研究鉴定基础[24]。伦敦国王学院在硕士阶段以数字技术为媒介并重视数学方法的学习,博士阶段引导学生探索数字信息、数字技术在人文、艺术、文化和社会等方面的转化效应[25]。加州大学洛杉矶分校要求学生除了熟悉历史文献和有关数据库以外,必须对编程语言、数学建模以及历史学研究方法进行深入学习。可见,加强基础研究方法、编程语言以及工具的学习与培训是数字人文专业发展以及人才培养之必要。我国学者王晓光指出,要“通过联合培训、短期培训班和暑期学校提高人文社会学者的信息素养和计算机应用水平,修订人文类学科的学生培养方案,增加计算机通识教育,使学生了解更多的信息技术,知晓如何进行数字文化资产的生产、存档、管理、交付和长期保存”[26]。
4.3 研究方向
国内外核心作者的研究方向在数字人文技术、数字人文与图博档、数字人文与多学科应用3 大类上存在交集,具体见图5。此外,国内的数字人文研究较国外起步晚,研究重点包括数字人文基础设施建设以及数字人文有关的高等教育。
图5 国内外核心作者研究方向
由图5可见,在数字人文与图博档研究中,国内外都较为关注特殊馆藏、文化遗产、数字人文项目,而国外还较关注数字出版;在数字人文技术研究中,国内外均侧重可视化、数字化、自动分类以及文本识别等技术,国外还注重机器学习、关联规则挖掘等技术;在数字人文与多学科应用研究中,国内外存在共性,都重点关注数字人文在不同学科中的应用现状与发展。此外,国内学者在数字人文基础设施建设中多关注数据、资源、网络和平台的建设,而与数字人文有关的高等教育则较关注机构能力、学科建设以及数字学术等领域。在数字人文与图博档的研究中,图博档发挥至关重要的作用[26],数字图博档平台建设改变了用户视觉交互体验[27],尤其是特色馆藏资源的呈现以及由此引发的一系列数字人文项目[28]。数字人文与多学科应用中,历史学和地理学起步较早,地理信息系统(GIS)、数字史学、史料采集等可实现数字文史资源整合、挖掘气候变化关系以及历史地名定位与分析。对于数字人文技术的研究,国内以上海图书馆为代表,内容涉及书目编码、关联数据、社会化网络(SNS)、可视化以及编码获取的自动化、分类等;国外则以伦敦大学学院和伦敦国王学院为代表,内容涉及数字化、语义、文本挖掘等。国内数字人文基础设施建设,主要关注数字人文资源、数据以及平台的构建;数字人文与多学科应用,主要涉及数字人文技术在人文学科的应用、融合以及发展。可见,把握热点和前沿、紧跟时代发展尤为重要。伴随数字化技术的快速发展,人文社会科学需要借助计算机、数字化技术改变知识的获取、标注、比较、取样、阐释及表现方式[29],数字人文是时代发展的产物。对比国内外作者研究方向存在相似和差异,需结合我国实际,“取其精华、去其糟粕”。尤其在数字人文专业和人才培养方面,国外相对成熟,具有借鉴意义,对热点和前沿问题的把握能帮助了解现状以及未来发展。
5 结语
本文通过确定数字人文研究的核心作者进而分析其履历112份(国内45份,国外67份)。首先剖析作者所在机构和国家的分布特征,其次借助Nvivo11 从作者学科背景、研究技术手段、研究方向三个角度进行编码,分析国内外数字人文作者的共性与差异。结果显示,在学科分布和跨学科上,国内数字人文作者相对集中而国外作者表现较为丰富、多元化;研究技术手段上,国内外作者差异较小,多关注编程语言、基本研究方法以及工具的使用;研究方向上,除了数字人文技术、数字人文与多学科应用以及数字人文与图博档的研究外,国内还较多关注数字人文基础设施建设以及数字人文有关的高等教育。通过分析,本研究提出数字人文专业发展以及人才培养需要重视跨学科交融、加强基础研究方法、编程语言以及工具的学习与培训,并把握热点和前沿、紧跟时代发展。同时,数字人文作为一门跨学科研究领域,渗透文学、哲学、历史学、艺术学、语言学、管理学等多个学科,除了需要重视上述三个部分,本研究认为依托图情学科、参考图书馆数字人文项目实践是未来我们需要关注的。在收集作者履历信息时发现,学者除了掌握本土语言外,基本都精通英语,且具有丰富的实习工作经历。由此可见,语言学习以及实习的经验获取也是未来数字人文专业发展和人才培养不可或缺的。本研究主要从高校的角度探索数字人文专业发展和人才培养的方式,建议未来可在有基础的一流大学结合教学与科研创建人才培养项目,必要时设立数字人文硕士点甚或博士点,构建一套完整系统的教学体系,培养专属的数字人文人才。同时,数字人文的发展还需来自国家、社会等更高层次支持。