图书情报领域数据人才需求及职能分析
——基于ALA JobLIST的分析
2021-01-28苏芳荔郑州航空工业管理学院信息管理学院
苏芳荔(郑州航空工业管理学院信息管理学院)
由于大数据的爆炸式增长,社会正在迅速地经历数字化转型,进入快速变化的新世界。这些新趋势影响到社会和未来的工作,进而影响到人才培养和教育,数据科学是数字化转型的核心。数据科学是包括数据规划、数据获取、数据管理、数据分析以及数据推断的科学。理论基础主要来自统计学、计算机科学、数学等学科。
数据科学从一系列学科中汲取技能和概念,使其成为一个真正的跨学科领域。许多领域的学生都需要学习数据收集、存储、整合、分析、推理、交流和伦理的知识。关键能力包括计算和统计思维、数学基础、模型建立和评估、算法和软件基础、数据策展、知识转移及沟通和责任。
面对众多快速出现的数字挑战,图书情报学在数据科学教育中面临着机遇和挑战。情报学为大数据提供了基础研究方法,促进了多源数据融合,拓宽了大数据的应用领域;大数据为情报学研究提供了更多的可能性、丰富了研究方法,提升了研究效率、扩大了研究范围。情报学取向的大数据与数据科学专业人才的培养,既有其必要性,又有其不可替代性。图书情报学科应该赋予学生“信息计算”学科的能力,在应用领域使用工具解决问题并创造价值、信息和知识的能力。我们需要发展区分与计算机科学或商学院的数据科学教育,构建图书情报领域的数据科学教育框架,采用基于用户、基于工具和基于应用程序的方法来执行。
基于数据科学教育和实践的现状,识别数据相关工作所需的具体能力,如知识、技能,是设计数据科学专业人员教育和专业框架的一个重要基础。本研究试图通过评估图书情报领域数字科学相关招聘广告中所描述的知识技能要求,确定数据科学相关从业者所需的能力,为促进图书馆学信息科学更好地融入数据科学领域,以及数据科学的课程设计和人才培养提供帮助。
1 文献综述
1.1 数据科学人才培养及课程体系构建研究
自北卡罗莱纳州立大学 2007 年首次设立“数据分析”硕士专业以来,美国已经有多所高校陆续开设“数据分析”或“数据科学”等相关专业,不仅涉及到传统的计算机、数学和统计学等院系,而且还涉及到图书情报等人文社科类院系。截至2019 年3 月,ischool 联盟有29 所信息学院开设了数据科学相关专业[1]。我国的数据科学教育开展相对较晚,最早是北京航空航天大学于2013 年开设了“数据科学”硕士专业。2016 年,教育部首次批准北京大学、对外经济贸易大学、中南大学三所高校增设“数据科学与大数据技术”本科专业。截至 2019 年底,国内一共有482 所高校本科获批设立该专业[2]。
近年来,学界对图书情报领域的大数据人才培养多有探讨。巴志超等人认为,情报学要深入推进各门类学科与情报学之间多方式、大跨度的广泛交叉,从而建设多元开放、互动协同发展的学科生态群[3]。苏日娜等选取开设数据科学研究生项目的15 所iSchools 高校作为调研对象,从专业学科优势、学科体系划分、课程目标、核心课程设置、课程制度等方面研究数据科学课程体系及人才培养等问题[4]。陶俊等调查并分析了国外5 所典型图书情报背景的iSchool 院校在数据科学专业上的培养目标、学分学制和课程结构[5]。陈沫等对国内外大数据相关专业的培养目标和课程设置模式进行调研,并结合国内的教学资源情况设计情报学取向的大数据专业人才培养计划[6]。
1.2 基于招聘广告的内容分析
对招聘广告内容进行分析非常常见,王东波等收集了智联招聘、51job 等招聘网站上有关数据科学的工作岗位数据,通过对数据科学招聘信息中出现的人才技能素养实体的抽取,探究指导情报学学科紧跟时代发展潮流的课程设计内容[7]。
通过对图书馆相关招聘广告的分析可以促进图书馆学信息科学的教育。通过了解不同类型图书馆员的需求,图书馆学信息科学课程开发人员可以更好地实施课程开发和教学方法设计,为图书馆的新职位培养成功的候选者。如,Jeonghyun Kim 等对数字策展领域的招聘广告进行了分析[8],R.Khan 等对美国高校图书馆数据馆员招聘广告进行了内容分析,挖掘数据馆员所需要的任职资格和能力[9]。
2 数据来源与研究方法
2.1 数据来源
本文旨在选择和分析一个针对图书情报学毕业生的数据科学招聘广告样本,以在培养数据人才和设计课程方面提供建议,帮助图书情报学发展。美国图书馆协会(American Library Association,ALA) JobLIST (https://joblist.ala.org/)是“图书馆与信息科学与技术工作”的招聘网站,也是美国图书馆协会、大学与研究图书馆协会的服务网站。在此网站发布的招聘信息主要针对图书馆学、信息科学的毕业生。
从2006 年8 月到2018 年4 月(数据获取于2019 年4 月,而美国图书馆协会不提供一年内的招聘广告信息),ALA JobLIST 发布的所有招聘广告信息共24,058 个,其中一些广告被重新发布,直到招到合适的人才,本研究对此首先进行了数据去重处理。ALA JobLIST 的数据节点包括职位名称、工作ID、发布时间、国家、邮政编码、公司名称、工作类型、工作描述、工作要求、最低学历、最低工作经验、工资(高/低/类型)、截止日期和工作职能。设定职位名称中包含“Data”,共收集到321 个相关的招聘广告。笔者获取样本的招聘广告列表是以图书馆为中心,最终收集的样本主要分布于学术/研究机构(学院/大学)。
2.2 研究方法
为了确定数据相关工作需求的特征和模式,笔者分析了321 个相关工作数据集,重点关注招聘广告发布的年份、职位名称、知识和技能需求、职能和职责。
人工审核了所有系统给出的职位描述和职位要求,手工提取出具体的知识技能要求和职责。然后,将数据导入到Vosviewer,得到知识技能和工作职责中关键词出现的频次和共现网络,进而识别数据相关工作需要的核心技能和工作职责。
另外,本研究使用Pajek 提供的方法来进行知识技能要求和工作职责的社区划分,然后将共现网络图和社区划分从Pajek 导出到VOSviewer,以进行网络社区的可视化。
通过对ALA JobLIST 里12 年间数据相关工作招聘广告的分析,了解数据相关工作的资格要求与工作职能,为数据科学教育提供建议。
3 结果分析
3.1 数据人才需求的逐年分布
如表1 所示,样本中第一个数据人才工作职位需求发布于2006 年,招聘社会科学数据馆员,主要从事社会科学数据的统计工作。从2007 年到2011 年,ALA JobLIST 上每年有大约10 人的数据人才工作需求。2011 年到2012 年、2015 年到2016 年,工作需求的数量显著增长。2018 年的工作岗位数量有所下降,这是由于2018 年的数据不完整造成的。从ALA JobLIST 中数据人才需求数量的逐年分析可以看出,图书情报领域对数据科学人才的需求逐年增加,也可以看出图书馆越来越多地参与数据科学工作。
3.2 职位名称分析
对于求职者来说,职位名称是衡量一个职位是否合适的初步标识,也是一个工作需求最核心的概括和凝练。数据人才需求范围非常广泛,数据人才需求相关职位名称分布非常分散,共有186 种不同的与数据科学相关的职位名称。图1显示了数据人才工作需求中至少出现三次以上的的职位名称,共18 种。
表1 数据人才逐年工作需求
图1 数据相关工作职位名称
“数据服务馆员”的职位最多,样本中共出现了24 次,其次是“社会科学数据馆员”和“数据馆员”,分别出现了18 次和16 次。其他职位名称还包括“研究数据馆员”“商业数据馆员”“研究数据管理馆员”“数据管理专家”“数据策展员”等。所有的职位名称中都包含“数据”,所需从业者负责及完成与数据相关的工作职能和职责。
为了更好地挖掘职位名称中包含的内容和范围,本研究分析了职位名称中包含的关键词,最常见的工作类型是图书馆馆员,其次是专家和协调员,其他工作类型还包括主任、管理员、顾问、研究员、负责人等。相关的学科包括社会科学、商业、科学、地理等。主要工作包括服务、研究、管理、技术、协调、策展、分析等。
3.3 知识和技能要求
在所有数据人才工作需求中,有262 个样本可以从职位描述和系统给出的职位要求中提取特定的知识和技能要求。数据相关工作所要求的知识和技能主要有:管理、软件、元数据、团队管理、统计软件(SPSS、SAS、STATA)、教学与培训、数据库、数据策展、交流能力、数据保存、分析技能、数据可视化等(见表2)。
基于知识和技能需求的关键词共现情况,构建了共现网络,通过pajek 中的Louvain 方法,将数据人才的技能需求划分为3 个簇,也就是把需求分为三个大的类别,如图2 所示。
数据人才知识和技能要求包括以下三个方面。
(1)数据管理、数据保存技术及交流和协作能力。主要包括:熟悉数据管理计划和数据保存工具;理解研究过程和数据生命周期;具有数据管理知识(元数据、数据检索和研究数据使用、格式迁移、保存),熟悉XML、SQL、MySQL、Unix 文件系统等数据管理技术;了解地理空间元数据和数据管理标准和实践;了解数据管理、策展和保存的原则和实践;具备DSpace 和Fedora等存储库系统和内容管理系统的知识;优秀的沟通、协作和解决问题的能力;能够在团队环境中有效地与教师、学生和员工一起工作;优秀的口头、书面、人际沟通、组织和分析能力。
(2)程序和脚本语言、元数据标准。主要包括:熟悉主要元数据标准(如DC、DDI、OAIPMH、MODS、METS、PREMIS 或 MARC) 和脚本语言(如 PHP、PERL、Python、Javascript);有语义技术和数据检索经验;掌握用于数据密集型研究的脚本语言;有使用网络书目数据库搜索的知识;了解开放获取的趋势和问题;优秀的技术和分析能力;熟悉数据可视化工具;有使用关系数据库的经验。
(3)社会科学数据分析方法和信息素养培训经验。有使用统计软件包(如Stata、R、D3、MATLAB、SAS 或SPSS)的经验;熟悉适用于社会科学的数据发现分析技术和统计方法;熟悉业务数据库和资源;丰富的商业和财务知识;有研究机构的公共服务经验;熟悉学术交流过程的知识(出版、版权、资料库);在学术机构有教学经验和信息素养教学经历;教学和开发以用户为导向的培训和信息资源。
3.4 工作职能/职责分析
数据人才相关的321 个招聘广告中,有269 个具有一个或多个系统给定的工作职能(见图3)。数据相关工作最重要的职能是研究 (64),其次是信息技术 / 系统(49)和数字项目(48)。参考文献(42)、区域研究/学科专家(38) 和行政/管理(31) 在工作职能表中出现均超过30 次,是数据类工作的主要职能。
图3 数据人才工作职能
根据工作职能的共现情况,识别出三个大类的工作(见图4),分别为:① 数字项目、数字保存、特殊馆藏和档案、知识管理类工作;② 研究和参考咨询、馆藏开发、信息素养和培训类;③ 信息技术和系统、多媒体和网络服务、培训技术及开放获取类。
图4 工作职能共现网络
在321 个数据人才相关工作样本中,有294个样本可以从职位描述中提取特定的职责。数据类工作职责主要包括数据服务、开放获取、顾问、培训、保存、可视化等。基于工作职责包含的关键词的共现情况,构建共现网络,将工作职责划分为2 个大类(见图5)。
图5 工作职责共现网络
(1)教学、培训、课程建设、顾问、数据服务、外联等工作,主要职责包括:促进和整合跨学科的数据服务和数据素养到图书馆教学中;推进开放数据,为从事数据密集型研究项目的教师提供服务;为学术界提供广泛的数据服务;为图书馆数据扫盲提供培训和支持;开展关于可视化工具和技术的研讨会或相关培训;与各图书馆的人员就研究、教学和数据相关项目进行合作;指导学生查找数据集,并教导学生如何清理和操作数据,以用于分析和统计应用。
(2)图书馆的研究数据、元数据、数据集合、数据馆藏的管理、保存、策展及获取等工作,主要职责包括:社会科学统计数据收集,方便获取更多的数据资源;选择、获取、管理和交付数字数据集合,建立数值和空间数据收集,方便跨学科访问其他数据资源;参与数据收集的选择、组织、交付和管理;开发并提供广泛的研究数据管理;参与数据文档计划元数据项目;制定长期元数据战略规划;分析来自数据和内容所有者的元数据,以确保质量和完整性;选择适当的元数据标准和模式,并就创建和清理元数据的工具和工作流提供建议;为可用的数据集创建元数据;监测和研究可能适用于数据服务的新数据管理方法和技术;在当前和未来的数据保存基础设施中实现数据管理系统;设计有助于数据可视化、数据和信息访问、数据发现、数据挖掘、数据发布、数据管理和保存的流程;确定、评估和推荐定性和定量(文本分析)数据集;获取、存储和维护数据集。
4 启示与建议
针对ALA 的招聘广告内容分析提供了快速演变的数据科学领域专业人员的需求和职责的详细画像。招聘方正在寻找合格的候选人来从事数据相关的工作。分析结果部分显示了数据人才所需要或期望的属性,如教育、知识、技能和能力,以及职位所要求的职务和职责,也为图书馆学信息科学如何参与并融入数据科学提供了路径。为我国图书情报领域开展数据科学教育带来了以下启示。
4.1 构建多层级的数据科学人才培养体系
图书情报学和数据科学具有紧密的联系,图书情报领域可依托信息管理等学科优势,整合学校人文社会科学的有关力量,积极开展数据科学教育。图书馆拥有丰富的纸质馆藏、数字馆藏和数字化项目,数据科学教育需要资源和项目的支撑,图书馆天然的馆藏为数据科学教育提供了有利的资源基础。图书馆可建立图书馆特色课程体系以补充数据科学专业教育的不足。可将各种图书馆领域擅长的数字化技术,与人文研究和工作场景深度结合,为教师、研究生和本科生提供数字学术工具和方法的培训。
4.2 设计多层次的数据科学课程体系
图书情报领域数据相关的工作需求逐年增加,越来越多的图书情报毕业生将来会从事数据相关的工作,这就需要开设数据科学相关的课程。基于数据人才的技能需求,可分层次分类别的构建课程体系。① 第一层次:数据管理、数据保存技术;② 第二层次:程序和脚本语言、元数据标准;③ 第三层级为社会科学数据分析方法和信息素养等方面的课程。
4.3 依托数据科学的实践性项目平台
数据科学是具有高度实践性的学科,其教学内容、研究成果往往来源于也体现在实践项目成果中。基于招聘广告的分析,许多数据科学的职务与项目管理有关,同时项目管理能力也是招聘广告里出现的重要技能需求。图情领域发展数据科学可以推广这样的“项目学习”式,让学生们利用项目平台边工作边学习、边理论边实践。
5 结论
本研究也具有一定的局限性。这项研究仅限于ALA JobLIST 网站上2006-2018 年的招聘广告。未来研究需要扩大招聘广告的范围,以发现更大范围的工作需求来源。此外,未来的研究需要补充其他研究策略,如调查或采访该领域的从业者。
该研究为数据科学相关的工作需求提供了一个具体的蓝图。数据科学专业人员应密切留意工作的需要,以确保他们的技能、知识和能力与时俱进。图书馆学信息科学教育同样应该跟上这个迅速发展的领域的趋势,以确保其课程和教育计划适合为数据人才承担新角色做准备。