当图书情报学科遇上数据科学:交叉与拓展*
2022-12-24刘桂锋
程 铄,刘桂锋,刘 琼
0 引言
数据科学作为新兴学科,借助大数据思维与交叉学科知识,实现了从数据到信息、知识、智慧的转变,为社会进步做出了贡献[1]。对数据科学的研究较为多样且分散,研究内容涉及数据科学与大数据之间的发展现状[2]、图书情报学科(以下简称“图情学科”)视角下的数据科学与信息科学之间的关系[3]、国外数据科学教育鸿沟[4]、数据科学未来发展[5]、战略规划[6]等,部分学者则通过分析iSchool在数据科学教育中面临的机遇与挑战[7],为引入数据科学的图情学科发展提供对策。数据科学研究的交叉性还在深化,在各学科的应用研究也将继续。图情学科因自身特点,比其他人文社会学科更早接触和拥抱新技术,并从中受益[8]。因此,数据科学在图情学科中得到广泛应用与研究,但系统探讨图情学科与数据科学交叉关系的文章较少。本文从图情视角下数据科学的学科建设、数据科学的专业教育、职业教育以及数据科学的工具、技术与应用4个角度来剖析图情学科与数据科学交叉研究的发展现状,为图情学科与数据科学研究的融合发展提供参考,发挥图情学科优势,结合数据科学理论内容促进彼此双向、协同、融合、深入发展。
1 图书情报学科与数据科学的交叉研究
1.1 面向数据科学的图书情报学科建设
图情学科在数据驱动下迎来了新发展契机,正在经历从研究小规模数据、结构化数据拓展到大规模非结构化数据的转变[9]。数据科学作为以研究数据为核心的新兴学科,其引入图情学科,会带来全面深刻的影响,主要体现在图情学科研究对象的细化和深入、研究内容的扩充、解决方案的优化以及理论的变革与建构[10]。
(1)研究对象和内容的拓展与细化。图情学科优势体现在信息检索和组织等方面,研究对象集中在文献、信息和知识,而在数据科学应用下,研究对象向网络复杂数据和复杂结构数据拓展。这一转变促使图情学科的研究对象回归本源,即从数据当中挖掘有价值的信息,进而为决策提供数据支撑。事实上,图情学科引入数据科学是学科的自我革新:一方面,引入数据科学的思维和方法,促进图情学科发展,丰富图情学科的研究内容[11];另一方面,研究范畴得到扩展,使图情学科的发展空间因为融合而日益开阔。
(2)服务对象的多样。图情学科通过引入数据科学理论,扩充研究内容和研究对象;通过数据采集和数据处理,结合大数据刻画的社会发展基本模式和规律,为用户提供精准化服务,将服务对象扩展到社会、经济、文化等领域。
(3)信息资源建设的完善。每天产生和获取海量的数据已成为人们生活的常态,数据背后可开发的价值不可估量,擅长信息组织的图情学科借助数据科学研究工具挖掘数据的潜在价值会大大促进信息资源建设的完善。此外,数据科学的思维模式、技术方法为信息资源建设提供了新的思路,如多元聚合、数据驱动的信息资源建设及其服务架构设计等方面研究的涌现。
(4)理论构建的推进。构建适应大数据环境下图情学科独特的方法体系是学界努力的方向,这离不开对图情学科的内在逻辑和发展路径的明晰。图情学科的内在逻辑是指为满足人类社会认识的高级化需求而积累的全部知识、技能和工具[12];在未来发展路径上,以建设有竞争力学科为导向,通过交叉融合推进学科优化[13]。引入数据科学符合图情学科的发展路径,在与数据科学的交叉拓展中,既推动图情学科领域工具应用技能的优化,也推进该学科理论的构建。
当然,学科理论的构建离不开学科建设的支持。近年学科建设在推动我国高校赶超世界先进水平的过程中起到了重要作用,尤其体现在人才培养方面。本文从专业教育和职业教育两个方面来探讨图情学科领域内数据科学的人才培养。
1.2 数据科学的专业教育
调研图情学科领域内数据科学的文献,发现有关数据科学的专业教育集中在人才培养、课程设置、教学手段等方面。数据科学领域人才培养的目标是培养学生的以数据为中心的思考能力,在培养实际应用能力前,首先是对信息素养能力的培养。保罗·泽考斯基指出,信息素养就是利用大量的信息工具及主要信息源使问题得到解答的技术和技能[14]。在数据密集型科研范式兴起和信息素养深入发展的背景下,基本的信息素养培养已不能完全满足社会发展需求[15]。黎海波等[16]、周林兴等[17]从本科生数据素养培养和研究生数据素养培养的课程设置方面进行了探讨。
纵观图情学科内数据科学专业教育现状,我国数据科学专业人才培养需要借鉴国外经验,从国家战略高度进行顶层设计,促进教育界与产业界协同,共同构建数据科学人才培养体系。世界一流学术共同体iSchools成员院校在对图情学科教育探索过程中对人才的培养更加强调能力导向和未来导向[18],其中能力导向是基石,是分析问题、解决问题以及实操的具体能力;未来导向是依据未来的人才需求进行的跨专业人才培养。周耀林等[19]针对信息管理专业人才培养需求,提出宽口径、厚基础的人才培养策略,以信息管理与数据科学交叉融合为重点,培养具备较强综合能力的复合型、创新型人才。
国内学者从不同角度对引入数据科学的图情学科人才培养方向提出展望,可以分为跨学科领域的复合型人才以及面向企业应用的实践型人才。跨学科型人才培养一直是学科建设的研究热点,尤其是在对大数据人才有迫切需求的现实背景下,数据科学专业作为一门既包括基础理论方法,又包含应用统计学、计算机应用和信息处理技术等多学科理论方法的新兴学科,将数据科学的理论与实践融入传统专业,如图情学科,促使传统专业升级为复合型专业[20],大大促进图情学科适应大数据环境的变化。这一点在实践应用中具体表现在本科教育培养上,工科学生开设了数据科学与大数据专业,文科学生则开设了大数据管理与应用专业,实现精准化培养。
在图情领域内数据科学的专业教育不仅培养学术性人才,还强调培养面向企业应用的实践型人才。闫慧等[21]、陶俊等[22]对iSchools联盟中开设数据科学教育项目的14所院校分析发现,大部分学校重视对学生实践能力的培养,人才培养定位集中在商业智能分析师、数据科学家、数据工程师、数据分析师、数据架构师等。朱扬勇等[23]指出,针对商业数据分析人才,要注意技能培训以及对大数据分析工具的掌握。
基于上述培养目标与培养策略,本文认为基于图情学科与数据科学的课程设置,既要符合数据科学的知识体系,即以统计学、机器学习、数据可视化以及领域知识为理论基础,研究数据收集、处理、组织以及产品开发等具体活动;又要在具体的课程设置方面遵循数据分析的生命周期规律,考虑将具体课程安排划分为通识课模块、核心课模块和选修课模块[24],整合传统课程,注重方法探究,结合领域实现具体应用;还要充分发挥图情学科优势,借助大数据挖掘技术,扩大分析对象的外延,由“信息”扩展为“数据”,实现对数据和信息分析结果的综合和提炼,培养提供支持决策的解决方案的能力。
国外iSchool院校对数据科学的研究比较完善,我国学者也对国外iSchool院校的课程设置进行了探究,以期通过案例分析来探索规律,落实图情领域数据科学的专业教育。王晰巍等[25]、曹树金等[26]调查国外iSchool院校,发现大数据相关专业在课程设置上分为核心课程和必修课程,课程数量庞多,种类多元,重视实时性的参考阅读。在课程设计方面,iSchools联盟中开设数据科学教育项目的院校授课方式灵活,包括采用多功能ZOOM[27]、MOOC[28]等平台,以“理论+实践”形式呈现,注重学生职业兴趣培养,通过学院联合以促进学科间的发展。
综上所述,国内对图情学科视角下数据科学的研究集中在数据素养、人才培养目标、课程体系、实践应用等方面。数据科学作为一门学科,本身就具有较为完善的理论基础,将其引入图情学科,将丰富图情的学科内涵,延展图情学科的研究范围。
1.3 数据科学的职业教育
图情学科内数据科学的职业教育就业方向集中在数据科学家、数据工程师、数据管理者、数据分析师、数据架构师等方面。数据科学家是大数据价值发现与挖掘的主力军,是具备统计学、计算机科学、情报学、心理学等多学科背景的综合型人才。大数据环境下数据科学的人才培养秉承多“源”异“构”理念[29],要求利用多种本源学科,整合优势学科资源,打通产学研合作壁垒,具备差异化知识结构,而该培养目标符合图情学科培养复合型人才需求,进一步验证了图情学科与数据科学交叉融合的必要性与可行性。
王东波等[30]、秦小燕等[31]分析数据科学技能特点,发现在所有技能素养要求中,“数据分析”能力位居首位,是数据科学人才的基本能力;其次要求人才具备“数据挖掘和处理”能力;最后强调特色能力培养,如Python、SQL使用,以及统计学基础、良好的沟通能力和合作精神。
图情学科内数据科学的职业教育研究并未局限于新兴职业人才的培养,还有对该学科传统人才社会角色的转换以及重新定位,如图书馆员在大数据环境下的角色定位。传统图书馆员角色是文献和检索的提供者,随着技术发展及海量数据出现,用户需求更为个性化和专业化,图书馆员应重新定位角色,从文献工作者向数据工作者转变,从服务提供者向兼顾研究发现者的身份转变,向数据时代的数据馆员转变[32-33]。相关能力的培养在数据科学的学科建设中是基本内容,因此引入数据科学,可以提升图情学科人才的专业素养和实际应用能力,推动图情学科视角下数据科学的职业教育发展。
简而言之,在图情领域内数据科学的职业教育研究中,聚焦在图情学科人才的具体就业方向上,其强调综合型应用人才的培养,以及具体的职业技能方面,如掌握Python、SQL、Excel等软件已成为求职必备要素。而在推动图情学科视角下数据科学的职业教育方面,要求图书馆员转向数据馆员,对馆员职业素养的培养要求也从信息素养转向数据素养。
1.4 数据科学的工具、技术与应用
面对数据环境,社会需求变化,研究数据驱动下图情领域的变革与创新尤为重要。因此,图情领域内的数据科学研究在宏观上,要以更广阔的视野面向国家整体信息事业,实行更有效的信息资源管理,构建创新服务模式,为建立现代化信息服务体系提供理论指导;在微观上,要认识到技术和方法的重要性,加强对数据科学技术与方法的研究,为改善信息服务提供技术基础和条件。
图情学科近年虽引起学者重视,但其在国家重大问题上处于边缘地位,想促进图情学科持久发展,需着眼于实际应用,运用数据科学理论,注重底层开发研究,在面对重大基础科学问题时能够借助相应技术,利用自身学科分析和解决问题的能力,为国家发展建言献策[34]。
纵观国内外研究,数据科学已经有一些较成熟的方法和技术,包括数据整理、数据计算、数据存储和管理、数据安全、数据分析、数据可视化等技术方法和软件工具。比如,利用谷歌提出的数据处理和分析的MapReduce算法以及加利福尼亚大学伯克利分校AMP实验室提出的Spark计算引擎,解决大部分与大数据有关的分析问题;借用PageRank、K-means算法,以多次迭代算法实现复杂数据处理[35];引入大数据管理系统,如NoSQL和RDB,对数据进行系统整理[36];使用类似于Apache Hadoop的开源软件,对大量数据进行分布式处理;加入机器学习和深度学习工具,如TensorFlow、PyTorch、Keras,分析R语言、Rapid Miner、Mahout等比较流行的大数据分析工具,为图情领域数据科学分析工具的使用提供指导和借鉴[37]。
值得关注的是,数据科学工具软件在图情研究中已得到广泛应用。张宁等[38]利用R语言构造灰色预测模型并做出精度检验,以预测未来两年该主题发文量;采用Python挖掘技术探讨大数据学术研究与人才需求的关系[39],研究微博用户关系[40]。张坤等[41]发现图情领域关于机器学习的热点主题集中在个性化推荐服务、智能信息检索和自动文本分类研究方面,为未来机器学习在图情领域的深入开展提供实践探索和理论研究参考。
可喜的是,众多学者关注对数据科学的工具、技术和应用研究,主要是借助数据科学挖掘数据背后的本质,以适应大数据时代的发展。依照计算机科学不断更新的状态,以及图情领域不断和其他学科合作的趋势,可以预见未来数据科学领域的工具、技术和应用将拓展到更多更广泛的领域[42]。
2 图书情报学科与数据科学的拓展研究
在大数据时代,图情学科与数据科学的交融是大势所趋,两者的交叉融合不但为图情学科新的生长点提供机遇,也是图情学科快速发展的必由之路,更是学科自主自强的重要途径。交叉、融合、拓展、创新是在新文科建设中对接新一轮科技革命的重要路径和手段[43],图情学科作为新文科建设中的重要一环,在新一轮科技革命浪潮中如何突出重围值得探索。因此,本文主要以“与数据科学的交叉拓展”为例,通过对比分析传统图情学科与数据科学的研究范式、研究内容、专业教育、职业教育和技术工具等内容,探讨新文科建设背景下,引入数据科学后的图情学科领域的未来发展路径和价值导向(见表1)。
2.1 图书情报学科与数据科学的交叉拓展是研究范式下的必然选择
图情学科正在借用数据科学的理论和方法,从基于对数据、信息和知识的组织、管理、演绎、统计信息学科的研究范式向基于数据的信息分析、实证归纳、知识发现和智能决策数据学科的“第四范式”转变,推动学科从“信息资源管理学科群”走向“图书情报档案与数据科学学科群”[44]。
新技术为图情学科研究提供了大量新型研究工具,对图情学科发展产生深远影响。比如,从信息链视角考虑,由于数据科学的研究起点是数据,数据科学发展使得图情学科的研究回归本源。并且,由于传统图情工作流程大都只能按照信息链进行逐级提炼升华,多集中在对“知识”这一链的加工上,数据科学等新技术融入在扩展图情工作的“起点”之余,也实现了对“终点”的扩充,如注重对数据和信息的结果进行分析等内容,数据科学的融入也促使图情学科研究可从任意节点入手进行知识挖掘。
把数据科学引入图情学科领域也是图情学科对数据密集型研究范式的回应[45]。数据科学重视通过分析海量复杂的数据解决实际问题,一方面运用相关技术和方法帮助图情学者深入挖掘本领域数据资源,发现和解释现象;另一方面也在一定程度上引导图情领域的发展方向,避免图情领域在大数据环境下失去核心竞争力。
图情学科的研究对象来源于多个层面,包括馆藏各类信息资源、知识文献、各机构建立的知识库、网络文本信息等。对于数据科学而言,融入图情学科不仅可以获得更多资源优势,还可以利用图情学科基础理论和方法体系解决相关问题,实现应用场景的扩充与深化。综上所述,图情学科与数据科学的交叉拓展是研究范式下的必然选择。
2.2 新文科建设视角下的图书情报学科发展路径
不同学科交融拓展是新文科建设的内在动力。发展新文科首先要立足于人文社会科学发展的特质和内在需求,然后充分运用互联网时代各种先进理念和技术工具,科学地推动融合发展。
图情学科作为人文社会科学,存在学科定位不够清晰、学科影响力不够、与实践脱节较严重等问题,并且在跨学科融合中出现迷失自我等问题。因此在大数据背景下,图情学科应积极与数据科学交融,在相互借鉴过程中凸显图情专业“信息”“数据”“知识”“智能”的优势与专长,注重科学研究、学科建设以及人才培养三位一体,完善课程体系和培养方案,加强学科素养教育,支持跨学科合作,促进图情学科在新文科背景下向更高更远的方向深入发展。
从研究内容看,新文科建设必须打破传统的立足于单一学科的培养理念,建立跨学科的通识教育模式[46]。数据科学无论是理论基础,还是研究方法、工具应用,大大丰富图情学科的研究范畴与应用范围,帮助图情学科解决大数据环境下的实际问题。但在这一交叉拓展进程中,也要防止因数据科学的引入而使图情学科陷入学科边界无限泛化的境地。
从人才培养看,新文科强调打破学科界限,高校人才培养理念需要更新。传统教育理念主要是培养精通某一学科的专家型人才,强调分科,存在学科壁垒。如今人才培养不仅要注重学生的理论知识掌握,还要培养应用技能。图情视角下的数据科学就是很好的结合体,通过优化课程结构,提高学生的数据素养,提升理论能力;根据社会需求,增加某一技能的具体培训,增强学生综合素质,提高核心竞争力。
需要注意的是,人才培养不仅要注重学生的技能培养,还要强化学生的学科素养,提升学术伦理水平,强调科研诚信和科研规范,为大数据环境下图情学科的持续发展培养人才。
2.3 新文科建设对图书情报学科建设的价值引领
科学技术快速发展和新文科建设推动科学研究走向数据密集型第四科研范式,呈现跨学科、交叉性特点[47]。要注意的是,图情学科无论怎么发展,与哪些学科交叉融合,都不能脱离本身的学科范畴,失去学科内核。辩证法思维方式表明工具手段虽然有可能会对思维方式和事物的本质产生影响,但在根本上并不能颠覆人文社会科学的价值构建、审美判断和文化传承[48]。因此在引入新技术的同时,要坚守人文传统,丰富理论体系,增强图情学科对技术和方法的使用,提高解决本学科和社会各领域问题的能力。
3 结语
数据科学从研究内容、课程设置及人才培养等方面对图情学科产生了影响。数据科学使得图情学科的研究范围扩大,人才培养也变得更为全面且多样化,数据处理能力得到质的提升。但对图情学科而言,不论怎样借鉴新兴学科以促进发展,都必须坚守图情学科的内核。尤其是在探讨数据科学与图情学科关系问题上,需要明确两者具有天然的边界和区别,既要为满足图情学科建设的内在要求而引入数据科学,又要防止由于引入数据科学而导致图情学科边界的模糊化和无限泛化。学科交叉是大势所趋,但要在交叉拓展中处理好“守正”与“创新”的关系,不忘初心,图情学科借助数据科学助推发展,数据科学也因图情学科加入丰满羽翼,两者的关系是相辅相成、互相成就的,在今后的学科发展中要进一步深化彼此的交叉拓展,相互借鉴,保持本心,避免本末倒置,影响自身发展。