LIS学科中数据科学课程体系设置研究
——以iSchools高校课程调研为中心*
2019-04-16苏日娜
苏日娜,杨 沁
1 研究缘起
数据科学(Data Science)缘起于计算机科学领域,1960年由彼得·诺尔提出[1]15,真正作为一门学科则是2000年前后。当前全球呈现数据科学人才紧缺局面。麦肯锡全球研究所(McKinsey Global Institute)报告显示,至2018年美国面临14 万至19 万的数据分析专业技术人才以及150万数据科学人才的巨大缺口[2]。英美高等教育机构针对这一现象,重视设置数据科学硕士学位以及有关项目,培养数据科学后备人才。美国率先将数据科学作为一门学科,哈佛大学、哥伦比亚大学、加州大学伯克利分校从开设数据科学课程开始,逐步设立硕士研究生专业(教育项目)。本文以数据科学课程设置作为研究核心,在图书馆与信息科学领域背景之下,分析iSchools 高校①数据科学课程设置情况,梳理图书馆与信息科学领域中数据科学学科教育体系的发展态势。
2 文献综述
2.1 数据科学教育基础理论研究
数据科学教育围绕“数据科学概述、数据预处理、数据统计、机器学习、数据可视化、数据计算、数据管理编程”等多模块开展。杨旭等[1]的《数据科学导论》是我国第一部系统阐述数据科学理论的著作,指出数据科学的最终目的是从数据中挖掘有用的信息,让数据增值;该学科关注的是在大数据背景下,如何运用各种与数据相关的技术和理论服务于社会。
在专业人才培养方面,司莉等[3]讨论了科学数据管理专家的职业要求,将其与图书情报教育的课程进行对比,考察两者的匹配程度;通过对图书馆科学数据管理岗位招聘启事的分析、iSchools 院校科学数据课程及培训计划的调研,对图情学科下的数据管理人才能力要求和人才培育体系提出建议。
在项目介绍和总结方面,Il-YeolSong[4]认为iSchools 是数据科学教育的先驱,提出理想的三层结构分层数据科学教育框架(DSEF),采用基于用户、工具、应用程序三个焦点法来实施项目。该框架帮助学生从大局出发,思考数据科学问题,该框架也成为iSchools 数据科学教育区别于计算机学院或商学院的优势。YDemchenko[5]介绍了始于2015年9月的EDISON 项目,阿姆斯特丹大学是该项目的协调成员学校和基地组织,EDISON 数据科学框架(EDSF)是该项目的核心成果,该框架下的理论组成包括数据科学能力框架(CF-DS)、数据科学知识体系(DS-BOK)、数据科学专业概况和职业分类(DSP)、数据科学分类学和科学学科分类。Rong Tang 等[6]通过对30 个随机选择的美国数据科学项目进行探索性内容分析,指出未来研究应包括数据科学项目的领导者、教师、在读学生和毕业生,以了解项目的发展历程、既定目标实现的有效性、课程的运作结构等。
2.2 数据科学课程体系研究
在美国,数据科学最初于2010年后以专业课程出现在大学计算机科学学院,数据科学课程体系设置领域的研究者多来自计算机科学领域。加州大学伯克利分校于2011年开设“数据科学导论”课程,2012年开设“数据科学和分析”课程;伊利诺伊大学香槟分校2011年举办“数据科学暑期研究班”(Data Sciences Summer Institute program);哥伦比亚大学2011年开设“数据科学导论”课程,2013年开设“应用数据科学”课程,2013年秋季通过“数据科学专业成就认证”;华盛顿大学(University of Washington)2013年5月开设“数据科学导论”课程[7]。何海地[8]调研全美23 所知名大学数据分析硕士课程网站,对研究生教育的背景、特色和现状等展开讨论。许嘉等[9]调研了哈佛大学数据科学课程教育,从教师授课、课程实验、课后作业、课程项目、课外阅读五个维度展开分析;从领域知识、基础理论、计算机工具和社会实践等方面对数据科学人才培养提出建议[10]。王迪等[11]调查发现美国数据科学学士学位教育处于初始发展阶段,硕士研究生阶段有数据科学项目系列计划;数据挖掘、机器学习和数据可视化是当下最流行的核心课程,统计和数据库是本科与硕士研究生阶段所开始的最基本课程。徐昊等[12]以吉林大学为例,从课程目标和课程模块设置方面具体介绍面向通识教育的数据科学课程教学实践。
数据科学具有多学科交叉性强的学科特点,图书馆与信息科学领域研究者对其高度关注。根据教育部关于公布《2016年度普通高等学校本科专业备案和审批结果的通知》,共有35 所高校获教育部批准开设大数据专业。第一批(2016年2月)获教育部批准开设“数据科学与大数据技术”本科新专业(简称“数据科学专业”)的高校有3 所:北京大学、对外经济贸易大学和中南大学;第二批在教育部公布的高校新增专业名单中有中国人民大学、复旦大学等32 所高校,中国人民大学数据科学专业开设在统计学院,由统计学院、信息学院、统计与大数据研究院、数学科学研究院联合培养。鉴于数据与信息的紧密关系,信息科学(情报科学)领域也一直关注该课程。叶鹰、马费成[13]提出数据科学与信息科学在理论逻辑和技术方法上一脉相承,建议用数据—信息—知识、计算技术—数学方法—专业知识、人——技术——数据3 个“三位一体”模式来统一数据科学和信息科学。
2.3 研究成果评述
近50 多年数据科学教育与课程体系研究取得飞跃性发展。整体而言,无论是教育层面的研究还是学科层面的研究,我国学界集中于数据科学学科定位与案例分析,而数据科学学科的边界和归属问题有待进一步论证。在数据科学学科教育实践方面,国外经历3 个主要阶段:(1)结合数学、统计学课程设立数据科学及相关课程体系,传授数据库、数据管理知识;(2)数据类课程越来越细化,朝向专业学科方向发展;(3)根据不同学科领域的数据教育需求,设计有各类数据科学教育项目,面向群体以研究生为主。目前数据科学向人文社会科学渗透,近些年出现很多人文社会科学需求的数据科学项目,但图书馆与信息科学领域中系统性的课程体系整理和数据科学学科定位问题的探讨仍有不足,这正是本文的研究重点。
3 调研设计
3.1 调研范围
笔者在2018年2月对83 所iSchools 核心成员高校数据进行查找和筛选,在调研初期发现,开设数据科学研究生项目的各iSchools 高校之间在学科背景方面存在差异,学科主要涉及计算机科学与技术、电子与通讯、传播与媒介、图书情报与档案管理四个领域,本文主要在图书情报与档案管理的学科背景下展开分析。另外,由于商业分析硕士项目将数据分析与商业管理相连结,该项目对数据分析保持有高度关注和重视,可视为数据科学相关项目,故将部分院校的商业分析项目也纳入到调研之中。在上述选择原则下,本文将iSchools 核心成员高校中所开设数据科学或商业分析研究生教育项目的15 所院校作为研究对象,对其数据科学课程体系进行文献调研和内容分析。
3.2 调研方法
本文首先对调研院校数据科学项目的基本情况进行逐一梳理与观察,对15 所iSchools 高校信息与科学学院(信息学院)的数据科学及相关项目进行对比(见表1),主要从学位和项目的培养重点着手,以期大致了解iSchools 联盟高校开设数据科学的目标范围和培养方向;对其办学定位入手,从学生入学要求和人才培养目标的角度做出归纳总结,期望可以更细致地明确各学院在数据科学项目建设中的长期规划和考量;教学是项目建设战略的重点内容,对课程体系设置的梳理,是对教学开展、实施和人才培养情况全方位理解的最直接方式,为了更客观地了解到iSchools 院校课程设置的发展趋势,课程目标和课程制度的归纳分析亦可作为有效的参考信息。院校排序按照iSchools 的成员目录表确定先后顺序,采用网络调查法、内容分析法。
表1 开设数据科学研究生项目(及其相关方向项目)的iSchools高校
(1)网络调查法。在iSchools 的83 所成员目录中逐一访问,浏览其Program 或Degree 栏目,按Data Science 项目或方向进行网络调查。大部分院校直接开设以数据科学命名的研究生项目,少数院校将“数据科学”放置于其他名称命名的研究生项目之下,并且需要在“Concentrations或Track”栏目中获取相关资料。
(2)内容分析法。通过图书馆数据库、iSchools联盟官网及各院校官网获得相关主题论文、学术著作、项目介绍文本以及课程大纲等研究材料,从学术角度进行内容分析,汲取启发性经验。
4 数据科学项目
国外数据科学项目的教育集中于研究生层次,学科领域涉及工程、商业、艺术与科学、数学与统计学,计算机科学等学科。此外,跨学科的独立研究中心和专业研究机构也有涉及在内。以调研为例的15 所院校信息来看,其中有9 所高校的数据科学项目主要由信息学院,或是信息学院与其他学院、机构合作开设,另6 所院校的商业分析项目则主要由商学院开设。
对比美国其他知名大学的数据科学硕士项目开设院系,哈佛大学由应用计算科学研究院开设,哥伦比亚大学的数据科学项目下设在付氏基金工程与应用科学学院,麻省理工大学、斯坦福大学、纽约大学等多由商学院设立[8]。
这些学校的开设背景明确显示出,单一主题领域已经不足以涵盖数据科学项目所需的内容和技能。而iSchools 学院以LIS 教育视角汲取多方经验推动数据科学项目的发展与进步。
4.1 数据科学项目介绍
15 所iSchools 联盟高校信息与科学学院(信息学院)的数据科学项目基本情况详见表2,对各个院校该项目的培养重点进行梳理。
4.2 数据科学项目办学定位分析
LIS 教育中的学科发展呈现出人才培养的信息化趋势。在数据科学蓬勃发展的势头下,信息类课程和专业仍然占据LIS 学科体系中的主要位置,从学科设置到人才培养依然有值得讨论的空间。受人才市场需求影响,尤其是教育环境的改变,信息科学与数据科学之间的关系不仅仅局限在信息与数据之间的关系层面,专业人才培养与学科发展是数据科学作为学科方向发展的更为重要的因素。数据科学学科的信息统计表明,LIS背景下人才培养目标定位由信息专业人才培养逐渐细化为数据科学或数据分析的方向,数据科学学科设置也多为LIS 研究生教育项目中资讯学科相关方向或信息科学之下的专门培养方向。
4.2.1 学生入学要求
不同院校对于申请学生的入学要求都有较为具体的要求,如本科学术背景以及语言能力证明。谢菲尔德大学数据科学硕士项目对学生的工作经验要求并非必须,学生也不需要事先了解统计数据或数据分析的相关知识,缺乏统计和数据分析基础的学生不必为此过于担忧。但对于第一语言并非英语的申请者,必须有英语语言能力的书面证据,以证明申请者达到英语入学要求,IELTS 总体得分6.5 分,听力、读写各6 分才可获得申请资格,谢菲尔德大学明确给出具体的英语量化标准,以确保学习过程的沟通顺畅[14]。
加州大学伯克利分校信息与数据科学硕士招生计划全年启动3 次,分别为1月,5月和9月,申请者应具备优秀的成绩记录,包括:不低于3.0的GPA;具体的GRE或GMAT分数,以及TOEFL分数,同时申请者需要具备数据结构、算法和线性代数知识,并熟练使用Python 或Java 等编程语言,因此,该校对学生的编程能力有极高的要求。若其学术或工作背景缺乏该类经验,但符合其他入学要求的申请人,必须在第一学期参加相关专业课程来补充专业背景知识。学费为每学期2333 美元,并有693.75 美元的额外学杂费[15]。
表2 iSchools联盟高校信息与科学学院(信息学院)数据科学(及其相关方向)项目概况
雪城大学应用数据科学项目要求申请材料中包括学历证明、500 字个人陈述、2 封推荐信、简历、GRE 成绩,国际学生还需提交托福或雅思成绩以及财务文件等[16]。伊利诺伊大学香槟分校数据科学项目不接受本科为三年制的申请人,申请人必须获得(或即将获得)4年制学士学位,GPA至少3.0 或者更高,并且申请人必须具备计算机编程,数据结构算法,计算机体系结构和计算理论方面的足够背景,官方强烈建议申请人在附近的当地大学完成上述领域完整课程的学习[17]。阿姆斯特丹大学对申请人的学科背景不作限制[18],该校的申请制度意味着各种学科背景的学生都被欢迎申请,但学生需要具备一定的统计技能和编程能力,这对没有相关学习或工作经验的申请者是一个不小的挑战。
4.2.2 人才培养目标
培养新型信息职业者是iSchools 学院的重要目标之一,同时,iSchools 学院对人才的培养更加强调能力导向和未来导向。能力导向强调培养分析问题、解决问题的能力以及实际动手的能力;未来导向以培养预期中未来可能需要的人才为目的,强调跨专业的课程整合。很显然,数据科学培养的人才匹配于新型信息职业领域,也是目前LIS 学科体系下除图书情报学之外,涉及信息领域学科中新兴发展的一门学科。
根据表2来看,LIS 学科背景下的数据科学专业人才培养正是着眼于能力导向和未来导向的人才培养模式,从实践领域与社会未来需求的层面设置学科课程体系。印第安纳大学伯明顿分校[19]关于数据科学的人才培养定位更多地与计算机科学相结合,更多的侧重于培养定量分析和计算机科学人才,并且学院依托有供实践的15 个相关实验室,用以培养可应用到不同行业领域中的数据科学专业人才。卡内基梅隆大学海因茨学院设置有专门的数据分析研究方向项目,并与校外机构合作建立实验室,一方面可以满足不同领域的数据分析人才需求;另一方面,可以为学生提供及时便捷的实践平台[20]。
谢菲尔德大学信息学院Brendan Tierney 对数据科学专业人才的论述是:现在所谓的数据科学家更多被卷入商业利益,并且被过度放大和使用,数据科学不是一些组织或公司用来处理任何问题的武器,也不是能够用来传送任何有价值内容的媒介,更多是作为一个宏观层面去解决问题的工具。他依据是否涉及商业、营销、收益而区分为I 类和II 类数据科学家,I 类数据科学家是指传统型在数据整合和分析层面能灵活使用各项技术的数据人才;相较于I 类数据科学家,II 类数据科学家的专业知识和技术稍逊,但具备商业知识和市场战略思维[21]。Brendan 对数据分析人才的界定更多是从社会需求角度出发,II 类型数据科学人才的培养,不仅仅局限于机械的知识与技能,应该适用于更宽广的信息领域。从表2来看,谢菲尔德大学信息学院关于数据科学设置的初衷仍然偏重于I 类型数据科学人才的培养。
5 数据科学课程体系设置分析
5.1 数据科学课程设置情况
通过对调研范围内的院校官网与教学大纲的梳理基础上,得出以下iSchools 联盟高校信息与科学学院(信息学院)课程设置情况,具体详见表3。
5.2 数据科学课程设置分析
15所院校的数据科学课程大体划分为核心课、必修课、选修课三种类型(核心课程也属于必修课)。谢菲尔德大学没有网络学习课程,反映该校更偏向面对面的授课的形式,方便师生进行学术交流。印第安纳大学伯明顿分校混合制培养分4 种方式,极具灵活性,即使因为工作而无法在校内进行学习的学生,也可以进行网络远程学习。
谢菲尔德大学数据科学方向涵盖“数据科学导论”在内的5 门核心课程;商业智能在内的7门选修课程[14]。该校数据科学硕士计划顺应大数据发展迅猛态势而生,意在使学生深入理解数据科学及其在不同组织环境下的应用,从而培养出处理结构化、非结构化数据和数据挖掘的专业性技能,还有使用软件工具的实践经验。加州大学伯克利分校数据科学课程分为3 个单元,为基础课程、高级课程以及Capstone 课程,并且反映出对机器学习以及编程的高度重视程度。
表3 iSchools联盟高校信息与科学学院(信息学院)课程设置列表
加州大学伯克利分校办学理念之一即为追求学术上的卓越。该校数据科学硕士项目的高级课程设置,展示出伯克利分校对培养精英型数据人才的期望。美国前总统奥巴马2012年3月29日宣告“大数据研究与开发计划”(Big Data Research and Development Intitiative)启动,面向于加快美国的教育与学习革新进程。美国国家科学基金已向加州大学伯克利分校给予1000 万美元的资金支持,鼓励培养数据科学人才[22]。
雪城大学应用数据科学项目包括数据挖掘在内的6 门普通核心课程,以及4 门分析应用核心课程:会计分析、营销分析、财务分析、管理科学原理,这些课程可以满足学生关于希望通过数据来进行商业分析的需求。还有“建模与分析”等10 门选修课程。雪城大学CAS 获得认证后可继续学习iSchools 硕士认证项目的相关课程[23],新颖之处在于两者之间可以累积并转换课程学分,非常适合对数据科学应用有强烈兴趣的学生。
新泽西州立罗格斯大学的课程设置首先必须满足零学分课程、最低技术课程要求、基础要求的先决课程要求,数据科学方向有其另设的4 门必修要求课程:数据科学基础、数据分析、使用数据解决问题、数据库设计和管理,信息可视化等9 门选修课程。罗格斯数据科学硕士培养目标在于将学生培养为领导型人才,不仅具备分析性思维,还能有强大的数据处理能力。
5.2.1 数据科学课程目标设置分析
(1)致力培养复合型数据科学人才。由表3结合9 所院校的数据科学课程设置,课程整体上呈现出选修课数量大于必修课数量的特点,必修课程为学生掌握数据科学基础理论提供了条件,但同时通过设立不同类型数据科学方向的选修课程,以使得学生可根据个人兴趣爱好拥有充分的选择范围,学生能自主选择最为契合自身职业发展的课程来学习[24]。这些课程绝大多数围绕数据处理、分析展开,数据分析、数据挖掘、数据可视化出现的概率最高。此外,数据科学课程设置同样符合LIS 教育特点,呈现跨学科多元化的特点,涉及图书情报学、计算机科学、统计学、传播学,管理学等,但核心课程还是围绕数据来进行划分,以此来培养出具备数据可视化、数据分析、计算机编程等能力的复合型数据科学人才。
值得注意的是,“数据方向”广泛地纳入人文类问题,如数据伦理、人性与价值探讨(W231.Behind the Data:Humans and Values,加州大学伯克利分析)、隐私问题(CSCIB649:Advanced Topics in Privacy),以“人”为中心的价值观得到足够的重视,LIS 中的其他专业培养方案也呈现出同样的信息。
(2)跨学科培养同时注重实践性。回到本文的上述学科专业优势和课程目标,其实多元化、跨学科的教育理念日渐凸显,这与数据自身属性有直接关系,产生于各行各业的数据多种多样,数据科学围绕所依赖的数据呈现广泛性和多样性特点,导致数据科学人才培养方向呈现多元、多学科形态。与此同时,理论课程设置较多也是LIS教育下数据科学的突出特点,虽然上述提到部分院校设置有相关实验室以供学生展开实践,但是总体而言,硕士项目课程中关于实践性的课程设置较少。虽然这与美国高校教育整体的实践导向不相一致,但作为一门新兴的课程以及学生的学科背景差异,理论学习最为基础和重要。
Joan M.Cherry 等[25]作了一项长达4年的学生对LIS 学科研究生项目的认知情况调研,调研对象是1000 个多伦多大学信息科学硕士研究生,研究结果值得反思:三分之二的学生不满意LIS硕士项目质量;普遍反映硕士学习阶段缺乏获得一些与工作直接相关的实习经验,使他们无法顺利步入工作岗位;但在考察的4年中,有一段时间有40%的学生想更多地获得理论知识,4年里学生对理论与经验的权衡发生微妙的变化,这源于学生对学科的认知、职业的看法有一些改变。该研究值得受到LIS 研究生培养项目的重视,尤其是该项目的初始阶段,考虑如何在学科与职业定位层面,并结合LIS 教育与数据科学,培养符合社会需求的LIS 人才,值得进一步探讨。
5.2.2 数据科学课程制度设置分析
由表3看,数据科学硕士的学制主要分为全日制和非全日制两种。谢菲尔德大学提供1年的全日制硕士学位年限,2~3年的非全日制硕士学位年限。加州大学伯克利分校的非全日制在线课程上课时间安排为12~20 个月。针对数据科学方向的培养途径除传统的学位教育,还包括认证学习的人才培养方式[15]。雪城大学提供数据科学高级研究认证(CAS),该认证可作为独立性证书或者作为研究生学位课程的一部分[16]。除了提供校内授课的方式,印第安纳大学伯明顿分校和新泽西州立罗格斯大学还设置了在线网络课程。新泽西州立罗格斯大学研究生项目纳入WISE 教育②扩充了学生的教育机会,很好地利用了远程教学方式,提高了在校教育质量。
威斯康辛大学麦迪逊分校数据科学理学硕士课程设置时间为晚上在华盛顿大学西雅图校区举行[26]。数据科学课程制度设置的灵活性,方便学生巧妙安排学习时间与实践项目时间,并且相关认证证书的设立是对数据科学复合型人才缺口的补充途径,也反映出了社会对数据科学人才的迫切现实需求。
近年还有很多学校开设数据科学的MOOC教学平台,华盛顿大学William Howe 提出MOOC是面向大众教导数据科学技术的一条途径。根据2014年美国国家学术报刊出版的《培训学生从大数据中提取价值研讨会摘要》 报告(Training Students to Extract Value from Big Data summarizes a workshop),数据科学MOOC 参与者往往是计算机科学专业人士而非学生。该报告也涉及讨论其他的数据科学教学方式包括证书认证、学位授予、Boot camps、私教课。
加州大学伯克利分校设置有数据科学Boot camps 学习方式,Boot camps 是伯克利分校研究生进行Python 计算机科学课程的先决训练,在该训练过程中,学生需要掌握一种编程语言。Boot camps 耗时3 个全天,每天有6~8 节讲座,课程指导教师会来回走动来协助学生。2010年第一年有85 名学生参加此项目;2013年Boot camps 参加学生增加到250 多名。Joshua Bloom 提出:Boot camps 和其他短期课程的设立看似成功高效地给该领域的科学家传授了数据科学技术,以及满足了科学界的需求;然而关于如何将这些类型的课程与传统教育课程进行整合,仍旧悬而未决[27]。
6 结语
数据科学已成为最具挑战的领域之一,在各类组织中,iSchools 一直致力于图情教育探索,未来融合数据科学的图情学科发展无法避免各类挑战与困境,但也意味着机会与创新同在。国内硕士层次数据科学项目的开展前景广阔,世界一流学术共同体iSchools 成员院校开设的数据科学教育项目,以及项目的课程设置具有极强的学习研究意义,本文对这些数据科学项目进行梳理,或能对国内数据科学教育与课程设置以及学科交叉发展提供些许帮助。在今后的研究中,需要根据实际变化,对比分析国内外数据科学变化情势,关注社会趋势,以更全面地为探索我国LIS学科下适合图情学科的数据科学教育路径服务。
注释
①iSchools联盟发起于2003年的“信息学院运动”,之后由北美19 所图书情报学学院和相关院系共同创建iSchools 项目。2007年北美19 所iSchools 成员宣布成立iCaucus联盟,并使用iSchools作为联盟名称。2019年1月,iSchools 联盟共有98 个成员,来自各国的高校图书馆与信息学院,本论文写作过程中查阅的iSchool 联盟成员为83 个。
②基于网络的情报学教育。