数据科学与情报学的异同点及大数据时代情报学教育发展趋势
2021-07-09张璐
张 璐
(内蒙古农业大学图书馆,内蒙古 呼和浩特 010018)
1 绪 论
近年来,大数据的关注度不断提升,已成为每年的热门搜索关键词,在学术领域尤为明显。中国知网数据库中对“大数据”相关关键词的搜索频率很高,通过检索可以得到 5 000 余篇论文;以“大数据+影响”为主题进行检索,可得到上千的研究成果……由此可见,近年来学术界对大数据科学价值方面的研究较多。国内各高校为适应时代发展,先后成立了大数据研究中心、大数据学科专业等,致力于建立专门的专业化教学和研究队伍。众所周知,情报工作自古存在,但是,将其作为学科进行专门研究的发展时间较短,加之其本身具备高度机密的特点,使得情报学的研究起步较晚。近些年来,随着国家总体安全观的发展,推动了情报学的研究发展。在科学视角下,大数据与情报学存在密切联系,但是在概念、侧重点和教育领域等层面存在显著区别。考虑到大数据的发展对情报学的深入研究有着重要影响,因此,本文就大数据对情报学的影响及相关策略展开研究分析。
2 学科概念发展脉络
学科建立之初,需要构建完善涵盖该学科研究内容、目的、方法等基本内容的概念,以此实现学科的体系设置。由于大数据发展时间尚短,以其为研究对象的数据科学概念在国际上尚未达成一致。追溯到20世纪60年代,数据科学这一词组最早是以计算机科学的替代术语身份被提及,当时并没有给出完整的定义,直至15年后,在《计算机方法的简明调查》中,第一次对其概念作出了初步界定,认为数据科学是一门以数据处理为研究内容的科学,这一概念非常宏观和简洁,内容也不是很完整。21世纪伊始,数据科学首次被Cleveland以独立学科的概念提出,其将数据科学在原有概念的基础上融入了计算机的应用内容,此时,数据科学不再是一个单一的统计学应用,而是融合了计算机、信息统计等学科的综合科学,具有交叉性特点。而后英国数字保管中心的教授提出数据科学是建立在Web环境下,以数据驱动为特征的学科;纽约大学数据科学中心学者VASANT D则认为数据科学涉及数据采集、传播、存储、分析、应用的全过程,其核心目标是从大量数据中获取知识。在数据科学漫长的发展历史中,对其的定义经历了从粗略到逐渐翔实的过程,无论何种研究角度,目前数据科学在国外达成了一致共识,即这一学科是以数据为基础,可以用于解决多样化的问题,在各领域存在的价值都较高。我国关于数据科学的研究起步相对国外较晚,但我国的学者立足于国外研究成果的基础之上,结合我国大数据的发展情况,经过长期研究提出了较为全面的观点。其中,朝乐门在《数据科学》中的研究较为全面,其对数据科学的定义涵盖了多方面内容,认为数据科学的研究目的是实现数据与其他物质之间的转换,以数据的研究处理形式来提高其他工作的效率,因此,数据科学具有影响、深化、促进其他学科发展的价值。杨旭则认为数据科学是建立在有效、有价值的数据信息积累的基础之上,数据的价值提高是实现数据科学发展的关键所在,积极有效地利用数据科学对社会的发展有着促进作用。我国复旦大学成立的数据科学研究中心则更为宏观地提出了数据科学的概念,认为数据科学是专门研究数据的学科,通过数据信息处理来提取有效价值,将其转化为其他产出,与数学、统计、计算机等学科密切相连,是一门复合型学科。
综上分析,虽然国内外学者在不同历史发展阶段对数据科学的概念持有不同的定义,但对比分析可知,这些持有不同定义的概念存在着较多的相同点。因此,本文遵循“提炼共同点、发展不同点”的原则,对数据科学的概念进行界定:数据科学是一门交叉复合型学科,其以大数据为基础,综合运用统计、计算机及各学科专业知识的复杂科学体系,对得出行业结论、理顺行业措施、做出行业预测、优化发展措施等都有着重要的价值和意义。
数据科学的概念阐述是一个错综复杂的过程,为了全面对比数据科学与情报学的异同,本文对情报学的内涵与外延进行阐述。与数据科学发展历史较为短暂不同,情报学虽然成为学科体系的时间不长,但有着较长的实际运用历史,综合了自然科学和社会科学的特点。现阶段我国对情报学的研究主要集中在智慧情报领域,即关注先进的技术科技对情报工作的影响。因此,本文重点分析科技情报与数据科学的关系。马费成认为情报学是一门复杂的学科,其研究目的是在信息爆炸的情况下对情报进行甄别、分析与应用,以科学的研究体系将掌握的信息数据转化为可以被利用的内容,处理成最能有效运用的内容,促进各行业的发展,甚至是国家的安全稳定。可以说,这一概念十分详细地阐述了情报学的内容,明确了情报学是一种研究情报产生、传递、利用规律和现代化信息的技术手段,使情报流通过程、情报系统保持最佳效能状态的一门科学,它帮助人们充分利用信息技术和手段,提高情报产生、加工、贮存、流通和利用的效率。同时,这一概念也与世界通用的情报学概念相吻合,明确了情报学的内容、手段和作用。
通过对数据科学与情报学定义的研究,本文发现二者在概念上既有联系也有区别。在学科性质和研究内容上二者重合度较高,即二者均为数据复合型学科,在研究工作中交叉运用统计和计算机等多种科学手段,并且在各行业的应用中还需要结合具体使用的行业科学,如医学、法学、教育学等专业知识,以此发挥数据科学、情报学的价值,因此,二者均不是单一的科学体系,而是与其他科学存在着密切联系。除此之外,二者的研究对象有着较大的重合度,数据科学以大数据为基础,情报学以大量数据信息为基础,二者在大数据时代均依赖信息数据的积累,有时被交替使用,在这种情况下没必要对数据和信息的意义进行区分价值。数据科学与情报学虽然在概念上有一定的相似度,但也呈现出明显差异,主要归纳为两点:第一,数据科学的研究以数据积累、分析和处理为侧重点,建立在数据信息层面得出结论;情报学的研究则更加侧重数据处理后对服务对象衍生的价值,即基于大数据来分析某一行业的发展趋势、侧重点、社会需求等内容,后者更具有使用价值。第二,数据科学的研究方法更侧重实证,以统计分析的具体方式加以研究,在方式方法上更加专业可靠;而情报学的研究方法呈现多样化,不仅有理科学科的统计分析,还有文科的定性界定,通过对比分析、调查研究等获得结论。总体而言,数据科学和情报学虽然不能完全重合,但是二者在研究中对大数据的依赖程度都很高,通过对已掌握的数据信息进行分析,得出某一行业或者某一热点现象的原因和发展趋势,对分析的效率和要求都较高。相对来说,情报学更加注重稳定性和规律性,可以建立在长期数据的基础上,总结行业规律。所以,二者仅从概念视角就存在典型的异同性。
3 学科研究对象
本研究在中国知网上,以“大数据”为关键词检索出 45 681 条相关研究,以“数据科学”为关键词检索出405条研究成果,以“情报学”为关键词检索出 8 238 条信息,检索数据截止日期为2019年7月16日,检索的结论关联度较高。
我们以研究成果发表的时间进行划分,发现不同的研究内容从起步至今日臻丰富,研究内容趋于完善,研究结论发表时间数据统计情况如表1所示。
表1 各关键词各年度发表研究成果数(单位:条)
上述关键词在各年度发表的研究成果基本围绕数据科学、情报学的发展速度以及相关研究展开。其中,“大数据”是数据科学的研究对象,“数据分析”“机器学习”“数据挖掘”“可视化”等则是学习数据科学过程中的重点及热点。
数据科学是一门集多领域学科的综合性科学,不能局限于某一领域或单独存在。在大数据时代,越来越多的学科和领域发生交叉,与不同环节的运行有着千丝万缕的联系,例如,大数据在物流、购物、选址等方面的分析判断已经成为商业领域中重要的判断资源,大数据的数据基础与数据分析、计算机技术紧密联系,可以说,数据科学已经逐渐贯穿各个领域,针对其展开的研究和分析也越来越多,表2展示了著作分析基础上数据科学紧密度联系分类结果。
表2 数据科学紧密度联系分类
通过对数据科学及与之相关联的信息加以分析,基于不同联系点获取相关知识点或热点关注问题。根据联系一的分类可以看出,数据科学不仅与生活紧密联系,而且有多个学科的理论基础,例如,数据科学包含数学、统计学、情报学等学科理论,在金融、医疗、生物等领域都有广泛应用。从联系二的分类可以看到,数据科学的应用主要是通过分析社交软件数据,从而说明一些社会热点问题,预测气象、经济等,以及数据科学范式的变化和人才培养。根据联系三的分类可以看到,与科技发展密切相关的包括与数据科学有关的工具、平台对数据科学发展的影响,如Hadoop、MapReduce、Spark等工具,Aprior算法、模糊规则等方法在云计算、物联网、人工智能等新技术中的应用,此外,还有数据科学在智慧城市、智慧交通等领域的智慧类应用。联系四的分类主要是数据科学与社会问题有关的如数据科学对社会经济、政治、文化等方面的影响以及数据隐私等方面的问题。
随着社会需求与信息技术的发展,任何一门学科都在不断地发展演变。大数据时代背景下,数据科学得到了全面发展,情报学在其影响下研究对象和内容不断优化发展,随着各类型数据信息的急剧增长、对大数据的搜集、组织、存储、整合、分析及展示俨然已成为社会需要关注的重点。从目前研究来看,情报学基本理论主要包括情报的传播、交流与利用理论、文献分布理论和分类检索理论等,而基于新的数据科学环境,这些基本理论在不断地深化扩展。随着情报处理和情报分析方法与技术不断提髙,情报学研究对象的范畴也在不断向纵深演进,大数据环境下情报学的研究对象更加注重大数据的加工、清洗、规范整合与分析计算。情报学研究内容与其他学科的交叉融合日益明显,形成了生物信息学、化学信息学、地理信息学等多个研究领域,为各个学科领域提供了学科情报信息分析的技术方法,对学科发展趋势监测、科研方向发展及科研决策提供了有效支撑。
4 学科相关教育领域发展趋势
4.1 数据科学教育领域发展趋势
新时代下,大数据的快速发展对学科建设和体系构建提出了迫切的要求,数据科学教育专业性已成为各高校和研究机构关注的核心。2007年,美国的北卡罗来纳州立大学率先设立数据分析硕士学位,这是最早与数据科学紧密相连的学科,后来众多国际知名高校也相继设立了数据科学相关专业。香港中文大学作为我国最早设立数据科学专业的知名学府,在理工科类学院设立了“数据科学商业统计”硕士学位,这实现了我国数据科学领域专业零的突破。自2010年起,内地在复旦大学、北京航空航天大学等高校分别设立了数据科学工程专业的硕士、博士学位授予点;2014年起清华大学制订了大数据专业人才培养计划;至2016年,教育部正式批准高校开设国家一级学科“数据科学与大数据技术”专业,至此,数据科学的专业名称得到规范,各个高校掀起设立热潮;目前,全国设立该专业的本科院校已经超过200所。2017年底,习近平总书记明确指出在国家安全建设方面,我国迫切需要专业化、高水准的大数据人才队伍,数据已成为国家创新驱动的关键因素。由此可见,对数据科学学科的长久发展而言,人才是核心动力,并且国内的需求呈现日益增长的发展趋势,要培养专业化的数据人才需要抓住数据科学与不同学科之间的联系,构建符合其研究特色的创新型人才培养理念、方式和标准。
数据科学是一门复合型科学,综合了多层次、多领域的专业知识,因此,对数据科学人才的培养不仅要建立“本—硕—博”阶梯培养模式,还需要融入经济学、管理学、社会学等多学科知识,打破学科界限,形成跨学科的专业思维和知识维度。简言之,需要具备三点能力:第一,丰富的理论知识。拥有扎实的数据处理、分析和应用能力,是后期研究的重要基础。第二,踏实的实践精神。将学科知识投入到实践中运用,在实践案例的反复锤炼中获取结论,提高自己运用和处理数据的能力。第三,灵活的运用能力。在掌握扎实基本功和实践数据积累的基础上,将知识灵活运用于各类数据问题的分析中,实际解决各领域的问题,达到数据科学人才培养的最终目的。以上面三个主要能力为基准进行划分,设置数据科学专业的教学课程体系,具体如图1所示。
图1 数据科学专业教学课程体系
4.2 情报学教育课程设置
我国于1984年开设情报学专业,历经40余年的发展,已经拥有了较为完备的教学体系。但目前情报学专业教育仅在研究生阶段开展,形成了以硕士研究生和博士研究生相结合的教育体系。情报学属于国家二级学科,授予管理学硕士学位。虽然高校之间课程设置略有差别,但是主干课程大致相同,可以分为四类:1)包含情报学理论方法、竞争情报、信息经济学等的基础理论类;2)包含数据挖掘、数据库技术、云计算技术、软件工程、Web新技术及其应用等的技术方法类;3)包含信息资源管理、知识管理、信息检索、信息组织、电子商务等的管理类;4)包含信息安全、信息法等的信息人文类。
4.3 二者学科设置的差异
从数据科学与情报科学的课程设置来看,不难发现两者之间的差异性。首先,情报学发展至今已经形成较为完整的理论知识体系和研究方法,但是,数据科学由于起步较晚,还依赖于统计学、计算机科学等领域的研究方法和学习内容;其次,在课程设置层面,情报学的课程设置专业化较强,以情报信息研究为所有教学的核心,但是,数据科学及其涉及的领域非常广泛,对基础电子数据掌握的要求较高,因此,对教学课程涉及的内容就会更加关注;最后,情报学专业课程虽然开设时间较长,但在数量上远远少于开设数据科学专业课程的院校,这与情报学的专业性存在密切关联,而且,开设数据科学专业的院校通常会根据这一学科的需要,细分二级学科来辅助其专业化发展,然而这种课程设置模式在情报学领域没有得到具体体现。
4.4 大数据时代的情报学教育发展趋势
前文就数据科学和情报学在课程设置和教育模式上进行了对比分析,可以看出新时代下,数据科学的发展需求旺盛,催生了大量的教育供给,反哺数据科学的发展。数据科学的建设对我国情报学的教育发展有着促进作用,本文主要归纳为三点趋势影响:
第一,强化技术专业与本专业的关联度,提升情报学人员的数据应用能力。虽然我国情报学开设的专业与数据科学有一定的联系,但是并不能满足现阶段大数据发展速度的需求。很多情况下,对数据的处理和应用已经成为情报学专业学生的短板,计算模型和前沿工程技术更是亟须被情报学科纳入的教育内容,数据科学专业的教学和培养模式可以成为情报学专业的教学参考,将计算机科学和统计学领域的数据挖掘、数据分析、可视化技术等进行深度教学,以此匹配和完善新时代对情报学专业人才培养的实际需求,以丰富多样的教学催生情报学专业课程教学的实用性和针对性,提高知识的可实践率。
第二,加强学科理论知识的实践应用,通过实践提高教学质量。情报学专业课程设置既包括基础理论课程,也包括具体的实践课程。但是,很多高校存在理论课程明显多于实践课程、课程比例设置严重失衡的问题。目前,我国仅对图书情报类专业型硕士有外出实习6个月的硬性要求,对其学术型硕士则没有相应要求,这样容易造成学生对实践能力培养的忽视,导致其学生在学校学到的理论知识不能较好地应用于实践,最终在实际工作中容易出现理论和实践相脱节的问题。为了更好地用数据解决现实世界中存在的问题,需要全面连接数据、人与技术,这不仅与情报学的研究传统相契合,还为情报学研究带来了新对象、新视角。因此,以数据为切入点取得理论和经验研究的创新突破,将有助于情报学更好地融入数据时代,并实现数据、人与技术的连接,契合时代发展需求。
第三,教学方法和应对措施多样化,促进情报学教学质量改善。由于情报学的专业性和相对秘密性,情报学的教学通常由高校单独完成,对应用层面关注度较低,很少采取像数据科学那样到各企业中通过实践教学来检验教学成果的培养方式,但在大数据发展背景下,对情报学专业学生的培养已经不能局限于简单的理论学习,更需要从传统教学中走出来。融意识、技术、产品、应用于一体的情报服务时代即将到来,在大数据环境下,情报服务逐渐向普适化与针对化服务思维模式转变,在大数据开放与共享鼓励政策以及社会计算应用推广的背景下,开展跨领域、跨产业、跨系统的协同化情报服务模式逐渐强化,情报学的学科教学目标也不例外,因此,情报学的教学应该更注重应用性。
虽然情报学是借鉴数据科学来丰富和完善自身学科教学体系,但这并不意味着数据科学学科设置没有短板。数据科学的学科教学内容也需要在基础理论知识和专业应用上随时代的发展逐渐优化,更需要融入新时代的隐私权、伦理学需求,在不断改进中完善学科建设,在不断丰富中促进二者的共同发展,从而培养更加全面的应用型人才。
5 总结与展望
本文从内涵、侧重点和教育三方面对数据科学与情报学展开对比分析,阐述二者的异同,为大数据时代下的数据科学和情报学发展与教育的进步提出设想。内涵上,数据科学与情报学的研究对象有一定的共通之处,但在研究目的、方法和结果上存在一定的差异,情报学的研究更偏向理论,而数据科学的研究则更加注重实用,这点在实际运用中也有所体现。在研究侧重点上,情报学的服务效用明显低于数据科学。在教育发展中,虽然情报学基础理论课程较为完善,但对实践课程重视不足;数据科学则相反,发展起步较晚,但实践课程较为完善。因此,在大数据不断发展的情况下,情报学需要汲取数据科学学科建设的经验,更多地“让数据说话”,这不仅能使传统工作更加自动化和智能化,还有助于突破学科壁垒,使研究者能够进入之前无法研究的领域。但如何科学地“让数据说话”不仅仅是单纯的技术问题,还涉及如何更好地实现数据、人与技术的连接等问题,其间仍存在大量的研究空白,而这恰好与情报学的研究传统和研究问题高度契合,为情报学提供了新的机遇,也为情报学的学科建设提供了新的可能性。