大数据背景下科技情报服务“与时俱进”
2021-12-29王艳
王 艳
(天津商业大学 图书馆,天津 300134)
移动互联网、物联网、云计算以及人工智能的快速发展,致使遍布的智能终端等,不时地记录着人们产生的“数据足迹”,大数据已经渗透到各行各业,世界正在深刻地发生着变化。大数据作为一种新的战略资源,对社会经济发展的贡献度在不断提升,已是同人力资源、自然资源等一起构成促进国家竞争力的重要资源和手段。在科学研究领域,基于密集数据分析已经成为继实验科学、理论科学和计算科学之后的第四种科学探索方式[1]。科研数据联盟(The Research Data Alliance)成立于2013年,其宗旨是加快国际范围的数据共享和数据驱动研究[2]。截止到2020年,成员多达145个国家的10 000多名。大数据环境下,科学研究的新的知识源是以数据驱动为主的,它为科研工作带来更多的收益和更大的价值,科研工作者比以往更加依赖信息数据的交流、处理和使用。但是科研数据呈指数式发展和增长,数据来源多元化和数据格式的多样化为科研数据管理带来极大挑战。科技创新发展的一个相当重要的手段就是需要探索以大数据处理为基础的动态情报解决方案,而科技情报服务工作的重点就是要通过对海量数据资源进行数据采集、挖掘与分析处理而实现面向用户的智慧化的服务。
1 大数据背景下科技情报服务所面临的挑战
1.1 科技信息大数据的介绍
大数据是一个比较笼统又抽象的概念,至今也没有一个很统一、确切的定义,不同的个人或机构会给出不同的定义。国际数据公司(IDC)则对大数据的定义为:大数据一般要涉及两种或两种以上的数据形式,通过快速抓取、分析和处理技术,从中获取价值。北京理工大学副教授张华平指出:大数据是从变化、多源、大规模微观数据中,利用信息智能技术挖掘知识后转化为智慧的一种方法学。不论哪种定义,对于大数据的本质认识都需要一个不断深化的过程,但这并不妨碍大数据科学的应用与发展。
而科技信息大数据是科技活动要素及要素之间相关关系组成的多源异构大规模数据,这些要素包括科技投入、科技主体、科技平台条件、科技过程、科技交流、科技产出以及科技规划与管理,这些要素所反映出的数据以及数据之间的关系所形成的整个科技活动生态的相关数据构成了科技信息大数据的内容[2]。北京大学化柏林将科技信息大数据主要分为三类,分别是:科技信息的支撑数据,主要是在数据的处理过程中使用到的数据资源;科技信息的核心数据,指主要的科技活动形成的成果数据;科技信息的外围数据,比如科学家的微信、微博以及科研机构的微信公众号、官方微博等多媒体数据[3]。
大数据的特征主要包括4个层面:数据体量巨大(Volume)、数据种类繁多(Variety)、数据价值密度低(Value)、数据处理速度快(Velocity),即4“V”特征。科技信息大数据也同时满足上述大数据特征,此外,也有其自身一些较为突出的特点:比如很强的即时性,在做情报分析时,需要对研究领域最新信息进行跟踪,并结合已有信息做深度分析与挖掘;还具有突出的国际性,科学研究以及科学技术的国内外交流、对比分析与比较也已成为科技信息大数据的明显特征;数据的保密性与敏感性,科研数据包括部分涉密、涉密和不涉密等类型,这也决定了数据管理安全的等级。
1.2 科技情报服务所面临的挑战
1.2.1 在数据资源以及数据处理方面的挑战。首先,大数据背景下,随着互联网、社交网络、物联网、科学研究等不断产生的数据使得数据规模迅猛增长,尽管为科技情报服务工作提供了海量的数据基础,能够被利用的信息资源比以往更加丰富,但同时也使科技情报服务机构曾经的资源独占优势弱化了。政府数据公开、研究机构数据公开获取以及数据集市商务模式等的出现,加剧了科技情报机构作为数据枢纽角色的弱化[4]。这也就意味着用户获取科技情报的渠道相比以往更多了,对科技情报机构信息资源服务带来了一定的挑战。
另外,对于大数据时代各种类型数据的爆炸式增长,一方面需要更加有效的海量数据存储能力,以应对科技情报研究中信息资源的资源存储和存储体系的综合性应用;另一方面,就是要对这些“繁星如海”的数字资源进行快速高效地分析和处理,深入挖掘蕴藏于其中的隐性知识,真正发现其潜在的有价值的情报。因此,“大数据”对科技情报机构的物理存储空间和软件设施提出更高的要求,以往的数据大多以结构化数据为主,一般运用关系型数据库作为工具,通过计算机设备和软件较易进行处理。但是数据世界发展到目前,产生了具有大小、格式、内容等结构不同并且不能用一定结构来进行框架等特点的海量非结构化数据,这就为人们如何方便、迅速地处理数据带来很大的挑战。
1.2.2 在用户需求方面的挑战。大数据时代下,知识的产生、运用与存储均发生了非常大的变化,科学研究的学科跨度越来越大,越来越多的知识以数字形式存在。用户信息行为与科学研究环境也出现很多新的变化,传统的科技情报服务内容与模式已经不能够满足用户多元化的需求,用户获取科技情报的渠道和方式越来越多样化。百度搜索、Google搜索等各种各样信息获取途径涌现在互联网上,并且可以对信息进行分析、组织、重组和推送,科技情报机构已不再是用户取得情报的主要途径。用户不再满足于以往经过简单加工、处理过的以文献资源为依托的信息服务,而是转向对于信息数据的深入分析。这主要包括数据资源快速评价推荐、知识单元的抽取和分析、细粒度数据分析以及可视化、计算化的数据呈现与分析等[4]。还包括情景服务和创新服务以及其他数据融合服务,用户需求是朝着信息多领域发展的,这就需要科技情报服务做出巨大改变,并迎接新的挑战。
2 大数据背景下科技情报服务工作开展的有效措施
2.1 加强科技情报服务工作的数据资源建设
在大数据时代,科学数据尤其具有明显的潜在价值和可开发价值,并在广泛应用过程中增值,是信息时代影响面广、传播速度快、开发利用潜力巨大的科技资源,是支撑科技创新的重要基石,是提升科技水平和综合国力的重要战略资源和保障。因此,数据资源建设,是新形势下科技情报服务工作发展不可或缺的重要部分。
一方面扩展多源科技情报资源的采集与聚合。大数据背景下的数据的重要特征之一,是数据来源的种类繁杂即4V中的“Variety”,当然,科技信息大数据也不例外。某些科学数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性。因此,多种来源结构异质的数据需要被融合,并集成多种数据分析方法,经由融合多源数据挖掘资源之间隐性关联[5]。而通过把不同渠道、利用多种采集方式获取的具有不同数据结构的信息汇聚到一起,形成具有统一格式、面向多种应用的数据集合,这一过程称为多源数据融合[6]。同时需注意的重要问题是,所收集的数据应是从分析目标出发,正确地采集高质量且服务于既定分析目标的数据,经过进一步的数据处理与加工以满足用户日益增长的个性化需求。另一方面,加强科学数据的共享服务。新技术的快速发展驱使科学数据急剧增加,未来的科研活动将是以科学数据驱动的科研活动。而科学数据的收集与整合需要耗费大量的人力、物力和时间才能完成,因此,科学数据的共享服务对研究人员、研究机构都具有重要意义。科学数据的共享服务可以最大化利用现有科学数据,也即使科技信息资源的使用率提高,实现知识快速增长,从而有利于科学研究的成果产出。
2.2 注重数据处理的时效性
互联网时代,用户对信息处理的时效性要求越来越高。随着科学技术的发展,大量产生的各类型的数据呈指数增长,逐渐超出了传统关系型数据库处理的能力,数据中存在的关系和规则难以被发现。面对多样的、庞杂的数据源和数据量以及大量冗余无关的数据,需要搭建通用的大数据实时处理技术平台,建立数据筛选机制,选择适当的数据工具过滤掉大量无用数据,完成有效数据的筛选,并根据情报问题的特性,选择适合的大数据实时分析处理模式,从而得到有效而准确的数据。
2.3 以科技情报用户的需求为指引,发展个性化、专业化的深层次科学数据服务
在大数据环境下,随着信息技术的迅猛发展,使得各类科研要素,日益走向信息化和数字化,同时也使得用户获取知识与数据的方式也发生了巨大变化。从科技情报服务的角度而言,只有通过对用户需求的深入了解和把握,才能满足其需求,才能真正体现情报服务的价值和作用。科技情报服务工作应重视这一方面,把用户需求作为科技情报服务和产品的核心关注点,明确用户使用情报产品和服务的各类场景,准确、及时地分析把握用户需求,才能在最大限度上发挥科技情报的价值并获得用户信赖[7]。科技情报服务内容要从传统的文献信息服务转向数字知识服务,提供更多的情报分析与知识发现,服务程度不断增强,重视个性化服务和基于科学研究的深层次服务。
未来的科研活动是以科学数据驱动为主的科研活动,新技术的迅速发展驱使科学数据激增。科技情报服务需要利用网络信息技术、智能运算等技术将科学数据资源和用户紧密联系起来,为用户提供一种集成互动性、多元性的科学数据服务窗口。可以是在线数据服务,基于各领域科学数据平台门户网站,提供科学书籍资源在线浏览、检索和下载等一站式服务。也可以为用户提供专题数据服务,为了满足用户日益增长的个性化需求,在专题细分用户需求分析的基础上,根据具体的应用领域,有针对性地建立专题数据库或数据集,为细分用户提供个性化的专题数据服务。此外,还可以为用户提供科学数据的定制服务,用户可以通过电子邮件、电话、表单提交或实地到访等方式向情报机构定制数据的技术指标及数据类别。这一服务可以根据用户需求灵活地配置科学数据,更加有针对性和匹配性,使科学数据的使用率得到进一步提高。
3 大数据背景下科技情报工作的创新型服务模式探讨
3.1 开展智慧化科技情报服务
面对信息技术的迅速发展,科技情报服务工作需更进一步地发展与创新。它不仅需要有效组织数字资源环境、灵活组织各类信息资源体系,进行知识挖掘、计算、试验与评估,而且需要情报人员对信息资源结构与规律的深度理解,熟练应用数据挖掘与分析工具,构建用户画像,形成数据驱动下,以用户需求为主导的智慧化科技情报服务模式。真正智慧情报是智能化技术与情报专家的智慧的结合。智慧化科技情报服务强调以人为本,强调从科研用户的需求出发,进行服务内容与服务方式的规划调整以及设计,借助资源、工具、方法、专业知识等软硬件设施,提供高质量的科技情报服务。智慧化科技情报服务具有知识共享化、需求个性化、服务精准化等特征。在基于本体数据的科技情报用户行为模型构建(行为本体数据库构建)基础上,数据驱动科技情报智慧服务整体方案需要进一步从本体数据库构建、用户偏好与需求挖掘以及基于本体的科技情报智慧服务推送三方面实现[8]。
3.2 构建立体化全方位服务系统
综合应用大数据和云计算技术,坚持关联性、连续性和完备性等原则,构建全方位、立体化的服务系统,在更大的数据环境中兼容更广泛的异构数据来源,在技术上实现用户需求即时动态和全程服务,及时收集完整数据信息,进行数据不间断的连续收集,解决用户实际问题[9]。加强移动终端的多接入方式建设,如利用微信公众号开发微信服务、移动App新平台等,以方便用户能随时随地获取其所需情报服务。
4 结束语
在大数据时代大潮下,随着互联网、云计算、智能计算等技术的快速发展,给科技情报服务工作的服务内容、服务模式、发展方式带来了前所未有的挑战,同时,科研数据的变化引发科研环境的变化,使得用户对科技情报服务的需求变得专业化、个性化和多元化。为此,科技情报服务工作应在传统服务基础之上另辟新径,抓住大数据时代的机遇和挑战,在服务空间、服务手段、服务方式与内容、服务效果、用户服务等方面采取有效措施,突破传统,与时俱进,更进一步、深层次地推进科技情报服务工作有效发展。