大数据时代科技创新信息服务研究
2017-05-27凌菲刘海艳
凌菲+刘海艳
(1广西科技大学图书馆;2广西科技大学职业技术教育学院,广西柳州,545006)
摘 要:近年来,大数据使用的激增给科技信息服务带来了巨大的影响。本文研究了大数据背景下科技信息资源利用的变化,以及分析大数据对于科技创新的影响,提出了科技创新信息服务的建议。
关键词:大数据 科技创新 信息服务
一、引言
隨着移动设备和物联网的爆发性成长,数据以空前的规模和速度不断被生产。科学研究中三大范式即推理、实验、模拟的分割已经无法应对如此大量密集型的数据,于是,微软研究院的科学家Jim Gray(2009)把以数据为基础的科学称为科学研究的第四范式,即把推理、实验和模拟综合到一起:用仪器抓取数据、模拟产生数据、软件加工数据,计算机存储数据,通过分析处理,得到新的发现。大数据背景下的科技工作的难题不再是数据的获得而是大量异构数据的快速高效处理分析,从中获得有用的知识,提取科技创新资源,开展科技信息服务。
众所周知,世界范围内科技进步对经济增长的贡献率自20世纪初到末由5%~10%上升至60%~80%,可见,经济增长离不开科技信息资源的支持。分布式计算、云计算、大容量数据存储与处理技术、社会化网络、移动终端设备、多样化的数据采集方式都促使网络科技信息的指数级增长。如何在数据的海洋里开展科技创新资源信息服务便是本文讨论的主题。
二、大数据背景下科技创新资源需求变化及产生影响
1.科技信息资源需求的变化
大数据的出现改变了用户利用科技信息的环境、获取信息的方式以及信息的利用形式,用户信息获取将是跨越时空、随时随地的行为,获取内容数字化、知识化、个性化、动态化,自主操作、互动机制及伙伴机制成为用户获取利用信息的主要方式。用户对于科技创新资源的利用,一方面希望能够在大数据的沙里淘出真金,另一方面又希望淘金的方式能够随时随地不受限制。所以,科技信息服务需要紧跟大数据发展,对科技信息的收集需要广、全、新,对科技信息的分析需要快、深、纵横向关联,以用户需求为中心优化科技信息资源的组织并进行快速挖掘、深度挖掘、同类科技信息的横向关联、科技信息发展与更新的纵向关联以及对多学科、跨学科、交叉学科间的科技信息进行监测与关联,最终向用户快速灵活地提供恰当的科技信息资源。
2.大数据对科技创新资源的影响
大数据对科技创新资源的获取和分析方式产生了重大影响。庞杂的数据量使得必须将数据挖掘、社会网络分析方法、语义网、协作知识管理、计算机仿真、数据库等计算方法应用到人类学、社会心理学、组织学、社会网络理论、社会认知学和社会语言学等等社会理论中,以获取科技创新资源。对于用户来说,科技创新资源的获取方式不再是简单的查询下载和文献检索,而是更加人性化的交互体验获取所需要的科技信息。大数据背景下,解决复杂的科技问题需要采用多学科、交叉学科、跨学科的,综合的方法对科技创新资源进行分析、优化、组织。采用数据挖掘、社会网络分析技术对科技信息资源进行深度分析及挖掘,准确了解某一领域的核心群体、关键人物、研究热点,利用语义网技术对用户需求进行全面而又准确的挖掘。
三、大数据背景下科技创新的新变化
1.大数据条件下科技创新的挑战
2011年5月,麦肯锡全球研究院发布了一份关注当前社会数据洪流的报告《海量数据:创新、竞争和生产率的下一个前沿》。报告以数字数据和文档的当前状况为基础,分析大数据集如何在现代社会中创造价值和产生更大的潜力。大数据时代,数据的价值日益突现。大数据犹如一座富矿,通过海量数据的处理、整合分析,可以发现新的知识,从而创造新的更大的价值。数据不再仅仅是科学研究的结果,而是科学研究活动的基础。同时,海量数据的出现催生了一种新的科研模式,目前,科学研究正在进入一个崭新的阶段,即科学研究第四范式——数据密集型的科研发现。在信息与网络技术迅速发展的推动下,大量从宏观到微观、从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动产生出大量科学数据,这意味着科研人员需要在整个网络规模上对各类开放动态的信息资源进行计算、分析、探索,对海量信息进行分析聚类,隐藏着的知识结构,趋势和变化,发现关系,产生创新思维和成果。这就改变了科学研究的基本形态,科研人员从数据中直接挖掘所需要的信息、知识,甚至无须直接接触需研究的对象,互联网成为了科技创新的实验室。
2.大数据环境下科技创新流程
科技创新的工作流是科研人员从协同设计、数据管理和获取结果的科研过程。Alex Ball分析了I2S2科研活动的生命周期理想模型,包括报告的撰写,资料的研究,问题提出,实验设计,研究计划,项目开始,收集样本,得到并分析原始数据,结果解释,解决问题。Jennifer L. Shirk分析公众参与科学研究的模型,包括问题的提出、收集信息和资源、假设、设计数据收集的办法、收集样本、记录数据、分析样本、分析数据、解释并绘图、得出结论、成果转换、讨论结果、新的问题。美国明尼苏达大学曾在对教职工调查分析的基础上将这个科学创新过程总结为发现、收集创造、共享的过程。科学研究模式的转化,使科学研究过程成为以收集数据、分类处理数据、分析数据为主的数据密集型研究。从研究者对科技创新工作流模型的修正和大数据时代的特征可以发现科学研究正在由假设驱动的实验证明转向基于探索的数据驱动科研发现,力求从海量数据中发现相关性,启发新思维。
3.群体合作与大众创新成为趋势
当今科学已进入大科学时代,跨地域跨机构的全方位合作研究日益成为科学研究的流行趋势,解决复杂的科技问题需要采用多学科、交叉学科、跨学科的交叉融汇研究。而科技信息来源的多样性——观测设备、实验设备、传感记录上的科学数据和跨学科的参考性数据都成为科学创新的基础,信息网络也为跨地域跨领域的合作交互提供了强有力的支持。大数据时代,科学数据也呈现复杂性,动态性、海量性和多源异构性等特征,但是仍然有大量的科技信息掌握在本领域科学家手中,不利于复杂科学问题的解决,这就促使了科学研究向群体合作发展。目前,国际上正在兴起的研发群体之科学SciTS正是这一趋势发展的结果。美国学者对从1945—2008年全世界发表的2100万篇论文进行研究,结果发现几乎所有科学分支都呈现出一个根本性和普遍性的变化:在产生高影响、高引用科学成果时,群体比个体科学家越来越占优势;群体变得越来越大;群体越来越跨界超域。数据和趋势表明,大数据时代,跨学科交叉的群体合作将在解决复杂问题,发现影响的科技成果方面发挥越来越重要的作用。
另一方面,新型的硬件与数据中心、分布式计算、云计算、大容量数据存储与处理技术、社会化网络、移动终端设备、多样化的数据采集方式使海量数据的产生,从用户角度说,数据的多途径获取,日益人性化的用户界面、个人信息行为模式都容易作为数据记录下来,每个人都可以成为信息的提供方和使用方,这就使大众创新成为可能,大数据时代特征也显示创新的力量正在流向普通大众。
四、大数据背景下科技创新资源信息服务的变革
大数据对于科技信息服务来说既是威胁也是挑战,科技信息服务必须针对资源的变化、用户需求的变化做出改变,同时这种改变能够最大化科技信息资源的利用效率,提高用户的满意度,促进大范围的科技创新。因此,为了适应时代的发展,科技信息服务必须将海量数据与用户的个性化需求相结合,积极向用户提供信息关联挖掘服务以及联盟保障服务。
1.海量数据与个性需求结合
大数据时代海量的数据集促使了科学研究范式的转变,科学研究正在由假设驱动的实验证明转向基于探索的数据驱动科研发现,信息的动态性、海量性和易获取性也是大众创新成为可能。当前,信息用户面临的问题不是信息缺乏而是如何在海量信息中挖掘有价值的信息。科技信息资源的提供必须满足用户交互、即时、精准、个性化的要求。
①区分用户群。“大数据”能够帮助机构对用户群进行更加细化的区分,并针对用户不同的需求提供个性化的服务。面对科研用户,深入用户科研活动过程来灵活地提供咨询服务和培训服务, 支持用户基于信息的知识分析和知识创造。
②提供更开放、更专业、更低成本的科技协同创新服务。面对互联网中海量的科技情报、文献知识创新素材,科研工作的发起、组织、交流、成果应用等过程除需要精准的分析与挖掘结果外,更需要融合群体智慧对知识素材进行深度加工与提炼,逐步地将科技信息服务转移到基于需求、基于用户、基于科研过程、基于知识发现与集成的形态上, 塑造一个开放整合、动态定制、协同交互、有机融合各种服务和手段、嵌入科学研究科技创新协同服务。
2.信息关联挖掘服务
Meyer Schoenberg曾指出由于大数据更多、更乱、相关性的特征,我们可以仅仅寻找“是什么”,而不必完全理解“为什么”。目前,在科技资源处理方面,关联规则应用最多的是在图书馆领域对读者借阅信息进行关联规则挖掘,用来了解用户需求,提供针个性化服务[15]。信息關联挖掘服务的核心是关联挖掘技术,为了突破大数据带来的威胁与挑战,科技信息服务需要积极利用关联挖掘技术。宏观上来说,运用该技术可以在数据中洞察出能够实现多学科协同创新、跨学科协助创新的科技信息资源,实现这些学科科技信息资源的有效整合与融合,促进科技创新;中观层次上来说,该技术可以通过分析论文、科研项目等信息帮助寻找科技情报领域人物、组织、机构的合作关系,发现他们的研究领域及其研究热点,并将这些挖掘结果提供给对该领域感兴趣的用户,此外,还能给这些具有合作关系的人物、组织、机构提供他们未知的关于正在研究领域的信息;从微观层次上来说,关联挖掘技术结合引文分析法,可以帮助用户找到与该领域相关的所有论文,结合语义技术和本体技术,可以帮助用户找到并快速了解某个领域的基本概念,帮助用户快速进入该领域进行学习。
3.科技创新资源联盟保障服务
科技创新离不开科技创新资源,大数据环境下,科技信息资源非常丰富巨大,但是大部分有价值的科技创新资源分散在各个独立的企业高校、研究机构,科技中介机构中,无法实现资源的共享,信息的开放获取、群体协作的科研需求。因此,掌握科技创新资源的各个机构需要建立面向科技创新的服务联盟,以网络平台为依托,以协作互利为原则,建立信息资源共享信息资源互通的联盟组织,共建共享科技合作交流的基础条件,加快科技创新资源联盟保障服务体系的建立,是大数据时代科技创新信息服务的一个重要转变。
①整合科研软硬件资源,建立支持科学发现的综合数字知识基础设施,建立覆盖科技创新整个价值链的科技文献资源开放与即时科技信息、科学数据、科教信息、技术信息、产业与市场信息、战略与政策信息的综合知识共享平台,实现各类内容的知识化组织、关联化检索和可视化利用。同时集聚其他分散的信息资源,各个机构的科研人才、科研软硬件设施进行交互合作,协同创新。
②联盟内部共同构建一个基于用户体验,满足用户需求的科技信息服务保障环境,集成各个联盟成员自身的硬件设施和软件应用,并以此为基础按照内外部业务需求实现云服务,利用云服务实现来联盟内部共享,用户还可以选择是否对外共享,用户群体还可以借此公共云平台共享交流科技资源以攻克科研难题等。
参考文献
[1]杭雪花,刘海燕,叶晨. 高校科技成果转化的实践与探索综述[J]. 科技与管理2005,(06):111-113
[2]陈豫.大数据影响科技信息工作未来的大背景[N]. 中国航空报,2012-12-18(T03).
[3]借鉴国外经验构建面向用户的科技信息服务创新体系[J].情报理论与实践,2009,(03):42-46.
[4]田晓玲.大数据时代带来更理性、更可靠的决策[N]. 文汇报,2013-03-11(00A).
[5]任贤姬.关联规则挖掘技术在图书借阅服务中的应用研究[J]. 情报科学,2010,(05):729-731+755.
作者简介
凌菲(1987.06-),女,壮族,广西南宁,研究生学历,广西科技大学,硕士学位,研究方向:数字化信息服务。
刘海艳(1992.05-),女,汉族,广西桂林,研究生学历,广西科技大学,助理讲师,硕士学位,研究方向:教育技术学。