APP下载

大数据时代普通高校图书馆的发展策略

2014-04-07刘晓穗

河北科技图苑 2014年6期
关键词:普通高校图书馆

刘晓穗

(西华师范大学图书馆 四川 南充 637000)

进入21世纪新技术爆发式涌现,在带给人们方便、改变人们行为、习惯、观念和思维的同时也催生出大量异构的数据。我们每个人都无法置身数据包围之外而又无时无刻不在产生和消费着数据。当无限膨胀的数据被当成资本被挖掘利用时,数据就由量变到质变发生了飞越,“大数据”应运而生,成为继云计算、物联网后IT业的新宠而倍受关注。“大数据”它不是巨量数据的简单叠加,而是面对巨量繁杂数据的一种用以解决异构数据统一接入和实时数据处理需求,挖掘分析数据间关联性或未知性为核心,以实现信息价值增值和趋势预测为目的的一类技术方法和手段。按调研公司IDC的定义:大数据是“一种新一代的技术和架构,具备高效率的捕捉,发现和分析能力,能够经济地从类型繁杂、数量庞大的数据中挖掘出色价值”[1]。大数据的产生是新技术发展的必然,定将给人类的存在带来深远影响。

1 大数据的价值

1.1 大数据的战略地位

大数据始于2010年12月美国总统科技顾问委员会向总统和国会提交的《规划数字化未来》报告,继由奥巴马政府于2012年3月正式宣布投资2亿美元启动《大数据研究和发展计划》,用以增加政府收集、分析、提取海量数据的能力和提升知识洞见、科学发现的速度,将大规模数据管理与分析提升到国家战略高度来加以发展[2]。大数据一经提出立即引起各国政府以及社会各界的广泛关注。发达国家无不积极组织人力研发大数据分析技术、开放数据源,引导政府、科研机构、学术团体、企业商界、信息咨询等行业协同参与数据分析和创新应用,力争在下一场信息战中赢得先手。大数据俨然已成为国家之战、军队之战、科技之战,经济之战、生存之战的一把利器。

1.2 大数据对知识发现模式的改变

通过大数据含义我们可以清晰地知道,大数据是一类创新技术,它通过特定算法对海量、密集数据进行聚类、分析、挖掘并产生价值增量及趋势预测。正是由于其增值性、趋势预测性以及数据泛在的属性,使得它的应用前景十分广阔。国外一些大数据起步较早的国家大数据应用已渗透到政府、学校、航天、气象、通讯、医疗、制造等各个领域并取得显著成效。由政府出面组织建立数据开放式平台,打破数据壁垒、鼓励开源环境下的数据再造。一种把数据作为研究对象,以数据为驱动的洞悉知识、发现知识、创造知识的创新思维模式即“数据密集型的科学发现”[3]模式诞生了。它抛弃传统科学实验模式,在开放平台上任何人都可以将科学实验与知识发现分离开来,运用大数据工具将密集型数据中的关联数据加以分析、研究从中直接剥离出新的知识和无限可能。这就是大数据最具价值的贡献。

1.3 大数据对“存在”的颠覆

23年前马克·魏泽尔(Mark Weiser)在1991年9月的《科学美国人》中发表的《21世纪的计算机》文章中作了计算无处不在的普适计算时代的预判。今天从物联网、社交网、个人电脑、智能终端、可视化穿戴装置、传感器等设备使用中产生的大量结构化、半结构化和非结构化数据组成的大数据已作为战略资源被大量充分地收集利用。可以说,计算就在你我身边,大数据奏响了普适计算时代的序曲。一些科学实验室正在将大数据以全新的方式转化为人体感官可接收的可视、可听、可闻、可触等感官信息,在虚拟世界再现或重建实体场景。这种虚实边界模糊的世界里,“真”与“假”、“实”与“虚”、“这”与“那”、“现在”与“过去”区别在哪呢?当可视化、感知化装置佩戴或植入人体,感知没有了边界,不受时空的限制,我们熟悉的“存在”何去何从呢[4]?

2 大数据时代普通高校图书馆数据的多维变化

2.1 数据源及类型的多维变化

随着网络技术的快速发展,数据的产生方式、发现途径、存在范围、类型结构都发生了巨大的变化。从数据生成看,有政府和各级机构的组织管理数据,有人们生产、生活、经营活动产生的运营数据,有各种通讯、电子设备、传感设备交换、监测的数据,还有人们科学研究、思想语录、情绪宣泄的原创数据。这些数据无处不在也无时不生,构筑了大数据的物质基础,使大数据呈现海量、位置分散、结构繁杂、类型多样、变化快速、价值稀缺、规律趋势隐蔽的特性。为此,作为信息服务机构的普通高校图书馆不可能在大数据革命中置身事外,在自身数据的收集范围、结构类型等方面必将呈现多维变化。从普通高校图书馆现有的数据资源来看,有文献、光盘、数据库、特色馆藏库、读者统计、借阅览统计、跟踪服务、嵌入服务等多种数据,这些数据大多属于图书馆内部结构化数据资源。而大数据是一个开源的数据范畴,开放的大数据源将极大地扩展图书馆的数据来源范围,政府及各类组织公开的数据,物联网、社交网、移动终端等收集、传播、组织的社会化媒体信息,学校各部门、学科专业、研究课题的集成数据以及图书馆通过自动化及监测设备收集的读者身份、体貌特征、学习活动的声视频图像、情绪情感表达方式、搜索习惯、存储方式等个性化数据将成为图书馆数据新的组成部分。这些新的散布在云终端静态的、动态的数据多以半结构化和非结构化的形式大量介入图书馆,势必打破图书馆以结构化数据为主的格局,使数据管理由关系型数据库向非关系型数据库倾斜,进而推动大数据新技术的全面引进与应用,引领图书馆服务向更广、更深、更智能方向发展。

2.2 数据处理的变化

大数据处理的三大关键:数据本身、数据分析和结果呈现。数据本身的处理主要反映在数据的组织管理上,数据分析变化集中在大数据思维、创新分析方法和密集型数据驱动方面,结果呈现的不同即决策模式的变化。

2.2.1 数据组织管理的变化

大数据时代个人或组织在真实世界的活动和状态被前所未有的记录,有价值的信息通常被淹没在海量、异构的数字世界,零星且独立地分布于网络中为不同格式、不同处理技术所存贮着。普通高校图书馆的数据也是如此,无论是图书馆开发的、共享的、购买的、开放式获取的数据,除部分结构化的数据外其余80%的非结构化数据没有统一的表达式和“一站式”检索入口,读者往往在不同种类的数据资源间切来换去,难以充分挖掘有效利用。如今大数据技术为整合异构数据和各类信息系统、软硬件资源提供了技术支持,图书馆应按用户需求依一定的逻辑关系以高度并行的方式组织、抽取、筛选、融合数据成各种功能数据块,运用具有高容错、高扩展、高性能的大数据核心技术 MapReduce[5]的数据组织机制实现异构数据间、功能数据块间的相互映射、相互印证、相互解释,达到数据灵活重构、统一检索和个性挖掘,实现异构数据的组织集成和整合管理。

2.2.2 数据分析、思维方式的变化

大数据时代数据总量及增长是巨大的,数据类型是异构和繁杂的,而巨大数据掩盖下的知识价值却呈现出隐性低密的特性。正是由于巨量隐藏了价值的外显,才使得价值发现突显其重要性。面对浩如烟海的种类繁杂的数据,传统的数据分析挖掘方法只能望而兴叹,而 NoSQL、MapReduce、Hadoop等密集型数据存取、分析新技术却能有效地对巨量、异构数据加以转化、筛选、融合、集成。通过一定的自然语言处理、统计分析处理和数据挖掘算法处理等手段分析出数据的关联与数据本身的特点,进而挖掘增值价值和推断趋势走向,使知识发现更智能化呈暴发式增长。

大数据时代密集型数据存取分析技术的广泛应用,从实质上开启了数据创造知识的时代,把数据作为对象和工具加以研究和利用,改变了人们分析范式的同时也改变着人们的思维方式。人们不再执着追求数据的精确性和因果关系,转而寻求数据的完整性、混杂性及相关关系,这种去精确性、去因果关系的结果就是只关注结论无需明白过程和方法。人们可以不再通过学习去累积认知,越来越多的社会问题、科学研究、技术创新将通过计算得以解决。这种思维模式颠覆了我们熟悉的认知世界的习惯,也必将催生出基于统计的分析数据专家取代行业专家的宿命。为此,普通高校图书馆要看到大数据变革的力量,打破以往信息统计、分析、挖掘的传统思维框架,引进大数据分析软件,开展大数据服务,提高智能水平,以适应大数据时代人们思维方式、行为需求的变化。

2.2.3 决策模式的变化

大数据的决策模式是依赖于数据分析而诞生的,各种以数据为研究对象的数据驱动分析技术能从大量关联数据中洞悉出相关共性和未知趋势。而大数据的开放、透明性使得任何组织与个人都可以利用大数据分析技术,绕开专家、精英、权威而自主研究、预判和知识发现。可见,大数据不仅是技术挑战同时也是业务挑战,一个非线性的、去中心化的、自下而上的、发现群体智慧的决策模式逐步成型,决策从后台向前端转移、从集中向分散转移、从精英向草根转移[5]。决策模式的改变使图书馆在用户个人行为、大数据资源利用能力与动机等相关数据采集、组织、管理、分析等方面提出了更高的要求,数据的完整性、可靠性、及时性、可控性、安全性决定了决策的有效性。因此,普通高校图书馆应及时组建一个数据驱动评价、决策小组,从总体上统一规划、制定相应的数据驱动知识发现战略,提出明确的目标与需求,建立大众参与的数据研发平台,鼓励全员创新分享,推动图书馆服务向纵深和智能化发展。

3 大数据时代普通高校图书馆的发展对策

3.1 图书馆角色定位

大数据是一个全球开放的范畴,被誉为是继生产力、人力资源之后的第三大资源,是IT界的又一次飞跃,是普适时代的前奏。从理论上讲其开放、开源的数据环境为所有信息机构提供了同等公平的平台,也为普通高校图书馆信息服务带来新的生机。在分享大数据带来机遇的同时,必须清醒的意识到创新技术人才在大数据开发中的价值。大数据作为一类技术与方法,它本身的产生与发展就离不开技术人才的保障,它需要多种技能支持,需要了解业务流程、Java编程技能和统计知识,甚至需要一些SQL技能和将数据转换为可执行能力的IT专家。麦肯锡公司预测,到2019年,全球将缺少高达19万可处理大数据的科学家[1]。19万的巨大缺口这一数字揭示了普通高校图书馆对于社会宠儿的数据专家而言是没有太大吸引力的,而普通高校图书馆想短时间把现有技术力量培养成有大数据处理技术的专家也是有难度的。如此囧境,放弃自主大数据技术开发、引进成熟分析软件,走小规模碎片服务与社会化协同合作发展的道路才是可取而行之有效的途径。普通高校图书馆必须把自己融入大数据环境,借助中国社会化大数据刚刚起步的有利条件,立足高校师生信息需求相对集中的环境开展大数据建设、服务,培养一批属于自己相对固定的用户群;积极加入高校图书馆数字联盟,利用集团大数据优势及分析技术加强与科研机构、情报部门、政府机构、社会团体、企业商家的合作;拓宽服务面争取与IT业专家协作,寻求一定的技术支持;力求小投入大产出,用自己的特色来丰富社会化开源数据资源,成为中国大数据健康发展的助推手。

3.2 大数据规划

大数据对普通高校图书馆的挑战是显而易见的,图书馆必须面对现实、认清优劣、定准角色,制定适合自身发展的短期、长期目标,做好与社会共同愿景、学校总体设计、办学方针、学科发展、科研项目匹配的阶段性、渐进式发展规划。

3.2.1 大数据资源重构

资源重构是大数据开发、创新、服务的基础,所以普通高校图书馆必须依自身制定的战略目标尽可能广泛、全面、完整地收集、组织贴近战略规划的数据资源。在数据来源上,加强同高校数字联盟、区域性行业联盟、政府部门、云服务商、门户网站、移动通讯公司、数据库开发商等组织机构合作,建立长期数据共享、交换机制;在大数据技术上,主要面对大数据分析技术全球还处于初级阶段、多技术开发尚缺乏通用框架的现状,普通高校图书馆应随主流先从Apache下载Hadoop来实现对数据源中大量非结构化数据的分析存储。这一成熟开源软件框架,能在标准服务器上运行,可以进行索引、排序、数据挖掘、日志分析、图像处理等等[6],其优势可以有效帮助普通高校图书馆大数据建设,以较少的投入获取处理大量信息。此外,图书馆还要时常关注大数据技术的发展,努力争取知名大数据技术开发公司和大数据IT专家的技术协助,在Hadoop或更强大的新技术框架下建立与图书馆目标规划需求一致的数据源评估与筛选模式,有针对性、有选择的对源数据进行抽取、映射、切割、聚合、融合,整合成格式统一、知识聚类、架构清晰的适合图书馆大数据服务的重构数据资源平台。

3.2.2 渐进式发展

大数据能力包含两个方面:一是大数据整合、分析、技术创新能力,二是大数据个性服务能力。这两种能力相辅相成,第一种是手段,第二种是目的。作为普通高校图书馆而言第一种自主能力弱需要借外力加以提升,第二种却有着多年信息服务打下的基础,存在较快的适应性,图书馆应把第二种能力的提高视为今后一段时间努力的重点。能力的提高不是一朝一夕的事,大数据建设又是一个庞大复杂的工程,其对思维、知识发现模式的颠覆于普通高校图书馆而言没有多少前人经验可借鉴,只有尽快借助大数据技术在摸索中创新服务才能争得用户。为此,普通高校图书馆的大数据建设不能脱离高校这一特定环境,不能丢掉服务师生这一宗旨,从身边力所能及的事抓起,由小到大、由内到外逐步累积经验、渐进式拓展,努力搭建好适合自身发展所需要的服务平台和服务模式。

(1)图书馆内部建立以用户需求为导向的服务模式。由于普通高校有着数量庞大、专业聚类、兴趣爱好趋同的一大批同学,也有着科研项目明确的教研团队。所以,图书馆的大数据服务必须充分考虑这些群体的共性需求,以用户需求为导向建立与校内各部门的协同联系。从人事、组织、学工部、教务处等部门收集读者个人信息、社会关系、专业设置、人员结构等信息,从二级学院收集课程安排、教师配备等信息,从招生就业处了解生源及就业情况,从图书馆自己的设备和系统中统计读者借阅史、收集阅读习惯、专业知识需求与个性关注以及情感情绪宣泄等信息,通过大数据技术加以统一格式的解析、描述、删减、聚类、融合、整合,使异构松散的数据关联起来,从中辨析出共性、阶段性的关注热点、研究动向、教学需求,为校务和教学部门提供决策支持。此外,更要重视单个用户个性信息需求的及时处理,让碎片需求的碎片服务模式和共性需求的集体推送模式能相互推进、共同发展。

(2)图书馆外部建立用户需求为导向的社会化共享模式。大数据是一个开源的范畴,大数据时代数据的产生和增量无处不在,人们获取信息数据的手段与途径十分广泛,全球数据共享已成趋势。为此,普通高校图书馆在价值信息市场所占份额急剧压缩的今天,其数据的收集、存储、分析、重构是为大数据服务建立的,数据服务需求社会化又是为共享准备的,用户需求社会化是共享的动力。图书馆应以用户需求为导向走出校园与拥有巨量数据信息的政府信息机构、移动通信公司、大型门户网站、云服务商等主动联系,建立交互式信息、数据共享平台。在充分挖掘社会信息的同时,把自己开发的馆内特色数据、校内特色数据、个性化信息、共性趋势化信息、科研成果信息等进行安全保护处理后交换出去,让社会有需求的用户方便快捷地用到这些数据,完成共享,推动价值增值和知识再造。

(3)图书馆构建数据驱动型用户自主研发平台。随着大数据技术日臻成熟完善,全球数据大融合催生没有边际的网络大学、没有围墙的图书馆诞生。没有边际、没有围墙就意味着没有传统意义的在校学生及教研团队,取而代之的是全体公民。大家共同接受公平的教育、共同分享开放平台服务、共同贡献智慧成果,许多社会化问题与科学研究将以“众包”的形式加以解决,智慧的分析决策在未来已不再是局限于专家领域,而是一个组织内任何一个人的自由。由此可见,普通高校图书馆在大数据建设中要营造大数据资源开放公平的使用环境,打造一个易于用户自主数据研发的开放平台与社会对接;注重大数据文化培育,加强对馆内职工、广大学生和科研人员进行图书馆大数据技术培训,让他们学会并掌握大数据技术的使用;鼓励用户自主研发,增强个性需求自我满足的愉悦感和成就感,建好用好图书馆大数据用户自主研发开放平台是图书馆的大数据服务真正走向成功的关键。

[1]英特尔公司.关于大数据的重要事实[EB/OL].[2014-09-02].http://www.intel.cn/content/www/cn/zh/big-data/about-bigdata-importantfact.html.

[2]王翠波,吴金红.大数据环境下技术竞争情报分析的挑战及其应对策略[J].情报杂志,2014,(3):6-10.

[3]邓仲华,李立睿,陆颖隽.大数据环境下嵌入科研过程的信息服务模式研究[J].图书与情报,2014,(1):30-34,40.

[4]格申·多布伦,约瑟夫·A·帕拉迪索.互联的世界[N].龚南葳,译.光明日报,2014-08-03(006).

[5]钟辉新,张兴旺,黄晓斌.面向大数据的企业竞争情报动态运行模式 MDD:监控、发现、决策的互动[J].情报理论与实践,2014,37(3):6-11,15.

[6]英特尔公司.应用大数据技术获得近实时分析巨大成效[EB/OL].[2014-09-02].http://www.intel.cn/content/www/cn/zh/big-data/real-time-analysis2.html.

猜你喜欢

普通高校图书馆
2018年—2020年部分普通高校(本科)在晋招生录取统计表(不含2C)
图书馆
对普通高校体育教学改革的理论思辨
时间重叠的图书馆
图书馆
普通高校音乐教育教学改革探析
简论多球练习在普通高校网球训练中的作用
普通高校健美操教学改革探讨
河北省普通高校国防教育研究
去图书馆