高校图书馆大数据体系建立的挑战与策略
2015-03-20姜晨曦
姜晨曦
(长春工程学院 图书馆,长春 130012)
高校图书馆大数据体系建立的挑战与策略
姜晨曦
(长春工程学院 图书馆,长春 130012)
在三网融合、云技术、物联网、智能终端技术的不断开拓和发展,全球数据增量以爆炸的态势增长,大数据应运而生的背景下,分析了大数据给高校图书馆带来的数据存储能力和分析能力的挑战、对复合型人才的需求挑战、对服务内容的高标准挑战,从大数据对于高校图书馆的帮助、大数据并非是对图书馆传统服务和人文精神的否决、最终实现智能图书馆、绿色图书馆的目标、应高度重视读者隐私,保护知识产权四个方面,探讨了大数据体系建立的具体策略。
高校图书馆;大数据体系;信息论;策略思考
随着三网融合、云技术、物联网、智能终端技术的不断开拓和发展,全球数据增量以爆炸的态势增长,大数据应运而生,由于大数据强大的传播力和可挖掘价值,使其日益成为信息科学研究的主流范式。早在2011年世界顶级咨询公司麦肯锡就宣布大数据时代已不可阻挡地到来,并指出大数据将渗透进各个行业、各个领域,甚至是政府职能部门的决策领域,逐渐成为最重要的生产要素。2012年美国政府率先把大数据作为全球性发展战略,并投资2亿多美元大力推动与大数据相关的采集、组织、分析及技术实现等。Microsoft、IBM、Ocacle等IT行业巨头也把大数据的软硬件研发等列入企业核心项目,以期在大数据时代占领先机。中国工程院院士李国杰先生指出,大数据将成为信息科技的新关注点,并可能形成新型交叉学科——网络数据科学。高校图书馆历来是信息采集、知识和新技术传播和存储的重镇,迅猛发展的大数据必然给高校图书馆带来全新挑战与通盘思考。国外的图书馆学研究者在大数据方面已经先行一步,建立了关联开放数据运动(Linked Open Data Initiative)、图书馆数据监管(Library Data Curation)等项目,进行持续性研究。我国图书馆学界对于图书馆应用大数据的研究还显滞后,大数据应用这一研究领域是潜力无限的,也必将给我国高校图书馆事业带来崭新的发展契机。
一、大数据为高校图书馆带来的挑战与影响
(一)大数据对高校图书馆数据存储能力和分析能力的挑战
大数据的四个基本属性本身对于图书馆的数据应用格局就存在着天然挑战。(1)容量(Volume):数据量是海量的,已经从TB级别向PB级别跃进,甚至更高。图书馆传统的软硬件技术支持有的已经很落后了,中央处理器的运算速度已经不能满足海量数据分析的环境和要求。(2)多样性(Variety):目前的数据样式越来越复杂,不仅包括传统的结构化数据,还包括半结构化数据,以及如图片、XML、HTML、图像、音频、表格、视频信息等非结构化数据,甚至还有微信、社交媒体、网络检索日志、传感器数据等实时交互、随时间演变的冲突数据格式。传统图书馆数据管理流程已经无法处理异构和可变的大数据。(3)速度(Velocity):数据实时生成,用户需要知道这些数据意味着什么,有什么意义,并有所预测。而图书馆故有的分析能力和经验,多无法适应大数据分析要求的速度和及时性。(4)价值(Value):大数据虽然蕴藏着巨大的能量和价值,但大部分单条数据是没有价值的,要进行深入的数据挖掘,才能把大数据的能量有效开发,因此,信息采集部门如何根据用户需求去对海量数据进行融合、筛选、挖掘,对于高校图书馆来说是一个全新课题。
作为象牙塔中的高校图书馆是不以商业经营为目的的,具有强烈的公益色彩。主要日常工作是为教师、学生提供有效的信息检索和知识服务。随着网络技术的广泛发展,教师和学生可以在各种移动终端完成简单的知识检索活动,不必非得去图书馆。那么,高校图书馆如果不抓住大数据时代这一契机,极有可能加深数字鸿沟,使本身就缺乏竞争力和技术支持的高校图书馆不思进取而与技术时代脱节严重,逐渐成为高校中的薄弱部门。
(二)大数据对高校图书馆复合型人才的需求挑战
以往图书馆的工作是比较清闲的,无非是查找分类上架、为教职工和学生办理借阅图书、引入知网等大型数据平台后为读者提供更专业性和针对性的目标性服务。但大数据时代到来,显然以往的工作方式已经落后和不科学了。作为大学图书馆,掌握着更为核心的技术信息和更为先进的科学情报,大学图书馆应该为热爱知识的人提供更人性化、更有效、更专业的知识咨询服务,这样才有利于知识传播,才能实现科教强国。对于人才的需求,也随着图书馆发展战略的变化和升级,提出了更高的要求。美国国家科学委员会提出的数据科学家群体组成,除了含信息与计算机科学家、学科专家、数据处理员外,就包括图书馆员。懂数据理论、会管理数据将成为新时代馆员的重要能力。作为大学图书馆的馆员,除了传统的业务培养,也要加深自己的多媒体应用能力、加强网络技术的学习、与数字时代在观念上接轨,成为一个能满足高校图书馆数据服务需要的“数据馆员”,并使之成为学科信息资源的组织者、传播者、导航者、教育者,促进图书馆事业更好地发展。
面对大数据时代的挑战,传统图书馆优先完成的就应该是馆员的数据能力培养。拥有一流的人才储备,拥有一支高素质的数据管理的馆员队伍,才能真正地建设智能图书馆、绿色图书馆,否则即使拥有再先进的数据分析设备,也很难实现图书馆真正意义上的智慧服务和绿色服务。
(三)大数据对高校图书馆服务内容的高标准挑战
以往图书馆的服务内容是针对读者需求一对一的服务,也比较容易满足读者需求,馆员经过简单的培训即可上岗。而进入大数据时代后,图书馆的馆藏以海量速度增长,不论是有形的图书,还是各种数字化的信息资源,在浩如烟海的信息源中,如何给读者提供最便捷、最有效、最优质的服务,是新形势下图书馆的最大课题。作为高校图书馆,其学术特色格外突出。可以说,高校图书馆是本校科研活动的一大阵地,是学术交流的源地,也是公共信息的集中地。针对以老师、学生为主要读者群的状况,高校图书馆更应该与时俱进,与大数据在技术、思维、视域方面高度接轨,引进多维度的智能分析及智能辅助决策方法,建立新型知识服务引擎、优化图书馆资源,并通过分析整合海量数据,预测学科、学术前沿的信息动态,提供更高层次的图书馆服务内容。
高校图书馆作为大学内文献与数据最集中之地,除了服务于具体的读者和用户,更应该放开眼界,服务于本校的科研和教学工作。建立有分析能力的新型数字图书馆,营造科研创新的知识服务环境,建立实践数据与信息融合的智能化互操作平台,无疑会提升学术交流的效果和成效,使本校的学术交流全过程在大数据开放的环境中进行,信息更集中、更透明、更有价值,也为推动本校的学术活动和科研创新活动,做出图书馆人的一份贡献,这是很有意义的双赢。
二、对高校图书馆大数据体系建立的策略性思考
(一)大数据对于高校图书馆的帮助
大数据对于图书馆发展的强大助力主要表现在6个方面。(1)可以帮助图书馆建立专项知识服务系统和业务建设的风险模型。全面评估图书馆的运营、信息资源采购、机构风险、知识产权风险等,使图书馆提供更为科学的知识服务。(2)图书馆用户流失分析和价值分析。通过大数据,详细分析用户需求及动态变化,即时调整策略,为用户订制个性化服务。(3)帮助图书馆建立大型、高速的知识服务引擎。(4)通过分析现有资源的储备状况,及时预测排除资源故障,如垃圾资源过滤、网络病毒防御、软硬件故障、信息服务需求障碍等等。(5)建立更加智能的网络化信息资源组合方式。以求有效地利用馆藏资源,从已有结构化和非结构化的数据中快速提取信息资源,最大限度地便于读者进行学术研究活动。(6)发展传感器数据。传感器数据也是未来大数据的主要来源之一,对图书馆自然环境、人文环境及技术环境数据多维度大数据的智能分析及智能辅助决策,进而实现结构管理、发展及服务的预测、优化和监管。
(二)大数据并非是对图书馆传统服务和人文精神的否决
尽管大数据给图书馆未来发展绘制了美好蓝图,但不意味着技术否决一切,更不意味着大数据是对图书馆传统服务和人文精神的终结。大数据并非是完美无缺的,它庞大的数据流里面有不少无用信息、垃圾信息和灰色信息,所以,大数据应用的基础是科学分析和理性头脑。而图书馆的馆藏,尤其是高校图书馆的资源,都是从建校之初就开始不断被选择而最终应用于读者的,精品度很高,内涵价值也不低,这种信息资源可以说是高校的宝藏,有些学术资源甚至是手写的、历经时间磨砺的孤品,图书馆提供的这部分服务,是充满人文关怀和人文情怀的,这是图书馆人的精神传承。大数据不是对过去的否定,恰恰是以过去的传统服务和人文情怀作为基础,建立的新型数据体系和服务体系。
(三)最终实现智能图书馆、绿色图书馆的目标
不可否认,我们对于智能图书馆的研究,还仅仅是处在研究的初级阶段,只是理论上的可能。有了大数据,智能图书馆变为可能。在未来的智能图书馆,读者不仅能调用文字、数据信息,还可以随意调取图片、音频、视频等非结构数据。并通过人工智能方式交流,图书馆在浩如烟海的馆存资源中为读者精准定位到所需资源。而绿色图书馆,不仅是指建筑学视角上的节能减排,更是图书馆互联、高效、便利的代名词,降低纸耗等对于资源的破坏,用物联网技术,实现信息最大程度的共享,便图书馆真正成为公益事业,为生活服务,为知识服务,更为科教兴国服务。
(四)高度重视读者隐私,保护知识产权
大数据要进行读者行为和需求分析,必然要采集读者信息,如登陆IP、阅读身份、行为记录、与好友交互信息、用户名、登陆密码、权限、支付密码等。图书馆在读者隐私数据的使用过程中,应本着不过量采集、不过度使用、不外泄的基本原则,从而保护读者和用户的隐私。图书馆为我国公益事业的一部分,但也掌握着重要的甚至是相当先进的科研信息资源,在保证读者隐私安全的同时,更要保护知识产权,以防不法份子或黑客利用大数据共享等造成的网络漏洞,盗取我国前沿信息。以往图书馆是相对封闷的系统,而在大数据环境下,图书馆的网路完全被开放,必须做好系统安全防御工作,在国家安全、用户隐私安全第一的原则下,去应用大数据阅读服务。
三、结语
正如已故图灵奖得主Jim Gray首次提出,而后微软公司的Tony Hey等整理出版的《第四范式——数据密集型科学发现》所描绘的一样,大数据不仅仅是数据量的剧增,也不仅仅是信息技术的飞跃,而可能是人类对客观世界认知飞跃的前奏。大数据的应用、系统的确立对于图书馆学、情报学等相关学科及我国高校图书馆事业的繁荣,有着重要的意义。因此,必须支持高校图书馆大数据体系构建的基础研究,增强学科内、学科间以及图书馆界与工业界、学术界之间的学术交流与合作。
[1]戴冰.阿里巴巴集团创始人马云:人类正从IT时代走向DT时代[N].北京日报,2014-3-3(11).
[2]李生琦.一种结构化数据和半结构化数据的统一集成模型[J].计算机工程与应用,2004(15):34-36.
[3]张晓林.研究图书馆2020:嵌入式协作知识实验室 [J].中国图书馆学报,2012(1):11-20.
[4]任平.信息时代对科技档案信息化管理的思考[J].科技与企业,2014(2):50-51.
[5]李肖军.档案信息化安全体系建设研究[J].河北大学学报,2010(6):34.
[6]陈荷艳.多元化跨领域合作的档案工作——2012年美国档案工作者年会启示[J].中国档案,2013(2):50-51.
[7]潘连根.数字档案馆研究[M].北京,中国档案出版社,2005.
[8]易卓君.档案信息资源共享的驱动力分析[J].浙江档案,2010(8):26.
The challenge and strategies of big data in university library system
JIANG Chen-xi
(ChangchunInstituteofTechnology,Changchun130012,China)
With the exploration and development of intelligent terminal technology.three nets fusion,cloud technology,the Internet of things,continuous,global data increment with the explosive growth of situational,arises at the historic moment under the background of big data,the analysis of the large data brings to the university library data storage ability and analysis ability of challenges,the need for inter-disciplinary talent challenge,challenge high standards of service content,from large data for university library’s help,big data is not veto of traditional library service and the humanities spirit,and finally achieve the goal of intelligent and green library,should attach great importance to the reader privacy,the protection of intellectual property from four aspects,discusses the specific strategy of big data system setup.
university library;big data system;information theory;strategic thinking
10.3969/j.issn.1009-8976.2015.04.031
2015-09-02
姜晨曦(1965—),女(汉),吉林长春,馆员 主要研究图书馆学。
G250.74
A
1009-8976(2015)04-0107-03