大数据环境下图书馆信息服务的新模式
2016-02-15钟克吟
钟克吟
(肇庆学院 图书馆,广东 肇庆 526061)
大数据环境下图书馆信息服务的新模式
钟克吟
(肇庆学院 图书馆,广东 肇庆 526061)
大数据蕴含着大量结构化和非结构化的数据,建立在数据关系分析基础上的预测是大数据价值的核心所在。图书馆信息数据的分析能力已经从基础性分析、推测性分析提高到预测性分析层面,图书馆可充分利用用户交互数据,从而分析和预测可能发生的信息行为。为此,图书馆应挖掘信息,实现可视化服务,整合数据,促进资源建设,完善体系,提高服务层次。
大数据;信息服务;图书馆
近年,借助云计算、数据仓库和物联网技术,大数据在多个领域得到广泛应用并迅速成为社会研究热点。同时,大数据也给图书馆信息服务工作带来了极大挑战,数据处理、挖掘数据的隐性信息和潜在价值,并根据数据关联进行分析和决策预测将成为大数据时代图书馆信息服务的重要方向。
一、大数据的价值和应用
大数据之说源于美国McKensey咨询公司,尔后《华尔街日报》和《纽约时报》同时开展讨论[1]。大数据呈现多样化特点,数据类型、数据结构和数据特征均存差异,数据结构不再单一。但是,大数据尚无统一定义。普遍认为,大数据蕴含声频、视频、物联网、个人信息、科学研究结果等结构化和非结构化的数据,是描述海量数据的集合,其规模远远超出传统的信息量。
社会信息将都以电子数据的形式显示和存储,海量数据铸就了大数据技术的诞生。据IDC(International Data Corporation国际数据公司)检测,2020年全球数据将达35ZB,约为2010年的30倍。百度每天处理近100PB的数据并提供超过1.5PB的导航数据,这与5 000个国家图书馆的信息总量相当。然而,迄今人类印刷材料的数据总量仅有200PB[2]。
大数据超越了传统数据库的管理能力,为传统的数据管理方式、数据来源、思维方法和处理方式带来了颠覆性的变革。大数据技术是计算机领域的新一代技术和架构,能够从大海量、高繁杂的数据中抓取有价值的信息数据。
大数据的时效性强,对数据进行实时的不间断的撷取和处理所产生的效果,要比传统的数据查询和数据挖掘更快速有效。不过,由于海量数据之中掺杂着各种错乱无效的信息,数据价值密度较低。
(一)大数据的核心价值
数据挖掘、人工智能等技术推动着大数据时代的进程,信号可以转化为数据,人们把数据分析为信息,将信息提炼为知识,并以知识达成决策和行动,充分体现大数据的核心价值。
英国数据科学家维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)指出,预测是大数据的核心价值,数学算法在海量数据中的应用为事件预测提供了可能[3]。
美国物理学会艾伯特—拉斯洛·巴拉巴西院士认为,人类大部分行为都受制于规律、模型及原理法则,其中93%的行为可以预测。预测建立于相关关系分析的基础之上,对关联物进行监控则可以预测事件发生的可能性。
网络的搜索功能和普及程度足以使网上搜索记录成为预测事件发生的有力证据。2013年3月,美国把数据定义为“未来的新石油”,政府投资2亿美元拉动大数据相关产业,并积极发展亚马逊、谷歌、苹果等互联网企业[4]。
百度公司着力打造一个开放平台,为传统企业提供大数据存储、关联和分析的能力。百度公司的“大数据引擎”包括百度大脑、数据工厂和开放云,它主要与政府、教育、医疗、金融等领域展开合作,更多行业将被卷入并加速发展[5]。
(二)大数据的发展应用
美国McKinsey Global Institute(麦肯锡全球研究院)的调查报告《Big Data:The Next Frontier for Innovation,Competition and Productivity》指出,全球将近87.5%的数据未得到充分利用。2011年9月,美国启动“数字承诺”项目以研究开发科技和教育的交叉点服务,利用新媒体技术改变现有的教学方式与教学手段。
2012年3月,美国政府又实施“大数据研发计划”,大力推动大数据技术并提高国民提取知识和分析数据的能力,从而加速美国发明创造的步伐[6]。同年10月,我国成立大数据专家委员会,旨在探讨大数据核心技术与应用价值,并推动大数据学科发展,为构建数据共享平台与大数据技术合作提供战略性观点[7]。
大数据的特色是从海量数据中挖掘用户最需要的信息,大数据分析涉及的主要范围如下:
1.可视化分析:采用大数据核心技术,通过云计算,关联异构数据,多方面多角度直观地展示搜索结果,向用户提供图文声像等可视化分析。
2.预测性分析:对海量历史数据进行分析,并建立有效的数字模型,从而预测数据发展并提供个性化信息推送服务。
3.数据价值挖掘:快速、深入、有效地对海量数据包括关联类型和结构各异的数据进行过滤、整合,最大程度地挖掘数据潜在价值。
4.语义引擎:通过人工智能系统,使用自然语言,主动识别和搜集用户的数据语言,或者提取文件的语义信息并自动进行搜索结果与关联信息的个性化推送。
5.数据质量管理:对数据从计划、获取、存储、共享、维护、应用到消亡整个生命周期中可能发生的质量问题进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织管理水平以提高数据质量。数据质量管理能推动大数据通过标准化流程和工具最大化而实现数据的价值,是数据处理的关键[8]。
二、大数据对图书馆信息服务的影响
大数据对图书馆的资源存储和服务方式提出了挑战,图书馆的数据数量和种类及未来的发展趋势都呈现出大数据的特征,大数据的相关技术与应用理念对图书馆发展产生着深远的影响。
图书馆资源囊括了以结构化和非结构化方式呈现的大量数据,如音视频资源、图片、微博、移动用户的行为和服务信息以及读者进馆时间、所处位置、搜索记录、搜索时间、浏览历史,还有馆员的服务内容、服务时间等。
随着数据搜集、传输、存储及处理能力的提高,人们不仅可以利用因果关系而且还能够根据海量数据并依靠相关性理论来认识世界,通过分析细微数据之间相关性的方法找出某个现象的良好关联物,利用其间的相关关系分析现在和预测未来。
以往,图书馆数据分析以定性推测为主,由主观经验推测事物的发展趋势。而在数据时代,图书馆数据分析能力逐渐从基础性与推测性分析向预测性分析迈进,分析大型的数据集合,建立数据模型,发现数据关联关系,以预测事物的发展方向并作出合理解决方案。
目前,图书馆信息服务除了利用基础数据之外,还可以根据大数据的关联与隐性信息,由静态收集数据向动态跟踪数据及发掘隐性信息拓展,以提供更加精准的个性化服务。
可见,大数据的关联与隐性信息必将成为图书馆信息服务的关注重点与拓展方向。相关性理论使人们摆脱了对直觉、经验、常规逻辑推断、因果关系分析等传统方法的依赖,进而运用海量数据表达新的关联模式。
大数据的关联与隐性信息的运用能够发掘信息反馈的潜在价值,增进数据分析的广度深度,指导信息服务的模式与方向定位,信息服务从被动转向主动,原来仅限于单一的专题报告和舆情监测,现在则能够提供数据驱动型信息专题和趋势性预测报告。
为此,图书馆应加强用户研究,充分利用交互数据,对用户隐性信息进行深度挖掘并建立用户偏好模型,分析和预测未来可能发生的信息行为。开展个性化与多样化的服务、提供预测性的信息服务产品,提供具有前瞻性且较为精准的信息服务。
三、大数据环境下图书馆信息服务的方向
大数据环境下图书馆信息服务具有交互性、个性化、主动性、多样化等特征。它从数据、信息、知识、智慧四个层面展开服务,形成了信息可视化服务、一站式资源服务、学科知识服务和智慧服务四种模式。
(一)挖掘信息资源,实现可视化服务
可视化技术为用户获取信息、整合利用资源和个性化定制等方面提供了便利。通过云计算、hadoop等技术对大数据进行分析,挖掘可资利用的信息,并将抽象分散的数据转化为直观形式,既解决了图书馆的异构数据问题,又使图书馆的数据分析与应用提高了层次。
通过可视化技术,挖掘用户的实际需求和潜在需求,把集中性的数据和隐性信息的关联关系呈现出来并反馈给用户,使用户能够发现那些有用的而且数据集中的潜在信息资源,从而提高图书馆对用户信息需求的预测能,并为用户提供定制化的信息服务。
(二)整合信息数据,促进资源建设
大数据环境下的图书馆数字化资源包括馆藏书目数据库、自建特色资源数据库、电子出版物、随书光盘等现实馆藏资源以及网络数据库、在线出版物、开放存取资源等虚拟馆藏。这些数据具有不同的数据结构,拥有各自的接口,来源于不同的数据库,尤其是社交媒体类的信息资源更为复杂,整合这些资源需要运用大数据技术。
广泛采集有价值的大数据信息并加以整合利用从而完善图书馆信息资源,这是促进图书馆数据资源建设的关键。信息数据主要有三类:1.资源性数据信息。它是科研人员在科研过程中,通过观察、实验、实证调查、推理等方法而积累的实验数据集、调研报告、研究过程记录、工具方法等大量有价值的科研数据,图书馆应加以采集整合,通过建立机构库的形式,实现对科研数据的有效保存与共享。如康奈尔大学图书馆的DataStar数据库,用户可以自主上传数据信息,利于数据的存档和出版,实现数据研究过程的合作共享[9]。2.与经济社会发展息息相关的数据。图书馆应与政府相关部门合作,通过资源共享与合作研究获取信息数据加以研究利用,为社会经济发展提供有价值的信息服务。3.用户数据。这包括用户使用数字资源的实时情况、社交媒体交互数据以及用户访问互联网的行为数据等,这些数据的采集分析有利于挖掘用户的个性化需求,从而为图书馆的个性化服务提供参考依据[10]。
通过大数据技术,把成熟的信息采集模式与先进的数学模型结合起来,从浩瀚纷繁的数据中快速采集、分析和挖掘,识别和定位高质量信息,整合数字化信息资源,建立各类型数据库或虚拟存储空间,再设计统一接口,利用大数据智能化检索技术,实现多样性一站式的资源服务。
(三)完善服务体系,提高服务层次
知识服务是以采集、分析、重组信息为前提,对各种显性和隐性信息资源进行挖掘、分析、重组,形成有价值的知识产品的服务。
大数据环境下,图书馆通过信息资源平台,为广大用户提供相应的学科知识服务。通过分析不同用户检索某一个学科信息的频率,找出一定时间段用户感兴趣的学科,再运用数据挖掘和聚类分析方法,预测某个时间段学科研究的热点以及学科之间的关联与交叉。同样,采集图书馆借阅系统中用户的借阅情况统计数据和图书流通日志,再通过数据挖掘,分析用户与信息资源之间的知识关联,可以发现一定时间段用户的喜好与资源关注热点,利用这些知识关联可以为用户提供学科知识服务。
图书馆服务的发展除了依靠信息资源和技术工具之外,馆员智慧也举足轻重,而基于馆员智慧的知识服务称为智慧服务[11]。
目前,图书馆可将大数据的信息挖掘技术应用到信息服务中,主动为用户提供个性化定制服务。通过对用户的信息需求进行分析处理,提供专业化、智能化、前瞻性的信息服务,提高用户对信息服务的满意度,实现基于数据挖掘的智慧化服务[12]。
大数据时代,图书馆应根据用户需求与实时热点,强化丰富有效数据,完善资源,处理分析数据,通过知识挖掘发现用户偏好,为用户使用资源提供综合服务。图书馆通过对用户借阅情况、资源检索行为等数据的挖掘来分析用户群体间借阅情况的差异以及用户的信息资源需求和研究动向等内容,再运用关联规则、协同过滤与聚类分析等方法,依据关联资源、读者喜好变化等情况,建立用户数据资源需求意向分析与推荐模型,主动推送用户需求的数据资源,完善服务,提升图书馆的核心竞争力。
四、结语
随着信息技术的飞速发展,大数据处理技术及管理模式日新月异,为信息数据处理模式带来了挑战与机遇。图书馆理应顺应大数据发展潮流,关注大数据的技术发展与核心价值,对信息资源快速定位,为用户提供全面准确的可视化信息资源,并从提供描述事实的专题报告和舆情研究等服务形式,逐步向能预测事件发展趋势并为用户提供精准、个性化、前瞻性的服务模式转变。
目前,大数据的研究与技术应用将是图书馆服务创新与发展的重要领域,图书馆应关注和研究大数据技术的发展和应用,增强数据技术敏锐性,建立完善新型的知识服务模式,注重培养高素质馆员,提升信息服务水平,着力解决信息服务新问题,全面提高图书馆的社会服务能力。
[1]胡小箐,范并思.云计算给图书馆管理带来挑战[J].大学图书馆学报,2009(4):7-12.
[2]李鹏云.大数据与图书馆服务[J].农业图书情报学刊,2013(9):179-181.
[3]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛译.杭州:浙江人民出版社,2013:16.
[4]徐子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012:57-58.
[5]陈超.图书馆如何迎接大数据时代?[J].图书馆杂志,2014(1):4-7.
[6]李健.美国的大数据研发计划及对我国的启发[J].中国科技资源导刊,2013(1):17-23.
[7]王忠.美国推动大数据技术发展的战略价值及启示[J].中国发展观察,2012(6):44-45.
[8]刘明,李娜.大数据趋势与专业图书馆[J].中华医学图书情报杂志,2013(2):1-6.
[9]洪程.国外科学数据服务现在研究[J].图书馆杂志,2012(10):31-34.
[10]沈志宏.OpenCSDB:关联数据在科学数据库中的应用研究[J].中国图书馆学报,2012(5):17-26.
[11]梁光德.智慧服务知识经济时代图书馆服务新理念[J].图书馆学研究,2011(6):88-92.
[12]杨艳.基于大数据的数字图书馆信息服务研究[J].数字技术与应用,2015(7):56-57.
The New Model of Library Information Service in Big Data Environment
ZHONG Keyin
(Library of Zhaoqing University,Zhaoqing,Guangdong 526061,China)
Big data contains large amounts of structured and unstructured data,the core value of which is to predict based on data correlation analysis.The analysis ability of the library information data has increased from fundamental analysis,speculative analysis to predictive analysis.Library user interaction data should be made good use of so that the possibility of information behavior can be analyzed and predicted.Therefore,librarians should mine big data information,realize the visualization service,integrate data,promote the construction of data resources,perfect the system and improve the service level.
big data;information service;library
G252
A
1009-8445(2016)03-0097-04
(责任编辑:禤展图)
2015-12-18
钟克吟(1980-),女,广东汕头人,肇庆学院图书馆馆员,高级程序员。