大数据环境下的国家数字图书馆新媒体资源与服务整合研究*
2016-01-25张炜,孙倩
张 炜,孙 倩
(国家图书馆,北京 100081)
大数据环境下的国家数字图书馆新媒体资源与服务整合研究*
张 炜,孙 倩
(国家图书馆,北京 100081)
关键词:大数据;数字图书馆;整合
摘 要:作为国家基础性战略资源,大数据成为图书馆行业发展的重要生产资料,包括多种类型的海量资源数据、庞大用户群体所涵盖的用户数据和图书馆的生产数据和业务数据以及由此所建立的数据体系。国家数字图书馆基于新媒体服务平台积极开展大数据环境下的技术革新和服务创新,实现了传统图书馆的转型和升级。
* 本文系国家文化创新工程项目“基于互联网电视平台的数字图书馆应用与示范”的研究成果之一。
1 大数据的发展形势和重要意义
信息技术与经济社会的交汇融合引发了数据迅猛增长,最先出现于天文学、基因学中的“大数据”概念,如今应用到了整个社会领域,成为人们获得新知、创造新价值的源泉。大数据技术被称为IT产业的又一次里程碑式的变革,它通过提高对数据的加工分析发现事物之间的联系和规律,进而发掘出海量数据中蕴藏的知识。由大数据、云计算、物联网等关键技术引领的信息技术变革,影响到了社会生活的各个领域。根据Gartner预测,到2020年,全世界的大数据容量将超过30ZB[1]。在大数据的驱动下,人类正在重新改写自己的未来。
大数据已成为国家基础性战略资源,日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响。全球范围内,运用大数据推动经济和文化发展,完善社会治理,提升政府服务能力正在成为趋势。目前,我国互联网、移动互联网用户的规模在全球排名第一,在大数据发展和应用方面已具备一定基础,拥有丰富的数据资源和应用市场优势,大数据的关键技术研发取得突破,涌现出了一批互联网创新产业和创新应用[2]。
随着《关于积极推进“互联网+”行动的指导意见》以及《促进大数据发展行动纲要》等一系列文件的出台,中国对大数据的重视程度提升到了一个前所未有的高度。大数据正在成为推动经济转型发展的新动力,它不仅推动了社会生产要素的网络化共享、集约化整合、协作化开发和高效化利用,还变革了传统的生产方式和经济运行机制,显著提升了经济运行水平和效率。大数据正在成为新的经济增长点,将对未来信息产业格局产生重要影响。大数据也成为重塑国家竞争力的新机遇。在全球信息化快速发展的大背景下,大数据正引领新一轮科技创新,只有充分利用其规模优势,实现其质量和应用水平的同步提升,发掘和释放数据资源的潜在价值,才能有利于更好地发挥大数据的战略作用。大数据还成为提升政府治理能力的新途径,促进各行各业的数据融合和整合以及数据的分析能力[3]。作为新一代信息技术和现代公共文化服务充分融合的图书馆行业,应该抓住知识社会的这一创新机遇,加快对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识,创造新价值,提升新能力,实现数字图书馆的整体提升。
2 国家数字图书馆的新媒体建设成果
新媒体平台是依托信息技术成果而成为科学传播的新形式和重要渠道,它的即时性、互动性、可视性、平等性等特点和优势使其有别于传统服务方式而深受公众喜爱。《全国公共图书馆事业发展“十二五”规划》[4]中指出:“要全面推进图书馆的信息化步伐,加强数字化图书馆建设。”图书馆学的“范式演变”原理认为:“图书馆的范式演变的根本是不断实现图书馆由图书的保管者向服务本体的信息提供者转变,由有边界图书馆的收藏转变为无边界图书馆的利用[5]。”当前,随着大数据时代的来临,如何推进数字图书馆大数据与新媒体资源的整合,成为摆在我们面前的重要课题。
2.1 资源建设
国家图书馆作为保存人类文化遗产、传播知识信息的枢纽,一直注重数据的建设、管理和利用,自20世纪90年代开始,伴随着信息技术的进步和数字化革命的进程,实现了从无到有,并且进入到了数字化、网络化、全媒体的新阶段,建设一个围绕数字资源生产、组织、保存以及发布服务的生命周期的总体架构基本形成,多年来也积累了一定规模的大数据,包括多种类型的海量资源数据、庞大用户群体所涵盖的用户数据和图书馆的生产数据和业务数据以及由此所建立的数据体系。
国家数字图书馆建有磁带库、磁盘阵列、光纤导向器组成的整体存储系统,总存储量达到2,270TB。截至2014年底,数字资源总量已经达到1,024TB,其中电子图书367万种、414万册,电子期刊约5.8万种,电子报纸约1.5万种,学位论文约521万篇,会议论文约507万篇,音频资料约109万首,视频资料约13.2万小时,特色数字化资源超过2.6亿页;同时,开展海外戾国文献数字化、国家珍贵古籍数字化,重新启动馆藏音像资料数字化;外购数据库达到277个,其中中文数据库127个,外文数据库150个,文津搜索系统积累了超过3亿条元数据。
作为新型海量资源建设的重要组成部分,对互联网中所产生的综合价值较高的信息进行保存和利用程度,将为政府管理、生产经营、科研教育、公共服务、社会戾生等提供重要依据,同时网页信息也真实反映了特定时期一个国家或地区的历史和文化遗存,具有重要的学术和文化价值。近年来国外许多科研和文化机构在网络信息保存方面已完成或正在推进的全球项目有近百项,2003年国家图书馆在国内开展了网络信息资源采集与保存试验项目,已累积数据量51.72TB,2015年数据采集量为80TB。
2.2 平台与服务
新媒体是“所有人”对“所有人”的全面、立体化的传播,是以数字技术为保障,以网络为媒介的快速化传播方式。如果说,大数据是数字图书馆资源管理与服务的基础,那么新媒体平台的建设和利用,则成为数字图书馆与用户形成线上线下互动的有效途径,它突破了传统图书馆在时间与空间上的界线,使大量数字资源实现了即时传输和推送,进而满足新环境下读者个性化和图书馆服务精细化的需求,形成了传播形式的多样性和内容组合的多样性。
国家数字图书馆的数字化资源正在通过互联网、移动通信网、广电网等渠道以及触摸屏、智能手机、数字电视等终端,向读者提供海量知识信息,服务形式涵盖远程资源访问、整合检索、在线咨询、移动服务等。国家数字图书馆的统一用户注册人数达到650万。开发的文津搜索系统有效整合国家图书馆自建和部分外购资源,实现了海量元数据汇集;检索结果支持分类和排序,通过自定义的过滤条件和聚合,为用户提供快速定位资源的途径;根据个人权限,支持在线阅读和分享功能。国家数字图书馆网站是国内最早提供互联网服务的图书馆网站之一,根据用户需求和资源建设情况,不断进行改版和完善,年均点击量已达13亿次。移动图书馆服务包括WAP网站、手机客户端、应用程序等方式,提供书目检索、电子图书和期刊下载、展览讲座的浏览,移动终端展示的图片资源已经超过3万张,音视频资源1,200小时,学位论文摘要10万条。国家数字图书馆实现了基于依托交互数字电视、IPTV和互联网电视的书刊预约和续借功能,用户可以通过电视平台欣赏到国家图书馆丰富的馆藏资源和地方特色文化导读。随着微博、微信等社交媒体的兴起及“微”时代的到来,国家数字图书馆在新浪、腾讯平台开通了微博和微信服务,以微话题和公众服务账号的形式向用户推送资源、发布信息,新浪官方微博得到18.5万用户关注,发布信息5,920条,与用户互动2,300余次;微信服务吸引3.8万用户关注,打通了微信平台与统一用户系统,用户通过微信绑定读者卡,可以享受图书检索、预约及续借等服务。除了上述在线形式的新媒体服务之外,国家数字图书馆还在馆区内设置了多处触摸屏体验区,针对成年读者和少儿读者的不同需求和特点,分别推出国家数字图书馆触摸体验系统和少儿数字图书馆触摸体验系统,内容覆盖文物古籍、近现代文献、戾间文化、电子报刊等。
3 未来工作设想
网络和信息技术环境下,数字化、网络化资源已逐渐成为图书馆馆藏资源的重要组成部分,海量的数字资源和快速增加的用户数量正在成为以传统IT架构为基础的数字图书馆的重大挑战。作为数字图书馆新媒体服务与科技融合发展的切入点,国家数字图书馆将紧扣大数据的数据规模大、类型繁多、巨大的潜在价值和处理速度快的4V特性,重点解决大数据核心技术问题并将其应用到相关领域,抢占时代发展的前沿。通过可视化技术直观的展示数据,让数据自己说话,从而让读者看到结果;通过大数据挖掘让决策者更好地理解数据,从而做出一些预测性的判断;通过语义引擎工具去解析、提取、分析数据,从而实现从“文档”中智能提取信息;通过标准化的流程和工具对数据进行处理,从而实现最佳的数据质量和数据管理;基于大数据的技术革新和服务创新,将实现传统图书馆的转型和升级。
伴随现代科技和人类社会进步所形成的生态环境的变化,国家数字图书馆已步入一个非常重要的快速发展时期,只有不断适应大数据环境的变化,才能实现新媒体服务的融合和创新,创造新的发展力。
3.1 开展新媒体资源整合
随着图书馆结构化数据为主的数据格局的改变,半结构化数据和非结构化数据的比重逐渐增加。为此,国家数字图书馆正在大力开展资源整合工作,通过海量异构数字资源的融合、聚类和重组,使资源从数据层面的揭示与描述向数据挖掘和知识发现转变,为构建科学合理的知识组织体系和提供智能化信息服务奠定基础;实现基于元数据关联关系的知识聚合展示,通过科学的组织方式和多维度分类体系,加大文献的覆盖力度和文献资源的整合揭示力度,为读者提供统一的资源揭示入口;对自建资源进行深度标引,进一步实现文献层的整合,使之成为物理或逻辑上的整体,以便于资源的发现与获取,解决用户资源检索的实际需求;通过基于大数据的整合管理和有效揭示,将形成完善的新媒体数字资源服务体系,为用户带来知识信息的优质聚合服务。
3.2 完善平台架构和用户体验
组成大数据内容的各种不同来源的资源之间,不可避免地存在着多种形式的结构差异和语义冲突。利用分布式文件系统、分布式并行计算和分布式数据库等技术,为实现大数据环境下分布式和异构性资源的数据库存储与查询提供了新的思路。如:谷歌文件系统(GFS)和Hadoop分布式文件系统HDFS(Hadoop Distributed File System)奠定了大数据存储技术的基础。MapReduce是一种分布式并行运算的编程模型,基于它写出来的应用程序能够运行在由上千个机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。分布式数据库技术方面,谷歌的BigTable和Hadoop HBase等非关系型数据库(NoSQL)通过使用“键—值”对、文件等非二维表的结构,具有对异构数据很好的包容性,适应非结构化数据的特点。基于上述大数据技术的运用实践,为处理大规模分布式异构资源和提供即时运算与服务奠定了基础,国家数字图书馆将针对各类型、各载体馆藏资源,构建集成发现与获取环境,变革传统的IT架构和数据存储、管理方式;提高资源发布能力,实现“在线—平板电脑—移动终端”数据的联合发布;通过增加和完善用户个性化服务功能,提升用户体验;建立关联关系数据库,实现基于元数据关联关系的知识聚合展示;实现检索功能多样化。
3.3 启动大数据分析系统建设
大数据分析在经济、科研、社会管理等领域的成功应用和广泛兴起,使人们的决策日益依赖于数据的分析,而非基于经验和直觉,传统的数据管理已经发生变更。我们将构建国家数字图书馆统计分析平台,在大数据技术支持下,进行站点访问统计分析、资源访问统计分析、用户行为统计分析,深刻揭示国家数字图书馆运营状况、资源利用情况、用户习惯及兴趣,为国家数字图书馆运营及决策提供有力参考与支持。
4 结语
大数据作为一种新的思维方式,为数字图书馆的未来发展创造了前所未有的可量化的维度,成为新发明和新服务的源泉。现阶段,数字图书馆的新媒体资源建设与服务已经在全球范围内开展,并实现实质性突破。国家数字图书馆将在全面、深入把握文献资源现状的基础上,本着统一规划、统一布局和统一管理原则,结合新媒体技术条件,以用户需求为导向,采取多种方式进行多层次的整合,从而实现大数据环境下资源建设与服务的全局性部署。
参考文献:
[1] 王娜.数字图书馆与新媒体资源整合策略[J].数字图书馆学刊,2015(4):36-38.
[2] 官建文.国内外主要互联网公司大数据布局与应用比较研究[J].中国传媒科技,2012(17): 45-49.
[3] 国务院.关于印发促进大数据发展行动纲要的通知[EB/OL].[2015-10-30].http://www.gov. cn/zhengce/content/2015-09/05/content_ 10137.htm.
[4] 文化部.全国公共图书馆事业发展“十二五”规划[EB/OL].[2015-10-30].http://zwgk.mcprc. gov.cn/auto255/201302/t20130205_29554. html.
[5] 李景峰.图书馆学范式演变及其在图书馆流程变革中的表征[J].图书情报工作,2011(1): 17-21.
(编校:崔 萌)
作者简介:张 炜(1973— ),国家图书馆研究馆员;孙 倩(1984— ),国家图书馆馆员。
收稿日期:2015 - 11 - 12
中图分类号:G250.7
文献标识码:A
文章编号:1003 - 1588 ( 2016 ) 01 - 0002 - 03