魏大威 从国图的“矿藏”里挖金子
2016-05-14华南
华南
很多阅读功能,读者以前必须到图书馆才能使用,现在坐在家里登陆国家图书馆网站就能轻松完成
登陆国家图书馆读者账号,就接到国图推送的个性化新书;翻开“掌上国图”微信公众号,国家图书馆最新活动推送已到眼前……在数据资源量每年以百分之几十的速度增长的当下,大数据下的读者体验随时随地、个性十足。
“全面、快速、便捷,今天读者对图书馆服务体系已有更高要求。”国家图书馆副馆长、全国青联委员魏大威,在大数据背景下阐释国家数字图书馆建设,铺展开基于大数据的图书馆服务发展蓝图。
从大数据的矿藏里挖出金子来
“大数据不仅在政府管理、公共服务中,企业和商业网站等都在用。我们平时接触的互联网内容,在技術上都已有应用。国家数字图书馆在大数据方面有基础。”魏大威介绍到,在没有大数据说法的时候,国家数字图书馆建设就提出“海量数据”,即海量数据的长期保存、加工、服务等等,所以对于国家数字图书馆来说,很自然就从“海量”过渡到“大数据”。
2015年8月,国务院发布《促进大数据发展行动纲要》指出:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。”对比这四条特征,魏大威说,国家数字图书馆不论从数据资源的容量、多样性等方面,都与国家提法吻合。国家图书馆数字资源总量2015年年底已超过1100TB。
“其实数据人人有,包括现在的一些企业都是数据资源大户,关键是有没有能力从中挖出金子来。为什么搜索引擎说可以比疾控部门提前预知流感的爆发,就是他们根据搜索数据的趋势得出的结论。对我们来说也是这样的概念,简单举例,图书检索数据能够显示读者最希望在国图用到哪些资源和这些资源能不能找到。所以国图现在有很大的数据基础,我们的工作就是努力从‘矿藏里挖金子。这需要很大投入,资金、人力、科研的投入。”1999年大学毕业进入国家图书馆信息技术部的魏大威,赶上了国图数字化发展的大时代。上世纪90年代末,国图也结合信息技术发展趋势,提出建设“没有围墙的图书馆”,最近几年随着移动技术的迅速普及,国图又进一步构建“随时随地随身的图书馆”。
进步在读者不知不觉中悄然而迅猛地发生着。魏大威语带欣喜地说道:“作为办理过国家图书馆读者卡的读者,如果借阅某种类型的图书比较多,读者在利用手机或电脑客户端检索的时候就会推送相应的资源”。700万名注册读者的年龄、性别、职业分布和对图书馆资源的需求特征,对于国家图书馆而言都是重要信息。另外,国家图书馆官网年访问量超过14亿次,就是读者利用图书馆的数据也是很庞大的数据资源,这方面此前没纳入国家图书馆数据资源内容的读者信息资源,现在已经列入其中。
从2015年起,国家图书馆推出“我与国家图书馆的故事”项目。魏大威深入浅出地讲解道:“通俗地说,就是给读者画像。我们的700万读者到底都是什么样的?利用微信公众号等平台,以问卷形式为读者梳理出对国图资源的利用情况,比如你第一次借阅是什么时候,至今借阅多少本书等等。这些数据我们都会分析,得出每天到馆最多的读者年龄段、阅读喜好等,这会让我们的服务更有针对性。“比如很多读者检索某一本书,但是查不到,就说明读者需求我们没能满足,要及时补充图书。这些数据积累起来就对我们的馆藏建设是一个促进。”
“超大型元数据资源库”
“建立超大型元数据仓储是未来数字图书馆进行资源整合的思路之一,从而实现资源的统一聚合与一站式检索,将云服务与关联数据结合起来实现数字馆藏的组织和聚合,构建‘资源——用户关系模型等思路展开工作,但资源整合也面临着资金、人才、技术等方面的挑战。”2014图书馆现代技术研讨会上,魏大威在发言中阐释“超大型元数据资源库”理念。
“国家数字图书馆建设以来,至今外购到数百个国内外数据库,按照传统方式,读者搜索一个信息内容又不知在哪个数据库里,就需要分别进入几百个数据库搜索,或者只找几个最知名的数据库,都很不方便。我们就把分布在不同数据库里的元数据都拿出来放到我们设计的唯一“篮子”里,这就是我们现在做的检索系统,也就是发现系统。就相当于让读者在一个检索系统里同时看到所有数据库里的内容。”魏大威描述道,随着国家图书馆和全国各省级、市级图书馆网络的联通,读者可以很方便地检索到全国哪些图书馆里有这本书。他坦言这对技术人员来说也是很大挑战,但这又是未来数字图书馆发展方向,也是他们必须攻克的难关。
大数据时代,读者在极其充沛的信息资源面前,另一个搜索要求就是快速。在魏大威的记忆中,2000年时用Aleph系统,16G、32GCPU的内存量可能就能满足。在传统数据量的模式下,甚至信息部工作人员编写一个数据库代码就能解决数字资源检索问题,“而一旦数据上亿之后,就非传统手段所能完成。传统系统放进去几亿个数据,不要说并发,也就是多个用户同时搜索,就是一个人检索几十页的内容可能就要好几天时间,这是不能忍受的。”所以这个东西对于我们很多平台、资源管理来说是全新的,但又必须克服。因为不这么处理,作为国家图书馆,几亿条数据,又要保证一定并发、一定的效率,肯定要有最先进的解决办法,我们现在用服务器分散式集群处理这个问题,几百台服务器共同管理。现在我们几亿条数据,而且每年以10%的速度在增加,不断补充,这些数据灌入、索引、处理、清洗,是很复杂的,这都是数字图书科研人员在大数据时代必须解决的问题。
“但是这个坎儿一旦跨过去了,就上升到另一个层次。”魏大威表示。很多阅读功能,读者以前必须到图书馆才能使用,现在坐在家里登陆国家图书馆网站就能轻松完成。
责任编辑 王海珍