大数据时代的图书馆开放数据服务探析*
2014-11-14张峥嵘刘亚丽
张峥嵘 刘亚丽
(东北林业大学图书馆 黑龙江哈尔滨 150040)
大数据带来的信息风暴正在变革人类的生活、工作和思维。在大数据时代,渗透到各个行业、领域的数据成为了推动社会发展的要素之一,因此有人称大数据时代的数据就是“金矿”。但这种“金矿”的价值挖掘与实现需要借助相应的技术与平台,也需要人类智慧的参与,于是,对大数据资源的高效利用成为了相关业界如IT、企业、科研等普遍关注的问题。以信息组织、信息利用为所长的图书馆,也感受到了大数据时代所带来的变化,在近年来也展开了大量的图书馆视野下的相关理论研究。
大数据带给图书馆的影响与变化主要是数据的变化,即图书馆从面对传统的有序、单一、少量的结构化数据如数据库数据向无序、多元、海量的非结构化数据、半结构化数据方向转移。其中,作为大数据组成部分、集合了理念与实践的开放数据(Open Data)也受到了关注与研究。本文在概述大数据与开放数据的基础上,对开放数据视角下的图书馆角色进行了审视与分析,最后对大数据时代开放数据环境下的图书馆创新服务如数据监管、知识发现等服务进行了列举和概述。
1 大数据与开放数据概述
1.1 大数据
目前,业界对大数据还没有一个明确的定义,但也一般都认为大数据是不可能用常规软件和分析工具进行分析的巨大数据集。此外,大数据既有结构化数据,也有非结构化数据和半结构化数据,涵盖了文本、数字、图像、视频等多种类型,并可跨越多个数据平台,如社交媒体网络、网络日志文件、传感器、智能手机的定位数据、数字化文档及归档的照片和视频等。
1.2 开放数据
互联网与开放获取(Open Access,OA)运动的发展,既使得人们的信息交流更加便捷与方便,也让对开源和开放知识、数据、资源的利用逐渐成为人们获取信息的主要组成部分。由此而产生的自由开放思维也成了人们信息获取的主要思维,总是期待着出现解决不局限于软件、开放格式和数据自由公开与再使用的开放信息,于是一种实现了更广范围的公开与再使用数据即开放数据便应运而生。
对开放数据的定义存在争论,不同的组织、机构也存在不同的理解视角,但对于开放数据的内涵即其是一种理念及实践、数据不受版权与专利等机制限制、可以被任何人自由获取还是都能接受与认可。有学者也曾对开放数据的内涵阐释为:按照用户特定的需求和一定的互联网协议、规则、框架,对Web数据进行存储和组织的活动,而利用的数据来自不同的数据源或是不同的数据类型,最终目标是实现信息在网络空间的开放、共享与重用,以寻求信息数据最大可能的无限获取与重用。
开放数据与一般的数据相比,其最大的特征就是数据集增值方式,即对象数据包含了所有的事实、数据、信息乃至智慧和知识,也不如其它传统数据可以直接获取、利用和分析,依赖于见证者而存在,不是我们接受或不接受的数据或其它,是我们给予、分享和接受的记忆。同时,开放数据还具有开放性增值方式,因而在用户多、普及率高的政府网站及公共信息服务、商业应用等领域应用广泛,目前,英、美、澳等政府和淘宝等商业组织都应用开放数据进行信息公开等服务,以增强与公众、用户之间的交流与互信。
2 基于开放数据视角的图书馆角色审视与定位
在开放数据的具体实践如开放存取运动、开放研究出版、科学家电子实验笔记开放及科学知识的出版与交流等形式中,图书馆都是各个实践形式的主要参与者与推行者,但由于开放数据运动目前在各国的实践主体主要是政府,并且世界主要发达国家如美国、英国、法国等也均承诺政府将把公众的需求放在重要位置,通过征求公众意见逐步开放有价值的数据集,体现了政府在开放数据运动中的绝对推动者、践行者地位。在这种环境下,图书馆必须准确定位自己的角色,发挥自身优势为开放数据的发展提供服务,如基于开放数据的馆藏目录发布、开放获取等。
Hope Leman认为在开放数据运动中,图书馆员是知识工具箱与支持专家,即实现对概念的知识注释、实验及相关技术研发的知识支持。我国学者刘春丽、徐跃权则认为在开放数据环境中,图书馆可能扮演与研究周期各个阶段的科学产出匹配的知识服务中心和开放数据的管理和保存中心两大角色。
(1)知识服务中心。随着科学研究的周期不同,图书馆在科研过程中所发挥的作用和提供的服务也随之不同,如在科学研究的概念阶段,图书馆可为进行科学理念、研究计划讨论的用户提供开放书目等服务,并将讨论结果等形成新的知识分享数据;在数据分析与出版阶段,图书馆可借助于在开放存取期刊发表、提交到机构知识库中等途径将科学研究的结论、实验数据、科研过程等进行开放获取与共享交流;在同行评审阶段,图书馆可以发挥科研情报中心的作用,基于学术社交网络及开放存取平台,分析科学研究论文与数据的使用与评价活动,提取基于使用与评价的选择性计量指标(Altmetrics),对科学论文和科学数据的科学价值进行评价,进而评估论文与作者在某一个研究领域的学术影响力。
(2)开放数据的管理与保存中心。欧洲研究图书馆协会主席Paul Ayris博士认为在科学研究的开放工作流中,要增加专业图书馆的可见度,要重视科学数据的再利用及科学数据保存的可持续性。笔者以为在以数据密集型为科学研究特征的第四代科研范式下,数据特别是产生于实验、记录了科研过程等重要信息的科学数据是科学研究所重视和再利用的数据对象,图书馆有责任与义务扮演开放数据管理与中心的角色,以为科学家等用户群体提供开放数据的检索、分析、保存等服务。基于开放数据的连续利用视角,图书馆还需进行诸如开放数据的关联与发布、标示与引用等服务。
3 大数据时代的图书馆开放数据服务
大数据带给社会以数据驱动的社会创新与发展动力,因此如美国总统科学技术顾问委员会给总统和国会的报告所说“联邦政府的每一个机构和部门,都要制定一个应对大数据的战略”一样,包括政府在内的社会各个机构如美国政府、欧盟等都制定了应对大数据的战略对策。2010年11月,欧盟通信委员会向欧洲议会提交了“开放数据:创新、增长和透明治理的引擎”报告,首次将开放数据与大数据关联到了一起,并以开放数据为核心,对大数据时代的挑战进行了战略部署。但将大数据概念应用到开放数据上,则首先意味着数据的规模和类型有了变化,产生于社交媒体、智能终端、传感器上的海量非结构化数据、半结构化数据都是开放数据的范畴;其次,意味着数据的应用发生了变化,即数据不再是单一领域的数据,而是覆盖了用户的所有需求领域,并可直接获取和应用。
大数据赋予开放数据的新要求也意味着大数据时代的图书馆开放数据服务将被赋予新的要求,笔者认为,大数据时代的图书馆开放数据服务,主要有:
(1)多领域数据源的整合与开放服务。从目前的开放数据运动发展来看,主要实践有开放政府数据、开放存取学术期刊与机构知识库,距大数据时代所要求的多类型、多领域发展程度要求尚远。图书馆由于有着涵盖了所有领域的丰富馆藏资源,是大数据时代数据开放与整合的最佳实践者。因此,图书馆可整合多方资源,如科技、人文、气象、政务等诸多领域的报告、实验数据等资源,进行数据的整合与开放发布,让公众通过图书馆的一站式检索服务平台来获取所需的数据。
(2)基于知识联盟的数据开放与共享服务。由于大数据时代的开放数据是整合了不同系统、政府和部门之间的数据集,这就需要建立一个数据共享和互操作的框架,如新泽西州运输部利用采集到的数据(在汽车制造商的管辖下)能够发现诸如拥堵和交通流等问题,而这些功能通常是由当地或全国的政府交通运输部门负责。图书馆可借鉴这些成功的案例进行构建或参与到由政府、企业、社会机构组成的知识联盟,利用协作分析技术对数据和系统进行无缝隙整合。
(3)基于一站式服务平台的知识发现服务。数据“开放”的核心是为了用户更高效的发现和利用,以缩小信息所有者和用户的信息不对称距离。EDS、PRIMO、SUMMON等一站式知识发现平台的应用为图书馆的开放数据知识发现服务提供了方便,图书馆可应用这些平台对用户提供知识咨询等服务。
(4)数据的开发、创建、共享与转换服务。此类服务在图书馆界已有着成功的实践,如开源站点biblios.net采用了类似维基模式向图书馆界提供开放MARC数据的开发、创建、共享、转换服务,目前以3000万余条数据成为为全球最大的免费图书馆编目数据平台,德国国家图书馆、大英图书馆也宣布对外提供开放数据服务。
(5)数据监管服务。开放数据的检索、价值挖掘与应用实现,必须经过一定的排列、存档与管理过程,而这些数据有可能是来自于有数据组织经验和能力的政府、企业、公益组织等,也可能是来自于只提供数据而没有数据组织或没有组织意愿的公众、机构。图书馆可发挥自身的信息组织、信息分类特长,对这些数据进行修改、合并、标引、分析与索引,即提供数据监管服务,使数据集合之后获取最大收益。
(6)数据分析服务。大数据时代的信息服务主要是数据分析服务,如可视化分析、影响力分析等,开放数据的价值也需要此类以工具、平台应用为基础的数据分析才能实现,图书馆可为用户提供这一服务,以提高开放数据的应用效率和价值。
(7)政策、标准的制定与咨询服务。数据的统一格式与数据源的互相提供,保证了开放数据的信息易被用户检索、获取与利用。为了保证不同机构、联盟、系统间的数据格式统一和共享机制成熟,以及避免可能出现的版权等政策限制,开放数据的相关标准、政策制定必不可少。图书馆可积极参与到这些标准、政策的制定之中,提供咨询等方面的服务。
[1]中科院专家:大数据带来信息风暴变革人类生活http:
//finance.chinanews.com/it/2013/11-17/5511708.shtml.
[2]Wohlsen M.Big Data Helps Farmers Weather Drought’s Damage[EB/OL].[2014-03-27].http://www.wired.com/business/2012/09/big-data-drought/.
[3]John Carlo Bertot.郑磊,徐慧娜,包琳达译.大数据与开放数据的政策框架:问题、政策与建议[J].电子政务,2014,(1):6-14.
[4]吴旻.开放数据在英、美政府中的应用及启示[J].图书与情报,2012,(1):133-136.
[5]李佳佳.信息管理的新视角—开放数据[J].情报理论与实践,2010,(10):35-39.
[6]Leman H.Open Sesame:the Open Science and Open Data Movements and Their Implications for Librarians [J].Oregon Library Association,2010,16(3):29-32.
[7]刘春丽,徐跃权.开放科学和开放数据环境中专业图书馆的新角色[J].图书馆建设,2014,(2):83-88.
[8]Ayris P.Knowledge and Wisdom:the Role of Research Libraries inSupporting the European Research Agenda[EB/OL].[2014-03-27].http://www.slideshare.net/libere urope/knowledge-and-wisdom-therole-of-research-librari es-in-supporting-the-european-researchagenda#btnNext.
[9]Executive Office of the President President’s Council of Advisors on Science and Technology.Designing a digital future:federally funded research and development in networking and information technology [EB/OL].[2014-03-27].http://www.whitehouse.gov/sites/default/files/.../pcast-nitrd-report-2010.pdf.
[10]Communication Commission.Open data engine of innovation,economic growth and transparent governance[EB/OL].[2014-03-27].http://ec europa.eu/information_society/.../opendata2012/...data.../es.pdf.
[11]Ovide S.Tapping “Big Data” to Fill Potholes[N/OL].[2014-03-25].http://online.wsj.com/article/SB1000142 4052702303444204577460552615646874.html.
[12]About biblios.net[EB/OL].[2014-03-27].http://biblios.net/faq.
[13]German National Library.Linked data service of the German National Library [EB/OL].[2014-03-27].http://www.d-nb.de/eng/hilfe/service/linked_data_service.htm.
[14]The British Library.Free data service[EB/OL].[2014-03-27].http://www.bl.uk/bibliographic/datafree.html.作者简介:张峥嵘,女,东北林业大学图书馆副研究馆员;刘亚丽,女,东北林业大学图书馆馆员。