基于大数据环境的黄河文明文献资源数据库建设构想
2015-11-27李景文李国政
李景文+李国政
关键词:大数据;云计算;特色数据库;SAP6.0系统
摘 要:文章基于“云计算”“大数据”“互联网+”的网络大环境,探讨建设黄河文明文献资源数据库的现状和意义,构建其建设方案,选择其建设平台;以跨领域、跨层次、跨类型、跨区域的资源融合为中心,以学科服务和公众服务相结合为着力点,通过数据采集、信息挖掘、信息存储、资源组织等过程,实现黄河文明文献资源数据库的高质量建设。
中图分类号:G250 文献标识码:A 文章编号:1003-1588(2015)11-0002-03
本文系教育部人文社会科学重点研究基地重大项目“黄河文明文献资源数据库建设”的阶段性研究成果之一,项目编号:13JJD870003。 特色数据库建设是指高校图书馆利用现代化的互联网技术和信息化手段,以馆藏资源为依托,根据所处的地域优势与读者特定的需求相结合,将具有相同特点、种类的海量资源分门归类,建立具有特色与个性的数字化资源体系。河南大学图书馆课题组2013年申报并获批立项的教育部人文社会科学重点研究基地重大项目——“黄河文明文献资源数据库建设”,即是一项综合性的特色数据库,它的建设不仅服务于河南大学黄河文明与可持续发展及“黄河学”研究,而且将为建设华夏历史文明传承创新区提供坚实的文献基础和理论依托。
课题组以“实现中华民族伟大复兴的中国梦”为指导,基于“云计算”“大数据”“互联网+”的网络大环境,探讨建设黄河文明文献资源数据库的现状和意义,搭建基于海量黄河文明元典文献和相关研究文献的黄河文明文献资源数据库平台;根据黄河文明发生、发展、演进的历史意义与文献价值,首期建设“河南方志文献资源库”“黄河考古文献和文明探源文献资源库”“黄河流域民俗与非物质文化遗产文献资源库”三个子库;全面梳理黄河文明文献资源数据库建设项目的理论脉络,广泛收集相关文献著作,优化基于黄河文明文献的SAP6.0平台性能,建构立体型数据库模型。课题组以共建共享为驱动,以跨层次、跨类型、跨时空、跨区域的资源融合为中心,以学科服务和公众服务相结合为着力点,以数据开放为培育点建设黄河文明文献资源数据库。
1 黄河文明文献资源数据库的选题与分类
为了揭示有关黄河文明数据库建设的现状,课题组成员对与黄河有关的领域进行了充分的市场调研,可查的数据库见表1。
档案资源数据库 收录黄河三角洲地区的民俗、民情及城市建设等档案材料
通过表1可以看出,目前已有的关于黄河的数据库基本上都是用于自然科学研究与黄河治理的专题数据库,极个别数据库虽说与黄河文明相关,但往往局限于某一时域,缺少文献信息资源的系统性和完整性,而专门针对黄河文明所建设的文献资源数据库尚属空白。此外,国内少数地方图书馆建立的一些地域文化数据库,如《河洛文化文献专题数据库》《殷商文化数据库》《敦煌学数字图书馆》《二里头文化数据库》等,在一定程度上涉及黄河文明,但它的地域性、时段性、专题性就更加明显。所以,现在迫切需要建设一个以黄河文明为主题的综合性资料库,为黄河文明研究与可持续发展提供更多、更好、更全面的文献信息资源,在更大范围内实现文献资源的共建共享。
1.1 黄河文明文献资源数据库的选题
黄河文明的形成期大体在公元前4000年至公元前2000年之间,至今已有四五千年的历史。黄河文明的中心在中原地区(以今天的河南省为中心),主干在河洛文化圈内。所以,黄河文明文献资源数据库建设伊始的选题工作显得非常重要,既要在黄河文明发展的时间轴上谈古论今,又要在考古挖掘、文献探寻、朝代更迭、学术发展、社会民俗、人文景观、自然风光等横断面上披沙拣金。鉴于此,课题组最终确定首期黄河文明文献资源数据库重点建设“河南方志文献资源库”“黄河考古与文明探源文献资源库”“黄河民俗及非物质文化遗产文献资源库”,后期还将建设“沿黄地区地方特色文献资源库”“黄河胜迹与人文景观文献资源库”“黄河金石与书法艺术文献资源库”“黄河姓氏与人物传记文献资源库”“黄河戏曲与文学艺术数据库”“黄河生态数据库”“黄河经济数据库”“黄河影音数据库”等。
1.2 黄河文明文献资源数据库的分类
黄河文明文献资源数据库要求的数据资源类型非常丰富,数据格式也复杂多样,除去需要遵守Calis、Cadal和国家数字图书馆资源共享工程的标准体系,选用一套具有普适性高、易拓展、成熟的特色数据库平台外,数据库如何分类是项目建设的关键所在。设计数据库分类不仅要依据数据对象的特征,还需要囊括所有的数据文献。基于这种考虑,课题组没有统一类分,而是根据各子库的特点做具体情况的分类构建。“河南方志文献资源库”根据地方志描述的对象分为区划志、非区划志和杂志,同时根据历史时期又分为新志和旧志;“黄河考古与文明探源文献资源库”按照考古对象进行分类,分为遗物、遗址、遗迹和历史文化,同时根据数据对象又分出考古人物和考古学术;“黄河民俗及非物质文化遗产文献资源库”依照《国家非物质文化遗产分类办法》总计17项进行分类,同时又按照遗产的级别分为世界级、国家级、县市级、其他。根据项目需求,“黄河文明文献资源数据库”将采用中国历史时期作为时间轴、行政区划作为地域轴,并根据每个数据库数据特色进行详细分类,最终形成由时间轴、地域轴和特色分类共同组成的三维立体数据库,利用交叉索引和末端聚类技术,实现检索结果的分类分布、检索点分布、聚类点分布,一次性呈现检索结果,准确定位文献位置。
李景文1,李国政2:基于大数据环境的黄河文明文献资源数据库建设构想*
李景文1,李国政2:基于大数据环境的黄河文明文献资源数据库建设构想*
2 黄河文明文献资源数据库的平台选择
数据库平台是黄河文明文献资源数据库重要的组成部分,数据库平台的选择遵循先进性与实用性、可扩充与可延展性、开放性与标准化、可靠性与可维护性、安全性与易用性、经济性相融合的原则。目前,国内专业的特色数据库建库平台有SAP6.0、TPI、TRS、CADAL、麦达、方正、快威等十余款,经过多方考察、比勘、应用,课题组选择了SAP6.0平台和TPI平台作为待选平台。经过试操作,尤其考虑到大数据环境下的人机互动、人人互动、数据互动等因素以及操作的便捷性、数据的易检性、功能的开放性,最终确定使用SAP6.0作为黄河文明文献资源数据库的建设和发布平台。
2.1 SAP6.0特色功能
SAP6.0(SAP6.0数字资源分布式建设共享平台)是一套针对海量数据创建、生产、管理、维护、发布的综合性平台软件,是国家文化部科技创新项目。SAP6.0平台的核心是ISP检索引擎,通过它实现了数据重组、存储与检索;独立设计开发的仓储数据库全面优化数据库存储、读取性能,使其对元数据的读取提升80%;几乎支持目前所有的文本、图像、音影格式的数字化工作;TB级海量数据全文检索毫秒级响应速度达到100%,单次检索返回数据高达2,000条(百度返回数据为1,000条);平台支持虚拟VPN跨平台异构数据库检索功能,可以在同一界面中对多个异构数据库同时检索,并同步实现了检索结果的分类分布、检索点分布、聚类点分布;镜像授权与光盘(U盘)授权工具使用户可以分别通过网络和单机浏览用户自建数据库;统计系统可以针对每一个镜像数据库、每一条数据、每一个用户实施统计,并自动生成图表信息,及时了解用户使用情况;同时,SAP6.0维护成本相对低下,无须配置任何系统环境和安装第三方数据库,兼容目前所有的64位服务操作系统,一键安装。
2.2 SAP6.0平台技术指标
SAP6.0平台提供中图分类法、学科分类法等数十种跨行业、多领域的数据分类模板;最大支持256个数据库,实现数据的自动跨盘存储;单库最大容量254TB;检索速度1TB/秒;同时在线检索支持1,000人以上,提供Json国际通用接口标准,全面支持移动端的阅读使用。
3 基于大数据环境的黄河文明文献资源数据库建设
随着互联网技术的迅猛发展,移动端应用的高速普及,大数据的研究已经为各行各业广泛关注。大数据同时具备价值性、多样性、规模性和高速性,即大数据的4V特性[1]。大数据的数据结构复杂,数量庞大、分布广泛[2],黄河文明文献资源与大数据的数据特性有异曲同工之处:大数据的服务是通过对数据集的分析来提供服务,黄河文明文献资源数据库也是通过各个数据集之间的交换来实现对用户的信息化服务。所以,黄河文明文献资源数据库的数据也同样具备大数据的各种特性。那么,基于大数据环境,黄河文明文献资源数据库建设如何实现数据的发现、数据的存储、数据的组织、数据的检索以及搭建基于大数据环境的特色数据库服务模式成为课题组研究的重要内容。
3.1 黄河文明文献资源数据库的信息挖掘
基于大数据环境的黄河文明文献资源数据库的信息挖掘工作主要包括三个方面。
3.1.1 定义目标。黄河文明文献资源库的资料来源由五个部分组成:纸质资源、数字资源、电子资源、网络资源、用户资源。黄河文明文献资源库建设应注意深挖用户本身产生的资源与其他资源的潜在关系,以用户的需求为导向,提供更好更完善的信息服务。
3.1.2 定义内容。纸质资源、数字资源、电子资源、网络资源是数据库的文献基础,其表现形式分别是:文本、图像和影音。而用户资源则包括用户需求信息和用户行为信息,行为信息是指用户的年龄、职业、性别、知识结构、发表的论著等信息,用户需求信息则需要利用大数据挖掘技术对用户检索的痕迹、浏览的页面、分项的评论等信息进行发现和利用。
3.1.3 定义方式。信息资源的发现主要表现为基于大型仓储数据的发现,基于大数据分析资源的发现。基于大型仓储数据的发现,主要通过搭建一个庞大的数据池来实现,将所有资源的元数据汇总在一起,通过大数据的技术实现知识关联服务;基于大数据分析资源的发现,则需要拥有一个庞大的系统词表和信息记录机制,将用户的检索记录、检索方式、点击率等信息进行堆积、处理、分析,利用大数据技术找出潜在的信息资源。
3.2 黄河文明文献资源数据库的信息存储
大数据时代,信息资源的增长呈爆炸性扩张,数据量也从GB级发展到TB和PB级别。目前的存储系统已经无法满足大数据的存储,特别是针对结构化数据、半结构化数据和非结构化数据进行分析、集成和融合是迫切需要解决的问题。大数据时代下的云计算和云存储能很好地解决这一问题。云计算环境下不仅它的软件是信息化,同时它的硬件也是信息化,硬件资源的动态调整和扩充能很好地解决大数据黄河文明文献资源数据库的信息存储问题。
3.3 黄河文明文献资源数据库的资源组织
大数据环境下,数据结构分为结构化数据、半结构化数据和非结构化数据[3]。就单一数据来说结构化数据是最有价值的,能充分地反映出数据对象的各种属性,但是在利用大数据的技术手段时,针对半结构化数据和非结构化数据的整理、分析,更能准确地反映出用户的真实需求,所以,基于大数据的黄河文明文献资源数据库的资源组织就显得尤为重要。黄河文明文献资源数据库的数据组织不仅要采用传统的主题法和分类法,同时还将利用其关系型数据对象分类法所产生的交叉索引进行元数据资源组织。而针对半结构化数据和非结构化数据进行选择性搜集,利用科学方法,经过优化、加工、归类后,采用批处理的方法,使数据呈现一定规律。
3.4 基于大数据黄河文明文献资源数据库的资源检索
黄河文明文献资源数据库选用的SAP6.0平台,已经具备了大数据环境下数据库资源的检索功能。用户可以根据自己的需求,关注多种检索点,选择对应的检索途径,实现全方位的信息检索。系统还可以依据用户查询时留下的检索痕迹进行信息追踪、挖掘和预测用户的需求,并能对用户的需求做出快速的反应,主动为用户推送检索结果。因为,拥有完备、丰富的资源库,灵活、多样的分类方法,方便、快捷地利用各种数据,是课题组建设黄河文明资源数据库的初衷。所以,在数据库建设的顶层设计上,课题组就开始考虑对不同的数据结构和数据对象进行收集、整理和归类,利用智能化的系统词表、检索结果,通过数据需求和数据价值进行排序,实时地优化搜索引擎,从而实现大数据环境下的黄河文明文献资源数据库的资源检索服务。
建设特色数据库是揭示某一领域、某一地域、某一时域文献信息特征的重要表现途径,其成果既可彰显资源的价值,又可使资源最大限度地被利用。但其建设所涉及的数据搜集、数据聚合、数据分类、数据规范、搜索引擎等是广泛和复杂的,特别是在大数据时代,特色数据库建设对图书馆来说既是机遇,也是挑战。只有通过大数据、云计算等现代技术,认真分析不同类型的数据,深挖用户需求,才能最大限度地实现文献价值,确保特色数据库的成功建设。
参考文献:
[1] 韩晶.大数据服务若干关键技术研究[D].北京:北京邮电大学,2013:1-2.
[2] Meng Y,Han J,Song M,et al.A carrier-grade service-oriented file storage architecture for cloud computing[C].Web society(SWS),2011 3rd Symposium on.IEEE,2011:16-20(EI:20120514737769).
[3] 廖智博.云计算环境下的大数据分析[J].苏州大学学报,2014(2):64-69.
(编校:崔 萌)