大数据时代的数字图书馆异构数据集成研究
2018-10-11
(内蒙古自治区图书馆 内蒙古呼和浩特 010020)
数字图书馆是利用现代数字技术来处理以及存储多种形式的文献。这些文献之中包含了论文、书目以及相关的期刊杂志,甚至包含了音频文献。显而易见,这些数据拥有不同的性质,存储方式也存在着一些差异。传统的人工数据集合方式很难将每时每刻产生的信息进行很好的处理以及保存。因此,研究大数据时代图书馆异构数据集成这一主题就显得尤为重要。
一、数字图书馆的现实背景
在当下,类似微博、微信等社交平台以及其他新型得信息发布方式层出不穷。各个国家都采取了相应的措施来迎接大数据时代。并且根据现处的大数据时代,很多传统企业发生了转型。利用不断普及的现代网络技术,数字图书馆的理念也衍生出来,它的产生也具有一定的现实意义。
1.大数据的规模性大数据的多样性代表着大量的数据都没有稳定的结构,其中包含着结构、半结构以及非结构化数据。
2.大数据的高速型意味着大数据应该实时产生,并且根据用户的需要提供一定的数据分析。
3.大数据的价值型意味着大数据的价值并不重要,没有特别多的意义。但是把这些大量的数据进行综合以及探究就能够发现很多更具价值的信息。
二、数据图书馆的特征
1.数字图书馆拥有大数据的特征,当中蕴藏的信息量在逐渐地增加。
这个数量是极为庞大的。以2010-2017年的数据增长情况为例,制作了以下的图表。情况可见表格以及折线图。
年份 2010 2011 2012 2013 2014 2015 2016 2017数据总量(TB) 426 819 865 906 1020 1280 1450 1677
将我国从2010年到2017年的数据总量进行对比能够很清晰的发现数据的总量变化非常大,增加幅度高。这从上文的图表中能够得到明确的数量变化。
数字图书馆内存资源具有多样性特征。这其中包括了传统的文献资源,例如,期刊杂志以及图书,还出现了新型的文献资源。例如,读者的反馈以及网络资源。因此,数字图书馆的信息结构具有多种多样的特征,单调的数据整理方式很难将这些数据完整存储起来。除此以外,数字图书馆内的资源总量十分庞大并且还在不停地发展。最后一个也是比较重要的一点:信息技术在不断的发展后,用户也提高了对数字图书馆信息服务的要求,他们不仅仅满足于对资源进行查询的一些服务,而是转变为更加具有深层意义的数据分析。因此,数字图书馆应该改变服务方式,深入探究存在的价值。
三、数字图书馆数据集成过程中面临的问题
当前,虽处在大数据时代,但是数字图书馆数据集成过程中依旧存在着很多问题。(1)传统的数据分类形式单调,只有一种或者几种。(2)没有固定的结构,异构数据中结构化与非结构化占比更加大。(3)用户拥有了更加复杂的需求。因此,对这些数据进行有效集成并且挖掘它们存在的含义是现如今数字图书馆亟待解决的问题。这就必须利用分布式的存储形式。(4)但是传统的关系型数据库在对系统的开拓性方面产生较大的局限性,都是先拥有原来的数据形式,再拥有的数据。很多的数据都没有办法进行确定的形式,而现如今的数据在不断的增加并且形式种类繁多。
四、数字图书馆异构数据集成技术
1.数据仓库技术
这种方式是将各个场地分布的数据进行筛选之后集合到数据仓库中。这种技术注重对数据的高度掌控,利用这种集合方式将大量数据集合在一起,形成数据仓库。这整个技术模型中包含了异构管理系统综合数据库、接口组件、应用系统以及外部数据源、Oracle等。
2.中间件技术
为了更好的解决数据异构的问题,学者又提出了一个新概念:中间件。中间件是处于平台和实际应用的一种服务类型,不同类型的平台以及应用需要利用不同形式的中间件。这种服务能够让读者直接进行数据查询,而非直接在数据库内进行搜索。
3.基于web服务的异构数据集成技术
这种方式简化了对异构数据源的访问源,实现了系统与系统之间的简易互动,解决了异构的交互的难题,能够更好的存储大量数据。而图书馆数据繁多,利用这个技术能够理清数据。
结语
数字图书馆数据集成过程中依旧存在着很多问题。传统的数据分类形式单调,只有一种或者几种,并且这没有固定的结构,异构数据中结构化与非结构化占比更加大。这能够更好的、更加高效地将海量的数据进行有效集成,并且进行完整的存储以及处理,给予用户更好的数据使用体验。