APP下载

基于SQL的电子资源数据库元数据的开发与设计

2014-10-09张凯

关键词:存储系统分块资源库

张凯

(河北农业大学图书馆,河北保定071001)

在电子资源数据库建设过程中,包含2方面的工作,即数据的存储和数据库的制作.首先,数据的安全存储是关键.服务器与存储系统的合理配置和存储模式的选择关系到数据的稳定运行和长期保存.图书馆可以采用SAN(storage area network)即存储区域网络模式.这种模式采用光纤通道FC(Fibre Channel)技术,能够提供4Gbit/s以上的数据传输速率,通过光纤通道交换机连接存储阵列和一群服务器,建立专用于数据存储的区域网络,是一种新兴的存储模式.文献[1]研究了SAN存储网络的灵活性、可管理性和可扩展性.文献[2]总结了SAN网络的特点:存储性能高,可用性能高,光纤通道可提供4Gbit/s带宽的高速存储,但对于该模式下数据的存储原理没有做论述.在本文中系统通过SAN模式来存储数据资源,实际运用中发现许多大的存储文件不但存储在单一的节点中,而且还要对这些文件进行并行处理,因此采用了分块的方式存储数据.设计了以64M为分块单位的算法,其次,在数据库制作中,元数据的设计和开发是重点.本文采用了方正apabi的建库平台来建立数据库,该平台从数据制作到发布提供了一整套成功的方案.文献[3-4]对方正apabi平台的使用做了具体介绍.通过该平台可以新建数据库、加工资源、数据审核、数据发布,但是对于元数据的修改没有做论述.实际使用中,笔者发现在apabi平台中修改元数据时会出现一些问题,因此在这方面做了如下的具体工作:由于平台是通过底层的SQL Server数据管理系统开发的,通过对SQL“表”的研究发现了修改元数据的方法.在元数据的设计中,采用XML语言来描述其结构,将数据文件的结构、内容和表现形式分离,具有良好的操作性、灵活性和规范性,成为元数据编码的主流技术.本文以农业学科书评数据库为例用XML语言编制了元数据,内容包括了该库的描述、字段信息、唯一标识等.字段信息定义为:被评图书题名、被评图书作者和被评图书出版社3个公有字段.

1 数据存储技术

1.1 存储区域网络SAN

目前从存储系统的模式来看,存储区域网络SAN是一种更加安全稳定的模式,采用光纤通道交换机和光纤线缆把存储设备和服务器机群连接,提供速率高达2Gbit/s的数据传输,是真正的高速共享存储.其优点很多,如:具有自己独立的存储区域网路,不占用外网的资源;光纤接口提供连接长度达10km;独立的存储管理系统对存储设备进行集中管理和监测[5-6].

1.2 存储系统结构框架

本文采用SAN存储区域网络来组建存储系统.考虑到图书馆所提供的多方面服务,系统包括了图书馆主页、借阅管理、各种数据库、阵列管理服务器和存储设备以及相连接的光纤交换机.各个服务器通过自带的HBA卡与光纤交换机相连,磁盘阵列和磁带库也通过光纤接口和光纤交换机连接.通过独立的阵列备份服务器,可以把数据定时备份到磁带库而不占用外网资源,这样磁盘阵列作为独立的网络节点而不再是服务器的附属,组成了高速传输、运行稳定的SAN存储区域网络,系统框架如图1所示.

1.3 分块算法的结构设计

SAN存储系统通常采用的是分布式文件系统,在本文设计的存储系统中,许多大的存储文件不但不能存储在单一的节点中,而且还要对这些文件进行并行处理,因此采用分块的方式,也就是存储的文件分成若干个block块文件存储在不同节点上,这样可以提升处理速度,与此同时把存储的文件都分成64MB的block文件,经检验这种分法比较合适.很多的应用文件一般不超过64MB,但不是所有的文件都分块,对于很小的文件规定当低于某个值时是不用分块的,也就是只有1个block[7].分块算法的结构如下:

在本算法中,首先定义block的集合为A0到An.An最大取64.当存储文件小于A0时,不用分块.如果文件大于最大的An时,需要分块.最后调用分块算法的子模块blocking(size)procedure,对存储的文件分割存储.

图1 存储系统框架Fig.1 Storage system structure

2 数据库制作中的关键问题

基于SAN模式的农业数据库存储系统搭建好以后,接下来就要考虑软件的实现了,也就是数据库的建设问题.笔者利用方正的Apabi数字资源平台来创建.该平台可以为用户提供统一的数字资源发布页面,统一的用户管理认证,统一的检索入口,同时针对不同资源又有丰富的资源展示方式、导航方式和检索方式,能够在内容层面关联不同类型的资源[8].结合专业优势和研究成果,本校图书馆设计建立了农业学科书评库和枣文献数据库.枣文献数据库又包含枣图书、枣专利、枣会议文献3个种类.在建库过程中,有2个关键的技术,决定着数据库的性能,对此本文做了具体的研究,既深入研究了SQL Server的表与元数据的关系以及利用XML语言对元数据进行设计.

2.1 元数据与SQL表的关系及其修改

利用Apabi数字资源平台建立枣资源数据库,前台界面清晰直观,数据的制作也很方便,是一种高效快速的建库方法.但是值得注意的是,在建库的最初阶段,数据库的组织结构框架一定要慎重设计.一旦元数据和对应的资源库建立好,并且制作完成需要发布的数据,再想对显示的组织结构图进行更改会很麻烦,笔者就遇到过由于资源库归类不合适而需要改变元数据,在删除该资源库重新建立的时候遇到一系列问题.首先apabi数字资源平台里不能直接删除该资源库,提示因为库里还有资源没有删除,要先删除已经发布的资源,显然资源已经发布就不能被删除了.其次如果停用该资源库,然后新建同名的资源库,这时又会提式发布失败,或者显示发布成功但在前台看不到新发布的资源,很明显新发布的资源没有上传到统一平台里.根据以上2方面问题,深入研究了服务器上安装的SQL Server里与Apabi数据库相关联的表.因为SQL Server是Apabi数字资源平台的底层开发工具,而SQL Server里表的标识就是Apabi平台中元数据的唯一标识.

在SQL Server数据管理系统里,一个表就对应了Apabi资源平台里的元数据.在SQL Server里面的ApaDLibrary_370_11数据库里点击“表”,列出了Apabi资源平台里所有的资源库的元数据信息.但是,具体哪个表是要找的元数据的信息呢?回到Apabi资源平台,在元数据管理界面,鼠标指向之前建好的元数据枣文献数据库,网页最下面会显示出一串IP信息,注意其中的“MetaTypeID=18”就是枣文献数据库这一元数据在SQL表里的位置.打开表“CMF_META_0018”,如图2所示,里面就包含了制作的关于枣文献数据库的具体信息.

在上面提到的在删除资源库和重新建立元数据和资源库的时候,系统提示错误信息,就是因为虽然在数字资源平台里删除或者停用这个元数据和资源库并重新建立,但是在SQL里对应的这个表并没有彻底删除.尝试删除这个表,又会提示不能删除,某一列被另外的表占用.根据提示找到被占用的另一个表,考虑可能该表使用了表“CMF_META_0018”的数据,先把它删除才能删除表“CMF_META_0018”,但是又会提示该表数据被第3个表占用.按照类似的方法,笔者找到许多关联的表.显然,要想彻底删除表“CMF_META_0018”需要把这些相关联的表全部找出来删除,操作非常繁琐.

2.2 元数据的结构设计

在建库过程中,标准的建立即元数据的设计是关键.如何定义和组织数据并且使读者能够快速检索到需要的内容,是建立农业数据库时需要慎重考虑的.

元数据是数据库设计中的核心部分.这里的元数据是指具有相同属性、可以用相同方式描述其信息的一类资源,是数据库性质和属性的描述,定义了数据库的组织结构形式.以农业学科书评数据库为例,元数据里包括了库的描述、字段信息、唯一标识等,其中字段信息可以定义为:被评图书题名、被评图书作者和被评图书出版社这3个公有字段.为了检索的方便也可以添加其他的自定义字段,字段确定后就可以用程序语言具体地描述出来,通常采用的是XML格式既可扩展标记语言来编写.

XML标记语言把数据的结构和显示方式分离,是编写元数据的主要语言[9-10].以XML格式编写的农业学科书评数据库的结构如下:

图2 SQL里枣文献数据库的表Fig.2 Table of jujube database in SQL

<Field Name="ClassCode"Type="String"Length="50"DisplayName="中图法分类号"CategoryID="CAT_ZTF"/>

<Field Name="Title"Type="String"Length="256"Mandatory="TRUE"DisplayName="被评图书题名"/>

<Field Name="Creator"Type="String"Length="256"Mandatory="TRUE"DisplayName="被评图书作者"/>

<Field Name="Publisher"Type="String"Length="256"DisplayName="被评图书出版社"/>

<Field Name="PTitle"Type="String"Length="250"Mandatory="TRUE"DisplayName="书评提名"/>

<Field Name="PCreator"Type="String"Length="256"DisplayName="述评作者"/>

<Field Name="PPlace"Type="String"Length="256"Mandatory="TRUE"DisplayName="书评来源"/>

<Field Name="Catalog"Type="Xmldata"DisplayName="目录"Description="目录"/>

</MetaField>

</MetaSchema>首先,描述XML的版本为1.0.从MetaSchema元素开始,到</MetaSchema>结束,是该数据库元数据的主要内容.其中,<Identity>部分描述数据库的唯一标识.<DisplayName>定义数据库的名称,还有库创建的时间和功能等信息[11-12].

中间的<MetaField>到结尾</MetaField>之间,是定义农业学科书评库的字段信息,由公有字段和自定义字段组成.每条“Field Name”定义了一个字段.例如字段“ClassCode”,它的类型定义为“String”也就是字符串类型.长度Length是50字节.显示名称为“中图法分类号”.

3 结论

农业数据库资源的保存与建设是农业高校发展的关键部分.以SAN结构组建的存储平台,具有高的冗余性和运行稳定性能,为数据资源的长期保存提供了可靠保障.在分块算法的结构设计中,把存储的文件分成64MB的block文件,经检验这种分法是比较合适的.同时深入探索元数据与SQL Server表的关系可以更好地对表进行开发和维护.以XML格式编写的数据库元数据,结构清晰,编写简便,可以很好地与各种数据库建库工具衔接,具有良好的兼容性.

[1] 徐革,李宁.基于FCSAN和IPSAN架构的数字图书馆综合网络存储应用[J].计算机应用研究,2005(6):168-170.XU Ge,LI Ning.Application of network storage consolidation solutions for digital library based on FC SAN and IP SAN[J].Application Research of Computers,2005(6):168-170.

[2] 余晓征,李岩.分布式数字资源中心网络存储系统的研究[J].农业网络信息,2007(5):12-15.YU Xiaozheng,LI Yan.Study on network storage systems of the distributed digital resource center[J].Agriculture Network Information,2007(5):12-15.

[3] 刘菁.利用方正Apabi建立图书馆设备管理系统[J].科技信息,2006(9):183.LIU Jing.Establishment of facility management system of library by using Founder Apabi system[J].Science &Technology Information,2006(9):183.

[4] 王亚秋.中国枣专题知识库的构建[J].安徽农业科学,2008,36(20):8858-8859.WANG Yaqiu.On the construction of knowledge base of Chinese jujube[J].Journal of Anhui Agricultural Sciences,2008,36(20):8858-8859.

[5] 李春梅.基于SAN的存储资源整合和高可用性研究[J].计算机安全,2012(11):56-59.LI Chunmei.Storage resource integration and high usability research base on SAN[J].Computer Security,2012(11):56-59.

[6] 任斌,孔德刚.基于IP SAN的高校存储网络研究与实现[J].长春工程学院学报:自然科学版,2011,12(4):117-118.REN Bin,KONG Degang.Research and implement of university storage network based on IP SAN[J].Journal of Changchun Institute of Technology:Natural Sciences Edition,2011,12(4):117-118.

[7] BUYYA R.A Taxonomy of data grids for distributed data sharing,management,and processing[J].ACM Computing Surveys,2006(3):1-53.

[8] 刘菁.利用方正Apabi建立图书馆设备管理系统[J].科技信息,2006(S2):183.LIU Jing.Establishment of facility management system of library by using Founder Apabi system[J].Science &Technology Information,2006(S2):183.

[9] 吴显义.我国元数据研究现状分析[J].情报科学,2004,22(1):55-62.WU Xianyi.Analysis on the status Quo of metadata in China[J].Information Science,2004,22(1):55-62.

[10] 毕强,朱亚玲.元数据标准及其互操作研究[J].情报理论与实践,2007,30(5):666-670.BI Qiang,ZHU Yaling.Research on metadata standard and its interoperability[J].Information Studies:Theory &Application,2007,30(5):666-670.

[11] DEITEL H M,DEITEL P J.XML how to Program[M].Beijing:Publishing House of Qinghua University,2002.

[12] 郑建标.一种基于XML和元数据的工具框架研究[J].微计算机信息,2007,23(3):197-199.ZHENG Jianbiao.A framework research base on the XML and the metadata[J].Microcomputer Information,2007,23(3):197-199.

猜你喜欢

存储系统分块资源库
钢结构工程分块滑移安装施工方法探讨
健身气功开放课程资源库建设研究
分布式存储系统在企业档案管理中的应用
分块矩阵在线性代数中的应用
贵州●石斛种质资源库
天河超算存储系统在美创佳绩
基于共享资源库的混合式教学考核模式研究
高中历史信息化教育资源库应用探索
反三角分块矩阵Drazin逆新的表示
基于多分辨率半边的分块LOD模型无缝表达