高校数字化系统数据整合研究与实现
2011-10-20郑州旅游职业学院王静蕾
郑州旅游职业学院 王静蕾
高校数字化系统数据整合研究与实现
郑州旅游职业学院 王静蕾
一、数据整合的策略
为了实现统一的资源管理、门户管理和权限管理,必须科学规范地对高校的信息资源进行整合。在数据整合过程中,通过对业务流程的组织和再造,从而推动高校的制度创新和管理创新,最终实现教育信息化、决策科学化和管理规范化。目前,信息资源主要有3种整合策略。
1.资源集中法。指通过对高校现有应用系统的调研,按照各个部门的需求,制定统一的信息标准和应用平台,在统一的框架中重建各种应用子系统,建立统一的主题数据库,用于存储全校的数据。各部门将有用的数据集中到数据中心。这样,系统中只有1个主数据库,这样做的优点是各个子系统之间的耦合程度较高,资源相对稳定,容易实现各子系统与数据中心的无缝连接。缺点是开发周期相对较长,用户需求难以准确把握且灵活度不高,资源的所有权也无法得到很好的解决。
2.元数据整合法。指在保留各部门原有应用系统不变的前提下实现资源整合,从各应用系统中抽取有共享价值的数据,建立共享数据中心。各部门的数据读写操作都在其原有的应用系统中进行,只有当这些数据涉及其他部门时,系统才通过预先的部署将共享的数据推出或录入,从而实现应用系统数据的相互关联。这种方法的优点是数据检索速度快,能适应内容的频繁更新,缺点是统一数据标准的难度较大。
3.联合检索法。联合检索法类似于元数据整合的做法,在应用系统只涉及本地数据访问时,数据操作只发生在本地,当请求访问其他部门和工作站的数据时才和数据中心进行关联。两者的不同之处在于,这种资源整合方法并不创建共享数据库,而是建立资源索引库。所有业务数据仍然存放在各部门的工作站中。部门将有共享价值的数据子集存放在资源索引库中,告诉它某个数据处于网络的哪个位置,其功能类似于互联网上的搜索引擎。这种方法适合元数据不能集中访问不同资源的情况,但它采用了资源索引库,而忽视了原有资源信息存在的不同标准,因此,维护难度比较大。
二、数据整合过程中的关键步骤
虽然以上3种数据整合策略各有利弊,但都需要在数据源中获取有用的数据,并利用某种方法形成一种类似于“中间件”的集成模式,用户可通过这种集成模式与数据源之间建立联系,从而对元数据进行查询或修改等操作。数据整合中所利用到的关键技术有以下几种。
1.获取元数据。各部门的数据保存于不同的应用系统服务器上,存储的标准也不尽相同,对于这些异构数据源的整合,最关键的步骤就是集成数据源的相关信息,也就是获取元数据。目前,主流的数据库产品均能根据保存的数据库文件类型生成相应的SQL脚本,协助用户备份或建立数据库。这些脚本包含了数据源的所有元数据。虽然不同的数据库产品在语法上略有不同,但都可以通过分析SQL脚本结构来提取所需要的元数据,并将按照统一的格式保存到元数据库中。
2.集成模式的建立。所谓数据集成在这里是指按照用户的查询需求从各部门数据源中得到元数据并进行清理与整合,并将元数据作为依据进行连接形成元数据库的过程。集成后数据在逻辑上依然是按“表”或“视图”的形式组织的,但因为同一列的元数据来源于不同的数据源,所以集成时可能会因为数据源对字段类型定义的不同而导致整合的失败。因此,在进行集成之前,必须根据实际的需求建立相应的集成模式,如对相同语义的元数据重新定义统一的字段名称、类型和长度等数据内容,从每个数据源得到的数据都要使用此标准进行转换以确保集成操作顺利地进行。
3.集成模式与元数据之间的映射关系。集成模式对异构数据源上具有相同语义的元数据进行了统一的管理,但如果要获得实际需要的数据,还必须通过与异构数据源的元数据发生某种联系来实现,这种联系便是集成模式与数据源元数据之间的映射。映射是以集成模式为参照,由用户选择需要整合的表,将需要集成的具有相同语义的元数据并联到相关的集成模式上。这时,异构数据源就会以集成模式为纽带产生一定的关联,只要对集成模式及相应的映射关系进行分析就能得到各数据源的实际查询语句,实现对异构数据源的查询。
4.查询语句的生成。通过对集成模式及其对应的映射关系进行分析,就能把集成模式的查询分解为针对各异构数据源的查询,然后再把各数据源的查询结果按照集成模式进行整合,最终得到集成结果。
三、数据整合的关键技术
1.数据整合的大致思路。先根据用户需求锁定所需的元数据,然后建立集成模式,对其进行一定的筛选和删减,生成用户视图(表),并确定相应的映射关系,对用户视图(表)进行分析,根据用户视图(表)的字段以及相应的映射关系确定每个异构数据源需要查询语句,并使用用户视图的字段作为元数据字段的别名,如果在数据源中不存在映射关系,则元数据字段以“NULL”值代替。最后,根据元数据字段生成各数据源查询语句,每执行一个查询语句后都在本地数据库中建立临时表保存查询结果。对所有的临时表按记录数目的多少进行排序,将记录数目最少的2个表进行连接,由此生成1个新的临时表,完成后将参与连接的2个表删除。循环上述步骤,直到剩下最后1个临时表,即为集成查询的初步结果。最后对最终临时表进行整理,消除表中的重复项,并按用户视图的样式输出,完成最终的数据整合。
2.关键代码举例。在此,对整个过程关键代码举例说明,以在2个不同部门的服务器上的2张表作为源数据表,通过SQL中的openrowset命令来实现数据的同步查询、修改等操作。具体操作代码如下所示:
不难看出,这段代码只对1台服务器数据库进行操作,而对另1服务器数据库的操作在存储过程“client_seach”中体现出来。存储过程“client_seach”的关键Transact-SQL语句如下所示:
用select*from client查询本机数据库表,用openrowset打开另1台服务器得数据表,用on a.id=b.id语句与这2个数据表建立关系,再用full join命令把2张表的数据联合起来。关键代码如下所示:
SqlConnection con = new SqlConnection("Data Source= J-23\J23SQL2005;Initial Catalog=Testlkss;Integrated Security=True");//建立与“J-23\J23SQL2005”与服务器数据库连接
SqlCommand cmd=new SqlCommand("client_insert",con);
cmd.CommandType=CommandType.StoredProcedure; //执行存储过程
本文,笔者对高校信息资源的数据整合进行了分析和研究,主要探讨了数据整合的相关策略和模式,并结合具体实例给出了关键技术的实现代码,为高校进行数据整合的设计提供了思路。