基于模式映射的异构数据整合方法研究
2020-06-10王英杰
王英杰
(北京建筑大学 测绘与城市空间信息学院,北京100044)
目前数字化建设方面城镇比城市相对落后,使得城镇规划、管理、服务不能依靠现代化技术提高,多年的数据累积了大批城镇数据资源,由于数据技术规范使得很难相互共享。因此在现有基础上,构建无缝的、规范的城镇地理空间框架数据,提高城镇数据资源的应用范围,减少数据重复率、信息获取费用。并且还能够为城镇经济信息等空间分析和城镇各类信息系统实现提供地理空间信息的有力支撑。
1 异构数据研究及问题分析
1.1 相关研究
数据整合主要针对数据的异构问题,这是数据整合的核心,通常被分为三个方向系统、模式、来源异构。由于数据存储的数据库管理系统和运行的业务系统以及桌面系统之间不同导致系统异构。数据存储的数据库的不同导致数据类型不同,同时也导致存储模式的不同,造成模式异构。业务系统内处理的内部数据与外部输入的数据不同造成来源异构。
在数据整合中数据语法和数据语义为数据整合的难点,其中数据语法的异构是因为设计中数据字段与数据类型在不同的数据源中不能匹配。解决的方法为依照数据结构满足不同数据源中数据结构映射。但数据异构整合还要考虑数据的语义问题,需要对数据内容的含义理解再做匹配,通常需要对数据内容进行拆分处理。
1.2 问题分析
异构整合为了把非同一数据源中的数据集成到结构统一的数据集合中。主要目的是为了把相关的异构数据有效的利用起来,可以达到通用快捷的数据查询,便于数据共享。为了达到条件,异构数据整合要建立数据的继承性、数据的完整性、数据的一致性以及数据的安全性。
异构数据整合设计方法针对以下问题:a.针对不同数据源,提供通用查询,并且如何查询数据源的更新数据。b.数据源的整合数量,面对互联网网络数据源,大量未知的数据结构如何匹配。c.不同的数据管理系统保管的不同数据,例如非结构化数据(图片,音频),这些数据如何处理。
2 异构数据模式匹配方法设计
2.1 模式匹配块处理流程(图1)
首先用户输入数据模式,将此数据模式作为目标然后一次对异构数据中的各个属性进行匹配判断,匹配输出后将异构数据源的属性建立映射关系。
图1
表1
2.2 属性匹配器
属性匹配器是根据两个不同属性间的相似度判断进行匹配,输出的是布尔对象,true 代表相似,false 代表不相似。数据属性名称的相似度是非常重要的衡量标准之一。但由于在不同业务系统下,往往属性名称不同但含义相同,所以利用特征词的相似度可以匹配不同数据源中的数据结构,通常相似度计算方法有互信息法、余弦系数法、基于距离的计算模型法等。首先判断特征词的相似度需要中文语料库,通过语料库中包含的所有中文词汇,能从中抽取出数据属性名称的特征,依据特征再建立特征向量模型,根据模型计算出特征词之间的相似度。此外数据的类型也可以作为匹配的标准之一。例如不同数据源的两个属性描述相同的实体,因此它的数据类型往往都是相同的,所以本文依据数据类型总结归纳为四种:第一是数字类型,第二是字符串类型,第三是日期类型,第四是布尔类型。数据类型的相似度可以依据项目经验给予不同之间的数据类型赋值,例如布尔类型数据对应数字类型数据1 和0,那么它的相似度赋值就偏高,再有比如同样的数据类型,但数据长度不同,那么它的赋值就会低于相同长度的相同数据类型的相似度赋值。根据这种方式我建立赋值表,见表1。
2.3 相似度计算
每个属性匹配器输出0-1 的数字,再将不同输出的数值进行向量矩阵处理,从而得到一个相似度值。因此属性匹配器输出的结果聚合后。通过聚合函数将直接影响数据的匹配。
本文采用基于幕平均的聚合策略对多个属性匹配器返回的结果进行合并。
3 结论
本论文提供异构数据整合方法思路,使整合后的数据保证一定的集成性、完整性和一致性。为实现不同结构的数据之间的数据合并和共享提供了基础,通过开源工具和处理,建立全局统一的数据集成。