APP下载

基于语义匹配的海量异构数据自动化集成方法研究

2018-05-15李贺李晓琳

软件导刊 2018年4期
关键词:数据仓库数据模型字段

李贺 李晓琳

摘 要:随着互联网与信息化的普及,数据数量、数据来源与数据格式的复杂性愈加突出。互联网、传感器、人工收集等多种来源产生了海量异构数据,为解决多源异构数据处理问题,设计一种将海量异构数据自动化集成到同一数据仓库的方法。通过建立元数据模型(以数据集为单位)将来源数据按数据集分类,映射整合到数据仓库中,通过CRF序列标注模型、Skip-Gram神经网络、TF*IDF等机器学习技术,解决了数据仓库集成中语义映射的难题,实现了海量多源异构数据的自动化入库,为之后的数据分析挖掘提供了良好基础。

关键词:海量异构数据处理;元数据;CRF序列标注;Skip-Gram神经网络;TF*IDF算法

DOI:10.11907/rjdk.172628

中图分类号:TP391

文献标识码:A 文章编号:1672-7800(2018)004-0194-03

Abstract:With the popularization of internet and information technology, the complexity among the number of data, data sources and data formats grows more and more prominent. Internet, sensors, artificial collection and other sources have produced massive heterogeneous data, so a method of automating the integration of massive heterogeneous data into the same data warehouse is designed to solve the problem of multi-source heterogeneous data processing. By setting up the metadata model (in units of data sets), the source data is classified according to the data set.The mapping is integrated into the data warehouse. Through the CRF sequence annotation model, Skip-Gram neural network, TF * IDF and other machine learning techniques, the problem of semantic mapping in data warehouse integration is solved, and the automatic storage of massive multi-source heterogeneous data is realized, so as to provide a good foundation for the subsequent dato analysis and mining.

Key Words:mass heterogeneous data; metadata; CRF sequence labeling; Skip-Gram neural networks; TF-IDF algorithm

0 引言

随着互联网的日渐普及,数据来源更加复杂[1],数据量更是以几何级数增长。如何合理梳理海量异构、多来源的数据迫在眉睫。例如公安信息系统[2],由于全国公安信息互联,范围广、种类多、信息復杂,导致了数据的海量异构。

同时,数据处理与自然语言处理技术日趋完善,其中针对数据处理,尹宝才、王文通等[3]介绍了深度学习算法在不同数据处理中的最新应用现状及发展趋势;宗成庆[4]通过将给予规则的方法和给予统计的方法相结合,提高了自然语言处理正确率,并对语料库技术、汉语自动分词与词性标注、句法分析、词义消歧等进行了研究。

本文基于海量异构数据的实际场景,对多来源、多异构的数据提出智能语义匹配的自动化集成接入方案。首先提出将多源、相似数据合并成统一的数据集,以解决来源复杂、存储重复的问题;其次,对多格式数据进行分析,针对不同格式,填写对应的配置文件(文件格式、映射目录、字段含义、分隔符等),实现多格式的数据处理;然后通过机器学习的语义匹配对语义相同、名称不同的数据字段实现智能自动化推荐,解决了来源数据集和企业内标准数据集映射的问题;最后,采集大量样本数据,通过现场测试、学习样本训练等,提高正确率。

1 设计思路

常见数据集集成方式[5]有:Federated Database(联邦数据库)、Data Warehouse(数据仓库)、Middleware(中间件体)。联邦数据库对多源数据采用部分集成方式,但查询复杂、映射程序关联过多;数据仓库能够统一数据格式进行存储,但数据源发生变化时不能及时更新;中间件体实际提供的是一种查询方案,可进行跨数据源的查询,但存在查询效率不高、速度慢等缺点。

联邦数据库和中间件体称为模式集成方法,数据仓库称为数据复制方法。两种集成方法对比如表1所示。

综上述,本文提出基于元数据的集成方案,企业内部制定以数据集为单位的元数据模型,将海量异构数据按数据集进行分类,类似于模型化ETL过程,并对数据来源、地市、类别等信息进行标记,实现了数据的整体化和集成规范化。相对于传统数据仓库方法,可通过元数据修正实现数据的及时更新;相对于中间件体方法,减少了跨数据库的查询模式,效率更高,关联性更好,信息更全面。

语义匹配则是针对来源数据集分类映射到企业内部元数据模型时,存在的数据集归类、具体字段含义分析问题而实现智能的映射关系推荐。整体设计如图1所示。

2 方法实现

根据海量数据来源和相关企业及国家标准,制定能够广泛涵盖海量数据的元数据模型,并根据实际情况进行增删修改;根据数据集的推荐和对应字段的映射关系,采用语义匹配方式进行智能匹配。主要工作内容包含以下几部分:

(1)通过CRF序列标注模型(Conditional Random Field)进行相邻语句标记,通过上下文确定字段含义,实现中文文本自动分词,训练领域相关分词器。CRF序列标注模型属于判别模型,主要对条件概率模型P(Y|X)进行建模。学习时,利用训练数据集通过极大似然估计或正则化的极大似然估计,迭代求解模型参数;预测时,对于给定的输入序列X,求出条件概率P(Y|X)最大的输出序列Y[6]。

(2)针对训练好的领域相关分词器,建立大量语料库,对语料进行分词处理,建立语言模型(基于Hierarchical Softmax的Skip-Gram神经网络)训练领域词向量[7-8]。

(3)去除字段中无含义的助词部分(的、了、啊等语气助词),应用TF-IDF算法[9-10]评估具体字段或语句在来源数据中的重要性,并通过对词向量的加权平均,确定其归属数据集和对应字段。

(4)数据集推荐问题分解为两个步骤:数据集分类、集内元素推荐。以之前人工完成的映射作为样本进行向量化,接入的数据集编号作为类别,应用MLP建立分类模型,应用MLP分类模型训练生成训练数据集,应用相似性最大匹配算法遍历解空间计算字段映射。经实际数据检验,分类模型的F1值可达91%。

具体工作模式分为两部分,对来源数据集采用缓存和语义词向量两种方式,实际步骤如下:①对数据集所有字段的中文描述进行排序,然后按顺序拼接成一个长字符串。应用哈希算法,计算出该数据集的哈希值Key。对字段中文进行排序,是为了保证字段的不同顺序不会影响输出结果;②根据哈希值Key,从映射缓存池中查找是否存在相应记录与之对应,如果存在,则返回要接入的数据集编号和字段映射;如果不存在,则进入基于语义词向量的接入模式;③进入基于语义词向量的接入模式。将每个字段与每个数据集看作一个词的容器,利用预训练好的分词器对每个字段的中文描述进行分词;④对分词结果进行停词过滤,排除一些常见却没有太多信息的词,如“的”、“了”等;⑤统计每个词在要接入数据集中出现的频次TF(Term Frequency),根据该词在历史接入数据库中的逆文档频率(IDF),计算每个词的权重系数TF*IDF。对逆文档频率的计算过程要进行平滑处理;⑥根据预训练的词向量库,获取每个词对应的词向量。对于数据集的向量化,用数据集内所有分词词向量的加权平均表示,加权系数为第⑤步计算的TF*IDF系数;⑦将数据接入工作分解为两部分,一是获取对应的目的数据集,二是在目的数据集内通过相似性计算获取字段映射表。将数据集的接入工作转化为分类问题,可应用现阶段大量成熟的分类算法,应用多层感知机(MLP)实现数据集多分类任务。利用历史接入数据库预训练好MLP,以第⑥步计算出的数据集的表征向量作为输入,计算出目的数据集的类别编号;⑧集內字段相似性匹配。遍历要接入的数据集,对于每一个字段,分别计算与目的数据集内每个字段的相似性得分,得分最高者即为匹配字段。给出目的数据集编号和字段映射表;⑨将基于语义词向量接入模式输出的结果保存到映射缓存池中。技术流程如图2所示。

3 结果分析

来源数据:以快递类数据为例,XX1为快递单类信息,XX2为快递订单信息,XX3为快递订单记录。元数据中快递类数据集如图3所示。

接入流程:当有新的快递类数据时,通过对来源数据与元数据的语义匹配,得出对应关系,将来源数据按照新的数据结构入库,“物流公司名称”、“地市”等标记字段,根据数据来源自动填充。最终将3个不同快递公司的数据存入同一数据集中,并通过“物流公司名称”进行来源区分,不同数据集会有不同的来源区分字段。快递数据入库前后对比结果如图4所示。

效果说明:显然3类不同厂家来源的快递类信息,通过语义匹配的集成方法,很好地映射进元数据模型中的快递类数据集,并且标注有厂商名称、地市、来源等字段,信息完整、准确、统一。

4 总结展望

本文介绍了通过制定元数据模型和机器学习的方法,将来源复杂、结构各异的海量数据进行匹配映射接入,实现了海量异构数据的规范化。以下3个方面还需进一步深入展开:①元数据维护需进一步加强,以应对一些数据的实时更新,提高系统鲁棒性;②建立基于HDFS、HBase的大数据存储系统,提高海量数据的接入处理速度;③不断完善调整智能推荐模块词库及其权重分配,提高推荐效率和准确度。

参考文献:

[1] HAMPTON S,STRASSER C,TEWKSBURY J J,et al.Big data and the future of ecology[J]. frontiers in Ecology and the Environment,2013,11(3):156-162.

[2] 唐友军.一个公安异构数据集成系统的设计与实现[M].上海:同济大学,2008.

[3] 尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015(1):153-155.

[4] 宗成庆.统计自然语言处理[M].第2版.北京:清华大学出版社,2015.

[5] CALI A,CALVANESE D,GIACOMO G D,et al.Data integration under integrity constrainsts[C].The 14th International Conference on Advanced Information Systems Engineering,2004:147-163.

[6] 赵晓凡,胡顺义,刘永革. CRF模型中参数f在字标注汉语分词中的适用性研究[J].郑州大学学报:工学版,2011(7):103-106.

[7] 蔡慧苹.基于卷积神经网络的短文本分类方法研究[D].重庆:西南大学,2016.

[8] 朱家晖.基于深度学习的主题建模方法研究[D].武汉:武汉大学,2017.

[9] 张瑾.基于改进TF-IDF算法的情报关键词提取方法[J].情报杂志,2014(4):153-155.

[10] 郭太勇.一种基于改进的TF-IDF和支持向量机的中文文本分类研究[J].软件,2016(12):141-145.

(责任编辑:黄 健)

猜你喜欢

数据仓库数据模型字段
图书馆中文图书编目外包数据质量控制分析
基于数据仓库的住房城乡建设信息系统整合研究
面板数据模型截面相关检验方法综述
加热炉炉内跟踪数据模型优化
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
基于数据仓库的数据分析探索与实践
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述
关于CNMARC的3--字段改革的必要性与可行性研究