APP下载

试论面向异构类型的大数据查询优化措施

2017-12-27李凤

数码世界 2017年2期
关键词:数据仓库数据源异构

李凤

山西省太原市五一路公安厅

试论面向异构类型的大数据查询优化措施

李凤

山西省太原市五一路公安厅

互联网的不断发展,大数据时代悄然来临,查询优化是异构类型大数据需要解决的主要问题之一,对数据进行查询优化,提高数据有效利用,本文探讨了异构类型数据,并且对大数据的查询方法Map Trim reduce与Impala有效的结合进行了分析。

异构类型 大数据 查询优化

大数据时代下,数据的获取更加准确,而数据的存储与处理方式也在不断的完善,因此对于数据的查询与优化有着更高的要求,数据类型较为多样化,查询优化是数据分析处理中的难题,文中从Map Trim reduce与Impala的角度出发,对数据的处理进行了分析,能够提高数据的查询效率,因此必须做好查询优化工作。

1 异构类型数据的相关概述

1.1 异构类型数据集成的模式

异构数据中集成的模式是从集成的具体应用方面来说的,在异构数据具体的应用中,为其提供全面的访问视图表,以便能够形成数据的集成作用;还有复制模式,复制模式也就是Extract-Transform-Load,简称ETL,从另一方面来讲也就是建设数据仓库的方式,但对象并不只局限于数据仓库,其是数据仓库的重要组成部分,用户通过数据源提取数据信息,然后经过一定的数据处理,制定出数据仓库模型,将数据引入到数据仓库模型中,以便能够更好的利用。

1.2 异构类型数据集成的难点

异构类型数据体现在体系上的异构,数据源的类型具有一定的差异,异构往往会表现在数据描述上的不同,才能够将数据源的异构性很好的体现出来,从另一种程度上来说,数据源面对同一种体系,也会存在不同模式上的异构性。异构类型数据集成的难点主要是体现在寻找数据源与目标的映射关系以及把握数据集成功能方面,在异构数据集成的过程中,寻找数据源与目标的映射关系具有一定的难度,在数据处理上较为复杂,而寻找映射关系能够有效的减小这一方面的难度,它能够使数据源与目标在语义方面保持一致。在数据寻找映射关系的过程中,除了寻找数据的语义,还要对数据语义进行分辨,根据数据源与目标的对应关系与分配的原则,才能有效的进行映射关联。在功能方面,数据集成的功能很重要,其决定着数据处理的效率,集成功能是数据源达到目标的过程,满足数据集成的需求。另外,在进行海量数据的同步工作时,需要合理把握时间,集成的功能主要体现在数据处理步骤方面,数据集成具有完整性约束的特点,完整性主要体现在数据的事务处理方法上,在数据操作过程中必须确保数据的完整性,数据出现异常,及时对异常的数据进行处理,对数据进行错误记录时,及时检查,发现数据记录错误,应采取措施进行处理,以免造成不必要的影响。

2 面向异构类型的大数据查询优化的研究

2.1 H base的概念

是一个分布式的、面向列的开源数据库,对数据能够灵活存储,也可讲分布式存储系统,H base是Apache的Hadoop中的子项目,它与其他关系数据库有着很多不同,具有特殊性,通常较适用于非结构化数据存储数据库模型中。

2.2 Map Trim reduce与Impala查询方法

通过利用Map Trim Reduce与Impala结合的查询方法可以对数据进行合理的查询,两者之间各有各的特点,Map Trim reduce与Impala通过有效结合对数据进行编译,从而来查询数据的详细信息,相对于Map Reduce与Impala结合来说Map Trim reduce更加具有灵活性,工作的处理效率很高,工作质量也能保证,在具体的操作过程中,Map Trim reduce对Impala输入的数据会采取预先处理的方式,可以检查有没有多余的数据以及一些没有价值的结果,提前将这些数据结果进行处理,减少了工作的流程,通过Impala在对其采取方法查询,另外强调的是,对同一个处理结果进行查询时,Map Trim reduce采取预先处理后的数据在HDFS具有持续性与永久性,因此Impala可以对中间处理后的结果采取查询,不同于Map Trim Reduce对先前的Mapper进行预先处理,减少了工作环节,减小了工作量,提高了数据处理的工作效率,具有很大的时效性。

3 结语

大数据时代下,数据信息的价值引起了人们的高度重视,因此大数据的查询与优化具有特殊的意义,不断的对大数据进行查询优化能够提高工作的效率,保证工作的质量,在实际的应用工作中,能够很好的发挥其自身优势,掌握好结构化与非结构化的数据处理方式,对数据查询优化方法进行不断的研究,有利于数据的有效运用,促进社会科技不断发展。

[1]杨陟卓,黄河燕.基于异构关系网络图的词义消歧研究[J].计算机研究与发展,2013,50:437-444

[2]舒昝,张晓冉.面向异构类型的大数据查询优化研究[J].自动化与仪器仪表,2016,(4):199-200

[3]孔祥疆,马玉鹏,李英凡等.异构数据库中的数据类型转换[J].计算机应用研究,2006,23(4):217-218,221

猜你喜欢

数据仓库数据源异构
ETC拓展应用场景下的多源异构交易系统
试论同课异构之“同”与“异”
基于数据仓库的数据倾斜解决方案研究
多源异构数据整合系统在医疗大数据中的研究
一种面向传感云的数据源质量评估框架
利用属性集相关性与源误差的多真值发现方法研究
吴健:多元异构的数字敦煌
基于HGAV的多源异构数据集成方法①
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现