异地多源数据一致性智能查询
2019-12-02孟庆昕
孟庆昕
(中国电子科技集团公司电子科学研究院,北京100041)
0 引言
全国一体化国家大数据中心顶层设计和应用示范工作,基于系统形态的创新,连接政府和社会现有数据中心,整合数据资源,通过“数据即服务、平台即服务、应用即服务”等服务形式,构建“跨层级纵向汇集、跨部门横向共享”的数据集中共享环境,推动全国数据资源在国家安全和社会治理等方面的深度开发和综合运用,形成“全网一体、全域覆盖、全维应用”的大数据服务体系,实现从“有形”的国家大数据中心实体到“无形”的国家大数据中心体系的转变。解决全国层面数据统筹管理和数据资源共享问题,突破异地多源数据一致性查询、异地多中心间资源共享调度等关键技术,研制数据中心准入验证环境和数据交换平台,建设国家大数据共享调度节点,集成接入电子政务、智慧城市、、空管、电磁等业务域大数据中心,其中电子政务数据体系研究涉及了从各政府部门获取的格式化数据和非格式化数据,包括文本、图片、视频等多类数据。目前已模拟形成了政务服务事项目录(1400 多条)、证照数据(200 多条)、企业基本信息(200 多条);智慧城市有6 大基础数据标准和5 大业务领域标准的267348条城市数据的数据目录,庞大的数据量,急需实现对全国层面的数据统筹管理、一致性智能查询等功能。
1 数据一致性查询方法
1.1 数据仓库技术
数据仓库技术是一个面向主题的、集成的、相对稳定的和反映历史变化的数据集合组织技术。建立大数据存储模型,建立全网统一编码规则及数据之间的关联关系描述,支持有效对数据进行存储、索引及追溯,以及面向大数据分析应用主题的数据组织。数据仓库系统是一个信息提供平台,它从各个业务处理系统获得数据,主要采取星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。数据仓库的关键是数据的存储和管理,数据仓库的组织管理方式决定了它有别于传统数据库。针对现有各业务系统的数据,进行抽取、清理、并有效的集成,按照主题进行组织。
通过采用“Hadoop+关系型数据库“混合架构,实现了大数据存储模型,建立了全平台统一编码规则及数据之间的关联关系描述,抽取了原始监测数据,预处理监测数据,设备状态数据,环境监控数据,业务应用数据。支持对数据有效存储、索引及追溯,以及面向大数据分析应用主题的数据组织。解决了多格式、多种类、多来源的数据标准化问题,实现数据存储架构。
1.2 大数据清洗技术
对于海量数据清洗过程中需要强大的计算能力,特别是在一致性查询,更是提出了更高的要求,该技术充分利用集群强大的计算、存储能力,采用分层的设计思想,在底层将集群作为数据格式统一的存储平台,将各种异构数据源统一到集群的存储系统中,并采用集群来分析处理巨大的待清洗数据,在集群层之上则为相应的并行核心清洗模块,包括数据加载模块、分布式孤立点挖掘模块、结果分析及存储模块,透明的调用集群底层的计算和存储能力。通过研究空值、数值型、日期型、字符串型等多种异构数据清洗技术,对多种类型的异构数据都能完成清洗工作,为后期的一致性查询做好基础准备,同时在数据清洗中引入数据挖掘方法,如用于检验异常记录的聚类方法、用于发现不符合现有模式的异常记录的模型方法、用于发现数据集中不符合具有支持度规则和高置信度的异常数据的关联规则方法。
1.3 元数据索引加速技术
元数据索引加速在大数据的应用过程中,用于解决关系型数据库百亿级数据量级全文检索及数据计算时效问题,实现快速定位及数据集抽象。通过倒排算法,完成“单词-文档矩阵”的存储形式,目标是为了可以根据单词快速获取包含这个单词的文档列表,并进行比对。倒排索引包括单词字典、倒排文件列表和倒排文件物理实体。
单词词典:索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。
倒排文件列表:记载出现过得某个单词的所有文档的文档列表及单词在该文档中出现的位置信息,每条记录成为一个倒排项(Posting)。根据倒排列表,即可获知哪些文档包含某个单词。
倒排文件物理实体:所有单词的倒排列表往往顺序地存储在磁盘的某个文件里,这个文件即被称之为倒排文件,倒排文件是存储倒排索引的物理文件。经过测试验证,元数据索引加速技术可以加速响应bolt计算组元的查询命中,例如用户输入查询词“114.067222,87.234543”,搜索系统查找倒排索引,从中可以读出包含这个单词的文档,这些文档就是提供给Bolt 的搜索结果,而利用单词频率信息、文档频率信息即可以对这些候选搜索结果进行排序,计算文档和查询相似性,按照相似性得分由高到低排序输出,从而替代到传统关系型数据库全文检查,提升数据快速检索的命中率
1.4 并行计算机引擎技术
并行计算机引擎技术是大数据中心运行计算的核心,实现将大数据级处理任务拆解成批量子计算组集合的计算框架,将一次一百亿数据集合计算任务拆分为百十子进程计算,对子计算进程进行过程状态监管,最终子进程全集完成计算后由统一局和计算进行统计结果,并进行调度。
2 一致性查询应用实例
结合全国一体化国家大数据中心能力需求,通过原型系统建设和示范应用建设,搭建形成南京空管大数据中心、深圳智慧城市大数据中心、贵阳电子政务大数据中心、北京电子政务大数据中心。其中,深圳智慧城市大数据中心已汇集公安局、发改委、地税局、民政局等24 种数据资源,接入120 张数据表1650 个数据项,共计262 亿条记录,同时还汇聚10 余万路视频数据,支撑公共服务、城市运营管理等业务,有效提升数据处理效率15%左右。贵阳电子政务大数据中心服务器规模已达到50 台,成功汇集贵阳市政府各委办局共享交换数据,这其中多源一致性智能查询技术起到了关键作用。
2.1 政务服务业务分析系统
基于大数据的精准与主题服务分析实现了政务服务业务分析系统,精准推送和办事人相关的服务和信息,优化办事体验。主要包括政务数据采集、精准搜索、服务档案、精准服务推送和主题服务分析。基于对经信委、统计局、税务局、财政局、工商局等部门的经济运行相关数据采集,通过对区域经济、企业经营数据、投资、财政等重点主题分析和消费、能源运行形势等常规主题分析实现了经济运行业务分析系统,及时发现区域经济运行的异常,给宏观调整产业发展政策提供数据依据,为工业经济运行监测预警奠定基础,使对工业经济发展的趋势判断和预测更加科学、更加准确,为宏观决策提供可靠依据,保持和促进工业经济的健康、持续发展。
2.2 新型智慧城市大数据中心原型系统
数据目录订阅系统&审批系统基于配置文件形式进行数据交互,完成数据解析入库,提供数据目录展示、数据目录检索、数据目录订阅功能以及数据操作审批流程,其中审批系统能够提供服务接口供其他系统调用,审批系统功能涵盖数据接入审批、数据使用审批以及数据删除审批,实现了智慧城市敏感数据保护。同时正在结合脱敏设备,对敏感字段加工处理。
建设全市统一的通讯库,实现跨行业、跨区域、跨业务、跨机构的基础通讯方式的整合及互联互通。以全市统一通讯库为核心,关联人口、法人、房屋部件、事件等业务库,将业务及能力封装成服务,统一调度,供上层业务应用使用。
2.3 贵阳电子政务大数据中心
贵阳电子政务大数据中心典型应用是数据融合在民生领域的综合应用,应用基于自有数据和仿真模拟数据汇聚融合了全国不同地区、不同行业和不同系统的数据。全景式立体化展现了民生领域,特别是旅游行业的综合态势,数据来源包括贵阳本地电子政务中心、南京空管大数据中心、智慧城市大数据中心、电磁大数据中心,完成共计3 大类,18 小类的数据融合分析应用。
3 结语
本文介绍了以基于数据仓库技术,大数据清洗技术、元数据索引加速技术和并行计算机引擎技术为核心的异地多源数据一致性智能查询的实现方法,并成功运用在全国一体化国家大数据中心项目中,在实际的电子政务场景中得到了检验,从综合性能来考虑,是目前实现异地多源数据一致性检验技术的有效方法。