基于异构数据源的政法信息共享平台数据预处理系统研究
2017-10-12李志敏梁柏超贺文锋陈俊健
李志敏,梁柏超,贺文锋,陈俊健
(1.中共佛山市委政法委员会 广东 佛山 528000;2.广东京奥信息科技有限公司 广东 佛山528000;3.佛山科学技术学院 广东 佛山528000)
基于异构数据源的政法信息共享平台数据预处理系统研究
李志敏1,梁柏超1,贺文锋2,陈俊健3
(1.中共佛山市委政法委员会 广东 佛山 528000;2.广东京奥信息科技有限公司 广东 佛山528000;3.佛山科学技术学院 广东 佛山528000)
针对分散在公安、检察院、法院、司法部门的没有信息共享平台的现状,提出了一个基于异构数据源的政法网平台数据预处理系统。设计采用了在不改变政法系统架构的基础上搭建政法信息共享平台,以达到信息互通、资源共享。系统应用的实验结果表明:基于规则库的多级数据预处理算法通过连续的样本训练建立越来越完善的规则库,不断提高后续数据抽取质量,并通过上述多级规则库匹配预处理策略,将其分步嵌入到数据应用系统中,除非常少的个别错误数据要单独汇总处理外,脏数据输出较少,预处理速度也比较适中;基于规则库的数据预处理算法达到了政法信息共享平台的建设目标,使政法业务信息在各职能部门能相互共享,且为领导决策提供及时可靠的依据。
异构数据源;信息共享;匹配预处理;预处理速度
Abstract:Based on scattered in public security, procuratorates, courts and judicial departments have no the present situation of the information sharing platform,proposed a network platform for data preprocessing of politics and law system based on heterogeneous data sources.Design adopted without changing of politics and law system framework built on the basis of the information sharing platform of political science and law,in order to achieve information exchange,resource sharing.System application of the experimental results show that the multilevel data pretreatment algorithm based on rule base through continuous sample training set up more and more perfect the rules of the library,and constantly improve the quality of the follow-up data extraction, and through the multi-stage rule base matching pretreatment strategy, the embedded in the data application system step by step,except the data on very few individual mistakes to separate aggregate processing, dirty data output is less, pretreatment are more moderate speed; Data pretreatment algorithm based on rule base is achieving the target of information sharing platform construction of politics and law,make the business information of politics and law in various functional departments can share each other,and provide timely and reliable basis for leadership decision-making.
Key words:heterogeneous data sources; information sharing; matching pretreatment; preprocessing speed
政法基础信息共享平台是从法院、检察院、公安、司法等政法各个部门已有的信息管理系统中抽取、转换和加载。经融合国安、监狱、劳教等数据,涉案包括人、物、地、组织、机构等多方面的信息,实现整个政法系统的基础数据交换和共享[1-3]。但当前政法各部门的业务信息孤立不互通,其中一个重要原因是公安信息具有一定的特殊性[4-5]。公安信息被保护在边界接入平台内,要求信息不主动对外输出。政法部门例如法院、检察院、公安、司法等政法部门都已经拥有本部门的信息系统办公平台,各部门的信息资料得到了集中性的管理,并且信息的存储量非常大,无法满足部门与部门之间信息的迅速查询需求[6-7]。在采集、整理政法业务数据时,会发现政法业务的异构源数据与其它部门或行业数据相比存在显著特性,如周期性、地域性、时变性等,其收集或抽取的数据量较大、来自多个数据源[8-9]。综合上述,现有系统应用与开发有待统筹规划,信息集成和综合利用的程度有待提高,在建设和开发的过程中缺乏统一有效的标准化与规范化管理。为实现对政法网异构信息14类45项数据的整合,构建一个基于异构数据源的政法网平台数据预处理系统,重点就集中在对数据共享平台的数据质量的有效控制,而数据质量可以从数据集成和数据预处理角度来讨论[10-11]。
云计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来。数据从简单的处理对象开始转变为一种基础性资源[12-13]。国外针对大数据时代的数据预处理技术发展很快,产生了一批成熟的商业化产品。各大数据库厂商在提出一整套用以建立和使用数据仓库产品的同时,也提供了一些基本的数据预处理工具,其内部实现为通过编写脚本或使用数据预处理算法,应用预处理策略去修正错误,消除数据的不一致性,使其转化为符合联机分析处理和数据挖掘等所需要的数据。特殊领域预处理工具,如FirstLogic公司的IdCentric产品、Oracle公司的PureIntegrate产品、TrilMiumSoftware的UM产品。消除重复的一类工具是根据匹配的要求探测和消除数据集中的重复记录。如EDD公司的DataCleaner、HelpITSystems公司的Matchit。一般领域的预处理工具,数据压型工具如Evoke Software公司的Migration Architect产品,数据挖掘工具如WizSoft公司的Wizrule,数据重建工具如Vality公司的Integrity[14-15]。近年国内对于数据预处理技术的研究日渐成熟。董丽提出采用于稀疏数据集的协同过滤算法进行数据的预处理。对于Web日志作为主要Web挖掘数据源的情况,刘立军根据Web日志的特点,对Web数据的一些特殊情况采用一种最大向前引用序列挖掘算法进行数据的预处理。翟东升针对目前专利分析的数据存在来源单一、预处理操作不够、可挖掘程度浅等问题,设计并实现了一种异构专利数据源集成方案。
1 异构数据源分析
政法业务数据主要来自于以下几个政法部门:公安局、检察院、法院、司法局等。这些部门在信息数据交换中,可以选择人工方式或者接口定制开发。但很明显,对交换共享出去的数据无法做到有效监控和管理,这样无疑是加大了工作的成本与时间,也无法实现部门与部门之间信息的迅速查询需求,很难为上级领导决策提供及时可靠的依据,更不能及时了解整个社会的治安情况。通过调研分析知道,政法业务数据与其他部门或行业数据相比存在以下显著特性:
1)具有很强的地域性
各个片区的涉案人数,案发地,作案特点等存在显著差异。
2)影响因素众多
社会生活的变动,季节、天气的变换以及时段的不同等都会对案件数据产生影响。
3)数据量大
每年有约上万宗刑事案件,涉案数据(包括人、物、地、组织、机构)多达一千多万条,累积下来是个非常庞大的数字。
4)时变性
案件数据与时间紧密相关,随着时间经常发生变化。不但每小时、每日变化,周、月、季、年也呈变化性,但是这个变化一般具有周期性。
5)周期性
除了受突发事件影响外,各个时段的案发曲线通常呈现相同的趋势,基本相互保持平行。
6)模糊性,脏数据多
有相当部分基层案件数据采用人工的方式获取,如当场记录文字、拍摄图片等。而与另外一批人真正录入系统的信息,存在一定的偏差,特别是一些突发事件、关键线索不能得到及时、准确关联,会导致案件数据失去实际意义。
7)多媒体文件比较多
案件数据中单独的图片、视频、音频等媒体文件比较多,要专门进行存储。还有部分档案是影印件,也是以图片文件方式进行保存。用户操作不规范引起的录入错误或不完整、单位合并或变更等等,都会直接影响入库的数据质量。但大部分此类数据的存在,由于并没有影响到事务处理系统的正常运行,使得它们并没有引起太多的注意。
这就要求我们在政法信息资源整合的过程中,要对异构数据源按照一定的规则条件进行数据预处理。再对规范后的信息搭建数据共享平台,让各个政法职能部门通过平台提供的综合查询和请求接口服务来获取政法共享信息。
2 政法信息共享平台架构设计
政法信息共享平台搭建在信息共享区内,信息流分别从政法网接入区通过政法专线,穿越边界保护区,进入信息共享区的数据共享层。图1是政法信息共享平台总体架构图。
图1 政法信息共享平台总体架构图
政法信息平台数据预处理流程包括异构数据源信息采集和数据预处理两个部分。贯穿整个过程包括元数据管理、调度管理、日志管理、数据传输管理和数据监控。
异构数据源信息采集提供两套数据抽取解决方案,即大数据量实时同步方案和普通定时同步方案。大数据量实时同步方案主要使用在数据源端数据量大,且数据实时性要求高的情况,抽取时需要源端数据库开放高级权限,提取日志文件并分析其变化实现数据同步的效果。普通定时同步方案主要是需要源端数据库开放权限并实现较高频率的定时数据同步,如不能开放权限的,使用较低频率的数据视图同步方案实现。
通过分析政法业务的数据收集,发现其收集或抽取的数据量较大且来自多个数据源。通过在数据预处理中增加规则库策略,加强了入库数据的规范化以及数据的完整性和一致性,为数据应用和共享提供了可靠基础。
预处理转换后的数据要存入共享平台数据库,数据库是按照各种业务的特点建立相关的资源数据库,并提供给各个业务系统使用。建设数据库时,使用定时捕获变化数据策略并加载复杂数据转换、整合逻辑等模块再进行入库。
数据同步和数据预处理阶段自动生成各种操作日志和节点日志,建立对操作日志进行监控、预警的监控平台。另外在监控平台中引入对数据质量的监控,如数据行为分析的监控和预警。
在上述体系结构中采用多层、可扩展框架结构,使其具有高度的扩展能力和方便的系统开发和维护性能,符合目前流行的多层应用结构,适合数据库多阶段、多层次的应用特点。
3 政法信息数据预处理关键技术
数据预处理的目的就是检测出脏数据并修复它们,而当前的预处理工具主要是通过执行一系列的预处理规则函数来完成脏数据的预处理,这些工具主要存在以下缺陷:
1)可扩展性差
由于它们的预处理规则是事先定义好的,一般不能扩展和修改,所以有限的预处理操作不能完全满足用户多变的需求。
2)缺乏对动态数据预处理的能力
对于用户提出新的预处理规则和建立的新表,原预处理系统无法应用新规则去预处理新建立表中的新数据,形成高质量的数据。
因此,当前的数据预处理产品主要缺点是缺乏可扩展性和灵活性,这些严重阻碍了预处理数据的共享和传播。为了解决上述问题,针对政法异构信息源的特点构建了一个基于规则库的多级数据预处理框架。
如图2所示,多级数据预处理流程是:针对该特定业务数据,通过行业专家、部门操作员访谈分析整理出第一级预处理指标,并按照错误分类整理的字典信息,确定预处理规则格式,制定基础规则库;再选取样本数据集实现基于规则库的二级预处理,并检测、评估预处理规则及相应算法,从而通过评价匹配最佳预处理规则实现干净数据的加载提取;三级预处理进入政法业务抽取数据库,按照预处理效果,还可以通过算法及人工加入新的预处理规则、扩展规则库,进行回溯后再预处理。
共享平台通过连续的样本训练建立越来越完善的规则库,不断提高后续数据抽取质量。通过上述多级规则库匹配预处理策略,将其分步嵌入到数据应用系统中,除非常少的个别错误数据要单独汇总处理外,基本实现了数据规范化,为进一步的数据应用、共享提供了可靠基础。
多级预处理的规则库框架如图3所示。在处理数据质量问题时,第一级预处理的制定、考量的角度及相应的指标均是由相关领域专家、研究人员的访谈结果中抽象化得到的,以最大程度契合研究人员的预处理需求。评级指标体系将用户可能需要的划分维度进行整理汇集,一定程度上避免了用户自定义预处理维度的必要性,只需要在已有指标中界定具体赋值,即可获得较为理想的预处理结果。
预处理方法兼顾了数据完整性和可回溯性,便于预处理结果的进一步优化。在实际使用过程中,如果预处理人员发现最终预处理结果有明显的案件信息不完整、关键数据缺失,可以进行层次回溯,找到预处理规则漏洞的存在环节。三级预处理机制首先可以提高査找规则漏洞的效率,例如在最终预处理素材库中发现缺少法院的审判信息,可以在二级预处理结果数据库中进行査找。如果在二级预处理结果中该信息存在,仅为三级预处理的规则配置不合理,可以相对小范围内进行漏洞定位及修改。如果在二级预处理结果中不存在,则向上迭代。三级预处理机制的另一个优点在于回溯排查过程中需要处理的数据库体量较小,减少运算量及运算时间。可以在相对较小的数据范围内进行排查、校验。
图2 基于规则库的多级交互式数据预处理框架图
图3 多级预处理的规则库框架
4 系统测试
为了验证共享平台数据预处理算法的有效性,测试采用随机从异构数据源中采集10000条记录的方式,并用传统的直接映射过滤数据预处理算法与采用基于规则库的多级交互式数据预处理算法分别进行验证。
实验的硬件配置及软件环境见表1。
实验结果显示,如果采用传统的直接映射过滤算法,处理10 000条记录花费总时间为16 688.54 s,其中映射过滤算法占用7 456.31 s,脏数据输出354条。而采用多级规则库技术后,处理同样多的记录,预处理算法花费时间为8 762.54 s,脏数据输出19条。
实验结果表明基于规则库的多级数据预处理算法通过连续的样本训练建立越来越完善的规则库,不断提高后续数据抽取质量,并通过上述多级规则库匹配预处理策略,将其分步嵌入到数据应用系统中,除非常少的个别错误数据要单独汇总处理外,脏数据输出较少,预处理速度也比较适中。
表1 实验环境
5 结束语
我国的地级市平均每年有几万宗刑事案件,近百万人次的涉案犯罪嫌疑人员,多达千万条涉案信息。由于涉案信息逐年累积,各部门基础信息量的存储量越来越庞大。政法数据共享平台必须将这些海量的异构源政法数据进行有效融合,构造成信息量更庞大的基础信息库为政法委系统内的各部门提供数据服务,解决这一问题的实质就是大数据的处理问题。
“高效收集”是大数据的核心点之一,也是它的研究基础,是重中之重。本信息共享平台通过利用掌握政法体系的领域知识,充分分析数据特点后,建立了可靠、高效的自动化数据预处理框架,它通过对数据进行回溯后再预处理这种多级处理模式,达到对政法数据规范化、标准化的目的。为后续的政法大数据的组织与使用提供了统一的查询管理平台,方便了政法信息的综合利用。
通过实测对比数据,可以看出这种基于异构数据源的政法网平台数据预处理系统花费时间没有明显改变,但数据预处理效果有明显提高,要人工处理的脏数据大大减少。基于规则库的数据预处理算法达到了政法信息共享平台的建设目标,使政法业务信息在各职能部门能相互共享,且为领导决策提供及时可靠的依据。
[1]马敏,王伯波,薛倩,等.基于数据融合的ECT图像重建算法[J].仪器仪表学报,2015,36(12):2798-2803.
[2]张猛,曾永年.基于多时相Landsat数据融合的洞庭湖区水稻面积提取[J].农业工程学报,2015,12(13):178-185.
[3]张燕君,刘文哲,付兴虎,等.基于TTDF和CNS算法的多路BOTDR散射谱信息高精度分析研究[J].光谱学与光谱分析,2015,12(7):1802-1807.
[4]赵建忠,徐廷学,叶文,等.基于数据融合和改进MUGM(1,m,w)的导弹装备故障预测[J].系统工程与电子技术,2015(4):832-837.
[5]李巧茹,赵蓉,陈亮,等.基于SVM与自适应时空数据融合的短时交通流量预测模型[J].北京工业大学学报,2015(4):597-602.
[6]冀俊忠,柴鹰,贝飞,等.基于时间片划分和多元数据融合的异质媒体网络社会事件发现[J].北京工业大学学报,2015(8):1165-1171.
[7]周勇,王嫚,刘奇,等.基于数据融合滤波算法的EMA故障自修复策略[J].西北工业大学学报,2015(2):204-208.
[8]石月婵,杨贵军,李鑫川,等.融合多源遥感数据生成高时空分辨率数据的方法对比[J].红外与毫米波学报,2015,34(1):92-99.
[9]张艳超,肖宇钊,庄载椿,等.基于小波分解的油菜多光谱图像与深度图像数据融合方法[J].农业工程学报,2016,32(16):143-150.
[10]薛见新,申德荣,寇月,等.面向数据融合的半环溯源计算方法 [J].计算机研究与发展,2016,53(2):316-325.
[11]杨元喜.综合PNT体系及其关键技术[J].测绘学报,2016,45(5):505-510.
[12]孟小峰,杜治娟.大数据融合研究:问题与挑战[J].计算机研究与发展,2016,53(2):229-246.
[13]黄丁发,周乐韬,卢建康,等.GNSS卫星导航地基增强系统与位置云服务关键技术[J].西南交通大学学报,2016,51(2):388-395.
[14]朱君,秦柳丽,傅得立,等.一种石墨烯波导褶皱激发表面等离子体激元的设计[J].光子学报,2016,45(2):40-45.
[15]朱君,李志全,秦柳丽,等.MIM结构中腔的物理性质对SPP传播的分析 [J].红外与激光工程,2015,43(3):852-856.
Research on data pretreatment system of politics and law information sharing platform based on heterogeneous data sources
LI Zhi-min1, LIANG Bo-chao1,HE Wen-feng2,CHEN Jun-jian3
(1.Municipal Committee of Political Science and Law Committee of The Communist Party of China Foshan, Foshan528000,China; 2.The Guangdong Beijing Information Technology co., LTD., Foshan528000,China; 3.Foshan Institute of Science and Technology, Foshan528000,China)
TN273
A
1674-6236(2017)19-0038-05
2016-09-21稿件编号201609187
李志敏(1960—),男,广东佛山人。研究方向:政法信息网络构建,政法系统数据存储、共享。