基于公安标准数据元的数据比对算法简析

2017-01-21公安部第一研究所陈灿灿韩鹏霄

中国安全防范技术与应用 2017年3期

■ 文/ 公安部第一研究所陈灿灿韩鹏霄

基于公安标准数据元的数据比对算法简析

■ 文/ 公安部第一研究所陈灿灿韩鹏霄

依据《公安数据元》标准（GA/T 543-2011）及《公安数据项标准编写要求》（GA/T 1053-2013），建立公安标准数据元比对基准库。在公安标准数据元比对基准库的基础上，研究公安信息系统数据项的业务语义及表现形式，形成一套能够描述信息系统数据项业务含义与表示形式的特征属性集合，在此基础上设计构建基于标准公安数据元的比对系统，提供对信息系统数据项与公安标准数据元的比对功能，为公安信息系统设计提供数据合规性比对服务，为推进公安数据标准化、数据质量检测、数据清洗、信息系统数据结构统一规范提供服务与技术支撑。

公安数据元标准比对

1 引言

目前,公安信息化已进入“大整合、高共享、深应用”阶段，迫切需要按照标准化的语言体系实现数据的统一规范描述，实现跨层级、跨部门、跨地区的信息共享，实现信息资源的高度共享和深度应用，发挥公安信息资源的规模效应，为公安业务工作提供更好的技术支撑和信息服务。

本文立足于公安数据元标准和公安数据项标准，并基于前期公安信息资源目录的工作基础，通过分析公安信息系统功能，梳理业务逻辑，对现有信息系统数据项进行分析，研究一套（用于数据元比对）能够科学完整的描述数据项业务含义与表示形式的特征属性集合，建立公安标准数据元库。在标准数据元比对库的基础上，提供数据项比对工具，通过对信息系统数据项的语义分析，将公安信息系统现有数据项与标准公安数据元进行智能比对分析，得到现有数据项与标准公安数据元的符合度评测指标。通过数据项智能分析、比对及数据项统一注册管理，实现对公安信息系统所包含数据项的自动抽取、分析，为建立全国范围的公安数据项注册管理系统提供评测依据和技术支持，为信息系统数据库标准化设计提供参考和依据。

2 综述

2.1 国内外现状和技术发展趋势

本文研究内容以公安数据元标准和公安数据项标准为基础，参照电子政务数据元标准，在公安数据元、公安数据项及电子政务数据元构建方法的基础上开展数据项统一描述方法与组织方法研究，研发数据项智能比对分析工具，对数据项与标准数据元进行比对、测评与入库管理，推进公安数据元及公安数据项标准的应用，为各级公安机关提供服务和支撑。

（1）公安数据元及公安数据项建设

公安数据元以数据建模法描述数据项及其属性，提供公共词汇，用于信息交换和共享，同时支持公安各部门之间、公安和政府企业等相关部门之间的综合业务，减少数据重复和数据采集，从而最大限度的降低数据处理和存储的费用，并改善数据的完整性。

数据元的表示规范是通过对其一系列属性的描述来实现的。这些属性实际上是数据元的元数据。（GA/T 542-2011）

数据项标准编写要求规定公安数据项有两种表示方式：用数据元表示，用公安数据元限定词与数据元共同表示。公安数据元限定词是对数据项中同一概念的提炼，公安数据元限定词的确定应遵循精简数据元、规范数据项的原则。（GA/T 1053-2013）

（2）电子政务数据元建设

电子政务数据元是指政务活动过程中设计的所有数据单元。电子政务数据元是属于政府业务这一特定领域的数据元。它的概念和结构遵循一般数据元的概念和结构，是通用数据元的一个子集，并具有自身的特点。

电子政务数据元由三部分组成：

a）对象类：思想、概念或真实世界中的事物的集合，它们具有清晰的边界和含义，其特征和行为遵循同样的规则。

b）特性：对象类中的所有成员共同具有的一个有别于其他的、显著的特征。

c）表示：它描述了数据被表达的方式。

对象类是人们希望研究、搜集和存储它们的相关数据的事物，比如汽车、人、房屋、订单等。特性是人们用来区分和描述对象的一种手段。特性的例子包括颜色、性别、年龄收入、地址等等。表示与数据元的值域关系密切。一个数据元的值域指数据元的所有允许值的集合。例如，对于“个人所得税金额”这个数据元，它的值域可能是一系列非负整数（带有货币单位），这是一种非枚举型的值域。而“个人所得税比率”对收入进行分段划分，并给每一段赋予一个比率，它的值域就是这些比率的集合。此时称它的值域为枚举型值域。（GB/T 19488-2004）

2.2 公安业务应用前景

公安部统一组织开展公安数据元注册管理平台的建设工作，基于标准数据元的数据比对系统作为公安数据元注册管理平台的关键支撑系统与工具，是构建全国范围的基于标准数据元的数据项注册管理系统的重要组成部分，将得到各级公安部门的有力推动。

以贵州、浙江、新疆、江苏为代表的省、自治区公安厅正在或即将在全省、区范围内进行公安信息资源梳理整合共享工作。数据项的标准化工作是信息资源整合共享的前提和基础。基于标准数据元的比对系统为数据项标准化及数据清洗工作提供服务和技术支持，符合地方公安机关迫切的业务需求。

地市公安局和派出所民警面临的信息重复采集和多头录入问题是当前各警种和各级公安机关迫切需要解决的问题。基于标准数据元的比对系统为实现基础信息标准化录入和统一关联提供服务和技术支持，是从标准化的角度解决重复采集和多头录入的重要支撑。

公安信息化顶层设计要求公安信息系统数据结构及数据项规划设计遵循统一规范的标准。基于标准数据元的比对系统能够提供符合公安数据元和数据项标准的数据项智能比对服务及设计规范参考，是实现公安信息资源科学规划和高效利用的有力支持，符合公安机关信息化规划建设的迫切需求。

3 数据元比对算法解析

3.1 数据研究

（1）数据元分词

将数据元及其描述切分为业务关键词（语素或中心词）。将一个复杂数据元所包含的所有业务语义用中心词的形式表示出来。中心词考虑现有信息系统数据库及软件设计习惯，不怕重复，要全面涵盖能够想到的近似表述。

例如：被监管人员临时出公安监所原因代码

切分为：被监管人被监管人员监管临时出公安监所出监所监所原因代码

（2）已有语料近义词表

研究现有资源调查所获得的数据项，寻找数据元分词所得到的每个关键词的同意表现形式，构建基本近义词表。

3.2 比对算法研究

数据项比对算法流程见图1。

3.2.1 分词算法

基于ansj_seg的分词算法：

（1）基本分词：最基本的分词，词语颗粒度最非常小，涉及到的词大约是10万左右。

List〈Term＞ parse = BaseAnalysis.parse("让战士们过一个欢乐祥和的新春佳节。");

System.out.println(parse);

result：[让/v, 战士/n, 们/k, 过/ug, 一个/m, 欢乐/a,祥和/a, 的/uj, 新春/t, 佳节/n, 。/w]

（2）精准分词：在基准分词的基础上增加用户自定义词典、数字识别功能。

（3）NLP分词：在精准分词的基础上，增加未登录词识别、语法实体名抽取等功能。

List〈Term＞ parse = NlpAnalysis.parse("洁面仪配合洁面深层清洁毛孔清洁鼻孔面膜碎觉使劲挤才能出一点点皱纹脸颊毛孔修复的看不见啦草莓鼻历史遗留问题没辙脸和脖子差不多颜色的皮肤才是健康的长期使用安全健康的比同龄人显小五到十岁 28岁的妹子看看你们的鱼尾纹");

System.out.println(parse);

result：[洁面仪/nw, 配合/v, 洁面/nw, 深层/b, 清洁/a,毛孔/n, , 清洁/a, 鼻孔/n, 面膜/n, 碎觉/nw, 使劲/v, 挤/ v, 才/d, 能/v, 出/v, 一点点/m, 皱纹/n, , 脸颊/n, 毛孔/ n, 修复/v, 的/uj, 看不见/v, 啦/y, , 草莓/n, 鼻/ng, 历史/ n, 遗留问题/nz, 没辙/v, , 脸/n, 和/c, 脖子/n, 差不多/l,颜色/n, 的/uj, 皮肤/n, 才/d, 是/v, 健康/a, 的/uj, , 长期/ d, 使用/v, 安全/an, 健康/a, 的/uj, 比/p, 同龄人/n, 显/v,小/a, 五/m, 到/v, 十岁/m, , 28岁/m, 的/uj, 妹子/n, 看看/v, 你们/r, 的/uj, 鱼尾纹/n]

（4）索引分词：

List〈Term＞ parse = IndexAnalysis.parse("主副食品");

System.out.println(parse);

result：[主副食品/n, 主副食, 副食, 副食品, 食品]

3.2.2 Tonimoto系数

该系数是夹角余弦距离算法的改进。待比对数据项经过分词算法，拆分成单个语素并向量化后，与基准库进行相似度计算。该系数越小，相似度越高，在0～1之间取值，计算公式见下式：

4 结语

本文中数据元比对算法是公安数据元管理工作中的关键支撑技术，是构建全国范围的基于标准数据元的数据项注册管理系统的重要组成部分。为数据项标准化及数据清洗工作提供服务和技术支持，是省、自治区公安机关信息资源整合共享的前提和基础，符合其迫切的业务需求。为实现基础信息标准化录入和统一关联提供服务和技术支持，是从标准化的角度解决地市公安局和派出所民警面临的信息重复采集和多头录入问题的重要支撑。通过和地方公安机关的合作，参与各地信息化建设，为各地资源整合服务平台提供服务与技术支撑，能够提供符合公安数据元和数据项标准的数据项智能比对服务及设计规范参考，是实现公安信息化顶层设计要求的有力支持。