APP下载

市场监管大数据归集系统建设研究

2021-06-16卜意磊庞文迪陈汝鹏陈妙苗

电子技术与软件工程 2021年4期
关键词:市场监管数据库信息

卜意磊 庞文迪 陈汝鹏 陈妙苗

(1.江苏省工商行政管理局信息中心 江苏省南京市 210036 2.中通服咨询设计研究院有限公司 江苏省南京市 210019)

(3.南京航空航天大学经济与管理学院 江苏省南京市 211106)

1 引言

随着云计算等现代新兴信息技术的兴起和趋于成熟,大数据(big data)技术开始广泛应用和融合于各个领域。2015年以来,国务院多次发文部署结合“互联网+”发展趋势,利用大数据技术加强政府服务和监管的新战略。与此同时,国家市场监督管理总局围绕“智慧市场监管”的总体工作目标,以信息化建设为基础,提出整合现有系统、网络、数据,构建市场监管一体化信息平台。江苏省市场监管局落实中央部署,编制《江苏省市场监管一体化信息平台总体规划(2020-2022年)》,从而以此为行动纲领加快推动市场监管一体化信息平台建设。然而现有市场监管相关的业务数据和部门数据结构不一,且分散存储于不同的平台系统和数据库资源,一体化平台首要解决的是数据归集的问题[1]。良好的数据归集成果能够给相关部门、党委政府及社会主体提供富集、优化的市场监管数据资源和信息产品,才能进一步提升政府在市场监管方向的治理能力与服务水平[2-6]。

本文以江苏省市场监管一体化信息平台的数据资源归集为例,首先结合政府出台的相应管理办法,归纳出市场监管数据归集的四个原则,然后构建数据归集系统,阐述系统的功能架构,其次提出市场监管一体化平台中大数据归集存在的问题和难点,最后针对难点,给出明确的技术解决路径,为市场监管一体化信息平台乃至其他政务平台构建大数据归集系统提供一定的参考。

2 市场监管平台数据归集的原则

本文依据《江苏省市场监管信息平台运行管理办法》中针对市场监管平台大数据归集提出的要求,同时结合大数据平台自身的特性,归纳出以下四点数据归集的原则:

2.1 准确性原则

数据的准确性是数据归集的前提和基础。在市场监管中由于合并前的系统彼此不连通,但又因部分业务线重合而导致存在“一数多源”的问题。而要实现各系统的无缝对接和数据的共享融合,必须保证归集数据的准确性。

2.2 实时性原则

除了实现市场监管相关历史数据的全量归集,也应当满足增量数据的实时采集,确保归集系统的及时和动态更新,以满足各部门和社会主体查询利用的需要。

2.3 共享性原则

数据归集的最终目标是推动政府数据的开放共享。市场监管信息按照共享类型可以分为可开放(即可提供给社会公众、法人和其他组织的数据资源)、无条件共享(即可提供给所有市场监管相关部门共享使用的数据资源)、有条件共享(即可提供给相关部门共享使用或仅能够部分提供给所有部门共享使用的数据资源)和不予共享(即不宜提供给其他部门共享使用的市场监管信息)三种类型。原则上归集后的市场监管信息应当予以共享,特殊数据应按特定的程序进行共享关联。

2.4 安全性原则

数据安全问题是互联网发展特别是大数据时代以来最受关注和最具争议的话题之一。市场监管数据涉及到各级政府部门、企业及法人代表等,具有机密性和内向性,因此应当保有数据形成者对数据隐秘性和要求限制使用的权利,同时加快统筹建设市场监管数据归集管理和评价机制,尽可能规避数据在传输过程中的安全问题,保障数据形成者的合法权益,维护国家利益和社会秩序。

3 市场监管平台数据归集功能架构

市场监管一体化平台主要包括数据采集、数据汇聚和数据融合三个层面的技术,数据采集即各个数据来源的汇总;在数据汇聚阶段,支撑省局、直属机构、省级部门等原始部门数据和业务数据以及互联网数据的采集;在数据融合阶段,支撑多源数据比对等操作,实现最终的一数一源,配合建立基础数据库、主题数据库和专题数据库等。具体架构相见如图1。

江苏省市场监管大数据一体化信息平台构建涉及省市场监管局业务处室26 个部门、五大院(省纺织产品质量监督检验研究院、省特种设备检测研究院、省产品质量监督检验研究院、省质量和标准化研究院、省计量科学研究院)、省知识产权局、省药品监督管理局和5 个地方性市场监管局,共计38 家,涉及42 个业务系统,近千个数据资源表单。其中将已建和新建的各业务系统数据库统称为业务数据,通过系统和表单梳理归类,依据业务类型将其分为市场监管、认证认可、投诉举报、行政稽查等10 个类别;将包括省市各级市场监管部门(包括省药监局、省知识产权局、五大院等直属单位)、相关省级政府部门数据统称为部门数据;除此以外,本项目中归集的数据源还包括网站和网点数据、微信数据、微博数据等在内的互联网数据,通过与网监处网络交易监测中心系统对接进行接入。

在数据全面归集的基础上,围绕市场监管主体、客体、行为等核心业务对象,以“统一社会信用代码ID”、“统一人员ID”、“统一工业产品ID”等为主线关联融合相关业务过程、流程信息,构建包括市场主体库、许可证、电子证照库、工业产品库等在内的基础数据库;然后围绕市场监管业务应用领域,在归集数据库、基础数据库的统一数据底盘上进行融合关联,由多部门共建形成主题信息资源,包括食品安全监管主题数据库、信用监管主题数据库、网络交易监管主题数据库等;最后为了实现市场监管大数据慧治目标,建设包含企业全息画像专题分析、高质量发展专题分析、新型监管机制专题分析等在内的专题数据库,用以支撑智慧监管辅助决策应用,建设数据共享服务专题数据库和数据开放服务专题数据库,支撑数据共享和数据开放服务。

4 平台大数据归集的难点

通过对数据归集系统功能架构的阐述,可以看到预期合并后的市场监管平台涉及领域多、覆盖范围大,本文在归集不同来源和不同类型数据,进行信息资源规划和后续的主题业务提取以及数据的共享过程中,总结了以下四个市场监管一体化信息平台中实现数据归集的难点:

4.1 全量数据和增量数据采集

针对现有市场监管相关的42 个业务系统中的历史数据,将采用全量数据导入的方式采集。然而当前各业务系统不联通,数据库接口不统一,要实现历史数据的全量采集,应配置全部接口所需参数,如IP 地址、端口号、密码等,工作量较大。而针对后续产生的增量数据以及相关的互联网数据,则需要配置API 接口,关联网监处网络交易监测中心系统,采用大数据爬虫技术,采取措施应对反爬虫机制,才能实现归集数据的实时动态更新。

4.2 海量的数据存储和计算能力

市场监管一体化信息平台融合多方业务,目前包含市场综合监督管理、市场主体登记注册等方面的信息资源库拥有的数据总量将近11TB,再加上后续的增量数据、需要采集的互联网数据,以及平台自身维护的数据,涉及到的业务数据量庞大,因而要求平台需要有足够大的空间支撑海量数据的存储。在此基础上,系统还应支持大量终端服务器同时在线访问,需要解决大用户量、多服务器下海量数据的计算处理问题,保证单一环节或单一接口临时出现的问题不会影响到其他业务流程的开展。

4.3 归集数据的标准化管理

统一的数据标准可以规范系统建设时对业务的统一理解,增强业务部门、技术部门对数据的定义与使用的一致性。然而原省工商、原省质监和原省食药品监督信息系统建设采用不同的国家及行业相关标准规范,如《工商行政管理信息化标准体系》、《金质工程标准体系》、《食品药品监管信息化标准体系》等,导致各系统下的同种数据可能采取不同的数据存储格式,或因传输过程的数据接口及其参数不同,导致归集后的数据格式各异。国家市场监管管理总局组建后,现有标准规范已不能适应机构改革后新形势、新环境下信息化建设的需要,尽管总局已启动市场监管信息化标准规范体系的研究工作,但尚未形成成果发布。

4.4 数据共享传输的安全保障

江苏省市场监管一体化信息平台的数据安全问题主要涉及三个方面,一是采集过程中可能出现的恶意代码、类型错误、校验错误等问题;二是数据使用过程中涉及到的内部人员和运维人员通过权限滥用、误操作和缺乏审计等原因产生窃取或非法修改明文数据等问题;三是数据外发时对数据去向的跟踪不够准确和及时。要保障数据共享传输过程的安全,不仅要加强管理人员建设,加强监管和惩罚力度,也需要引入新技术来规避可能存在的安全隐患。

5 问题解决的技术对策

针对上述提到的平台数据归集系统建设面临的四大难点,本文从技术角度提出相应的解决思路。

5.1 大数据采集技术

面对市场监管相关的全量历史数据,利用ETL 技术进行提取、转换和加载。其中,数据清洗转换的过程依据具体的业务场景采用不同的方法,数据清洗主要是过滤掉归集时不完整、错误以及重复的数据,数据转换则涉及到统一不同业务系统的相同类型数据、转换数据粒度以及进行商务规则的计算。针对现有系统存在多种数据接口的问题,可以开发一种适用于市场监管数据管理系统的多协议自动适配归集技术,实现多系统数据的高效采集[9]。

面对增量数据,例如记录市场监管数据源被操作或去向追踪信息的实时采集,可以利用Flume 采集实时数据,用Kafka 作为消息中间件,再结合Storm 或Spark 或Flink 进行流计算框架的搭建,过程如图2 所示。其对实时数据的处理过程类似传统的ETL,但却是通过流处理,而非定时的批处理的方式,其中Kafka 采用分布式架构,将实时采集到的数据针对业务场景需求作相应的处理,然后再存储到相应的数据库中。此架构高速的数据采集和传输传输,符合市场监管一体化信息平台增量数据实时采集的需求。

图2:增量数据的实时采集过程

面对结构各异的互联网数据,包括市场监管舆情数据和涉及业务的电商数据,则可以采用开源的分布式网络爬虫工具Nutch,其作为大数据处理框架Hadoop 的前身,可以自动维护网页的URL 信息,自动向搜索服务器提交爬取的网页,具有良好的水平扩展性,从而实现结构化和非结构化网络数据的实时采集[10]。

5.2 基于Hadoop框架的大数据存储和计算

由Apache 基金会所开发的主流分布式系统架构Hadoop 拥有最核心的两个子框架——HDFS 和MapReduce,可以分别用于解决市场监管大数据海量存储和高速运算的难点[11]。

HDFS 是一个分布式文件系统(Hadoop Distributed File System),具有高容错性的特点,放宽了可移植操作系统接口POSIX 的要求,可以提供高吞吐量并以流的形式来访问归集数据。针对市场监管一体化信息的数据存储,一种是面对全量数据,根据省市场监管数据交换接口协议的相关要求,对数据传输能力进行封装,实现对海量数据以文件方式进行传输,将文件取得后使用 put 命令放置于 HDFS 文件系统中,再进行数据融合或其他应用;一种是上述通过 Flume 实现对文件增量数据和实时数据采集,然后通过 Flume 控件可直接配置为 HDFS 文件系统的存储。

MapReduce 是一种支持多结构数据混合处理的可扩展性分布式计算框架,将市场监管一体化平台的数据处理分为Map(映射)和Reduce(归约)两个过程,通过分割、任务分解与结果汇总,完成海量数据的并行处理。其中Map 函数表设计为把源数据表内所保存的数据名称、种类以及相应字段等有关的数据结构信息正确置入,并有序显示到相对应的信息表内实现映射,例如表1 即展示了市场监管平台中企业相关的 Map 函数表;Reduce 函数表则是把数据结构(属性)中各类数据进行相应保存,运行于 Hadoop 平台上,实现自动数据映射和存储。可见,MapReduce 通过归纳多个数据表的特征后汇总处理,能够有效解决市场监管平台涉及近千个数据资源表单数据处理的难点。而面向实时更新的增量数据,仅需对新增加的数据进行记载,同时将对应数据记载的元数据信息导入到Map表内便能够实现扩展,从而保护原始数据内容且大幅度提升了数据处理的效率。除此以外,MapReduce 还适用于进行数据、日志和商业智能分析、大规模索引等业务,处理效果显著,因而除了市场监管大数据的并行处理问题,该技术也能有效解决海量数据的业务智能分析需求[12],衍生出如企业全息画像、市场主体统一信用数据等专题形式。

表1:市场监管数据归集体系中企业相关数据的Map 函数表

5.3 数据标准化管理技术

数据标准管理是一项复杂的、系统性和长期性的工作,面对市场监管平台归集数据的标准化管理需求,技术上应当按照标准分类规划、标准体系建设、标准评审发布、标准落地执行、标准运营维护五个阶段进行实现:首先通过梳理和明确市场监管业务数据实体、数据指标的关联关系,从而确定出主数据标准管理的范围;其次参照收集整理的市场监管相关国家标准、规章制度和法律法规等,对这些数据项及其之间的关系进行标准化定义并提交审核;初步制定好的标准需征询数据管理等相关业务部门的意见,完成意见分析和标准修订后进行标准发布;然后将已定义好的数据标准与江苏省市场监管业务系统、应用和服务进行映射;最后要求数据标准要随着业务的发展变化以及前期执行效果进行不断更新和完善,实现标准的维护。除了主数据,标准元数据的定义也同等重要,通过标准元数据的定义,消除数据项的歧义性,规范信息存储和展现格式,从而为提高系统数据质量奠定基础[13]。

5.4 数据归集过程的安全保障技术

在构建江苏省市场监管大数据一体化信息平台的过程中,依据《信息系统等级保护安全设计技术要求》制定市场监管网络安全技术体系建设框架,从安全管理、基础环境安全、数据安全、应用安全、安全管理中心五个方面分别设计,部署相应的安全体系框架,明确以保护数据安全为核心,以战略体系为指引,以管理体系为运行支撑,通过构建统一的基础安全支撑设施为数据安全保障提供集约化安全服务能力,通过建立安全运营体系实现对市场监管共享数据资源的统一安全运营管理。在数据归集过程中涉及到的大数据安全技术包括对敏感信息进行数据变形的数据脱敏技术、保证数据在存储和传输过程中保密性的数据加密技术、适于去中心化信任建立及多方共同维护的区块链技术等等[14]。

6 结语

数据是市场监管业务开展的基础保障,数据归集是构建市场监管一体化信息平台的关键功能,本文即从数据归集的原则、功能架构设计、难点及相应的技术对策四个角度来阐述数据归集的科学性和重要性。要落实解决江苏省市场监管大数据的归集问题,不仅需要依靠数据质量保障的制度建设和人才建设,更需要顺势时代趋势,融合先进的科学技术手段,通过数据清洗、转换、分析等相关大数据技术,最大化挖掘数据资源中的有用信息,为最终实现市场监管数据的充分融合共享,以及政府更好地为民众展开市场监管服务活动奠定基础。

猜你喜欢

市场监管数据库信息
不忘初心 砥砺前行——河北市场监管周年回望
中药饮片市场监管乏力
基于控制超调量的金融衍生品市场监管
论土地市场监管机构的设立
健康信息
健康信息(九则)