APP下载

数据分析在优化市场监管中的应用

2022-12-08王怡臻

中国信息化 2022年11期
关键词:市场监管建模监管

文|王怡臻

推进市场监管方式数据化转型、进而实现智慧化监管是必然趋势,也是各类市场监管部门肩负的重要职责。当前,市场监管数据分散、数据壁垒、信息孤岛、大数据分析应用手段单一及数据技术创新能力不足等问题严重制约市场监管工作成效。基于此,如何综合运用互联网、云计算、大数据等技术手段,以数据建模为核心,对海量、零散、孤立的信息进行汇聚整合、关联碰撞和分析研究,实现市场监管从无差别、粗放式监管向差异化、精准化监管转变,着力形成数据筛分重组、提炼清洗、研判运用、提前发现等全域感知、全程掌控、全链条打击的智慧监管新格局,构建预研预判、精准高效的风险防范体系是当前市场监管工作中的重中之重。

一、当前在市场监管数据化转型方面存在的问题

从当前市场监管情况来看,存在数据意识不强、应用数据能力较弱、数据关联筛选分析不够等问题。

(一)数据零散、整合意识不强

从相关部门信息系统运行情况来看,市场监管过程中累积了大量数据。如,“双随机”监管数据、行政处罚及行政许可数据、“信用中国”数据、执法信息采集系统数据、政务服务平台数据及各监管主体自建系统数据,但都因知识产权和数据保护等缘故,造成数据共享难、端口对接难,让“数据跑路”反而变成了“数据壁垒”,各自为战、各自为政,数据整合意识不强。

(二)数据清洗、应用能力较弱

在实际工作中,理论上可以运用到大量的分析软件和计算工具,但从实际应用情况来看,数据沉淀、数据关联、数据挖掘、数据筛选、数据建模等工作还处于“浅表层”,基本停留在数据积累、数据存储和数据统计上,不能总结提炼过往数据的规律特点,发现预测现在与将来可能面临的动态情况,数据价值难以有效挖掘和利用。

(三)数据分析、研判筛选滞后

一方面,数据共享缺乏、数据互联及数据不对称等问题的存在,使得数据资源不能实现互联互通,无法对数据源或数据库进行深入关联分析,使得数据应用效能较低。另一方面,缺乏数据应用专业性人才和数据综合应用能力,无法开展数据碰撞、分析建模、数据预警,使得精准监管、智慧监管很难实现。

二、大数据应用在市场监管工作中的必然性

(一)提高市场监管效能的必然

当前,面对市场多元化发展趋势,线上和线下市场并行交织的特点,市场监管工作面临许多新形势、新问题、新挑战。为顺应“放管服”改革需要,国务院出台“双随机、一公开”监管方式,但从施行情况来看,还存在“双随机”监管对象的指向性不强、“双随机”抽查的科学化水平不高、“双随机”监管配套机制不完善等问题。因此,国务院在《关于印发“十四五”市场监管规划的通知》中明确提出:“在严格遵循‘双随机、一公开’监管方式基础上,将靶向监管、信用监管、分类监管、智慧监管与‘双随机、一公开’有机结合,提高监管及时性、精准性、有效性。”但是,不管应用哪种监管方式,核心与“大数据”是分不开的,只有不断沉淀数据,建立数据库,实现数据共联共享,充分发挥数据预测感知和监管风险评估功能,才能提高市场监管效能。

(二)降低市场监管成本的必然

目前市场监管模式更趋向于“大数据、大协同、大监管”,市场监管更需要多部门数据协同、多部门职能交叠、多部门联合监管。但从目前基层运行情况来看,“监管重叠”和“监管空白”交织存在,“监管越位”和“履职缺位”时有发生。受信息数据壁垒、数据共享梗阻、数据思维固化、条块关系复杂这些因素影响,市场监管职责宽而不专、专而不精,事前监管能力弱、事中事后监管发现问题难度大,导致当前的监管需求与监管部门现有的人力、物力和财力不相匹配。如何降低监管成本,避免资源浪费,推动监管从传统向现代转型,从粗放向精细转型,从单兵作战向协作共享管理转型,实现监管效能集约化、最大化,“大数据”应用就显得尤为重要。

(三)创新市场监管方式的必然

近年来,提升监管水平、完善监管体系、优化监管方式、创新监管工具、健全监管机制,在不同监管主体不同监管层面均有明确要求。分类分级监管、信用等级监管、数据协同监管、辅助决策监管、互联网+监管等新型监管方式的提出,这些都是建立在数据信息采集、数据关联分析、数据检索碰撞、数据辅助决策和数据建模监管的基础上。不管是监管对象分类还是监管线索排查都是以数据为支撑、以数据为导向。由此可见,运用大数据提升监管效能是促进市场监管方式转型的必然之举。

三、大数据在市场监管中的具体应用

围绕数据应用、数据建模,就深化数据信息融合、规范数据清洗、健全数据建模规则,进而提高市场监管效能,形成以下认知和想法:

(一)整合数据平台,扩充数据容量

随着互联网时代技术手段的进步发展,各类信息系统在市场监管部门中得到广泛应用,但各信息平台数据多以部门业务数据为主,数据录入方式多种多样,格式千差万别,导致部门数据之间形成“数据孤岛”。同时在数据存储过程中,由于存储环境不规范导致的泄密问题频繁发生。因此,建立健全市场监管部门“云数据库”,整合数据资源、扩充数据容量、统一平台录入不仅是破除信息系统之间壁垒的有效工具,更是筑牢信息安全防火墙的有效保障。

在数据整合过程中,需要自上而下建立数据采集统一标准,明确数据格式、数据指标、采集流程、采集须知和报送应用等,以确保数据采集的一致性、规范性、标准性。要通过梳理数据的实体、属性、关联、层级和逻辑,建立库-库、库-表、表-表之间的ER模型图,这样既可以显著降低数据存储资源的浪费,又能提升数据互联共享的效率和机器学习运算的速率。

ER表-表模型如图1所示。

图1 ER表-表模型

(二)规范数据清洗,提高数据质量

因为收集的数据可能存在冗余、失真及缺失等问题,所以在数统一、分类、联合的基础上,我们要对数据进行清洗。只有拥有了完整准确、规范有效的数据,才可以在大数据分析应用中对其便捷高效使用。而在这个过程中,规范数据清洗就显得至关重要。实践中,数据清洗一般包括以下几个流程:

1.易错分析

数据清洗是提高数据质量的有效方法。在拿到样本数据后,要尽量收集样本数据操作规则、存储格式和易错点,总结数据出错的共性特征,分析研究并加以规避,来满足数据在挖掘应用方面的需求质量。

2.机器清洗

依照样本数据总结出错的共性特征,结合错误类型设定机器语言,使每条数据源与规则匹配,降低数据源错误。机器清洗流程主要包括以下几个环节:一是缺失值清洗。缺失值是指在信息收集过程中,由于机器存储不当、人为操作失误造成的数据丢失。在缺失值处理过程中,常用的方法有数据删除、替换、补充、修复等。二是错误值清洗。数据错误也是大数据应用过程中易发的问题,而直接在数据源进行数据清洗时,可能造成数据修改无法恢复,损害数据完整性等问题。这就需要对数据源进行备份操作,清洗时按照数据需求格式不同,执行之前清洗规则,从而为之后模型应用和数据源合并做好准备。三是重复值清洗。在数据录入过程中,由于录入人员、方式、机器等因素,导致数据录入重复性无法确定,造成数据源存在大量重复数据,这就需要耗费大量人力、物力和时间进行识别,并在这个过程中很容易出错,因此需要我们使用Bitmap、BloomFilter、字典树、HyperLogLog等算法去除冗余数据。

3.数据回流

当数据清洗工作全部完成后,我们要将“洗干净”的数据代替之前“脏数据”,这样才可以提高我们数据库的质量,降低数据挖掘过程中的能源、时间损耗等。

数据清洗流程如图2所示。

图2 数据清洗流程图

(三)多维数据建模,提升运行实效

在实践中,大数据在市场监管中应用的方向主要为服务和监管。我们以大数据在违法行为监管方面的应用为例,大致可以分为三类:第一类是根据已知的违法信息对数据仓库中所适用的数据进行挖掘;第二类是针对违法嫌疑人,根据其涉及的所有数据记录进行分析,从而研判违法行为嫌疑;第三类是对未来有大概率发生的违法行为进行预测性挖掘。根据三类挖掘数据时间的不同,可以确定前两类是对历史违法数据的碰撞挖掘,而第三类可以确定为预测性挖掘。但从严格意义来说,大数据实践应用的核心在于预测。因为大数据是通过对事物已知规律和发展变化的分析,来探索未知的发展趋势,以便通过对规律的把握实现对趋势的掌控。而市场监管中可以依据违法案件“人、车、物、事、案、线”六大类案件要素,从违法时段、违法性质、违法对象、违法车辆、违法区域、违法数量及涉案金额等多层面聚类分析,并结合证照属性、经营属性、区位属性、违法属性等多维度建立监管模型,采取集约化监管模式,形成数据模型库。在具体建模过程中,需要遵循以下步骤。

1.制定目标

制定目标是数据与业务融合的关键。只有在需求明确的前提下,才能清晰地罗列出需要什么数据,运用什么算法,解决什么问题。制定目标是实现市场监管模型“建用管”的基础。

2.阈值确定

在确定目标的基础上,要确立各模型阈值规则。明确模型阈值的特征指标、数据关系、业务逻辑,才能有效利用模型推测未来事件可能发生的概率。阈值的确定主要运用到决策树(Decision Tree)、关联规则分析(Apriori)、聚类分析(K-MEANS)等算法,下面将具体应用进行举例说明:

(1)决策树(DecisionTree)算法应用决策树算法是一种归纳分类方法,是机器通过对训练集的学习,挖掘数据之间的联系,用于新的集合预测。在违法行为监管过程中,通过对历史违法案件发生的时间、地点、人物、区位、类型等特征归纳,并根据特征对数据进行分割,用机器执行算法,对数据进行学习、训练、挖掘,确定最佳监管方向,并依据特征属性和特征值建立相关监管模型。

利用python进行决策树算法构建,决策树算法结果生成如表1所示。

表1 决策树算法结果生成

(2)关联规则分析算法(Apriori)应用

关联规则分析又称关联挖掘分析,就是从数据仓库中发现项集之间的关联,进而分析出“由隐性、潜性向显性转化”的规则。而在关联算法的使用过程中,通过定义频繁项集、挖掘数据仓库,递归调用支持度算法,确定频繁集字段,计算频繁集支持度,从而精确模型阈值。

(3)聚类分析算法(K-MEANS)应用

通过制定数据之间“共性”属性来完成聚类分析,这样最相似的数据就会聚集成簇。而在“放管服”改革的大环境下,市场监管部门对聚类分析算法的应用尤为重要。在监管实践中,根据监管对象所处商圈、地缘、历史违法等因素,利用机器学习算法,计算监管对象违法行为发生K值,并根据计算结果对监管对象进行分类监管,从而提升市场监管效能,降低监管成本。

3.模型修正

每个模型的运行模式是固定的,但是在实际应用过程中,由于人员、环境、时间等不确定因素影响,往往会存在一些变量。为更适应市场监管各环节多元化需求,实践中需要通过训练模型不断调整模型阈值,找到最合适的参数或者变量,并基于业务数据确定最合适的模型参数。

模型修正流程如图3所示。

图3 模型修正流程

4.模型应用

完成模型创建、模型修正后,需要将模型应用于监管实践过程中。从整合的数据库中加载数据,通过数据清洗将数据库中非结构化数据转换为结构化数据,以针对解决监管中存在的违法问题。在具体应用过程中,就违法行为监管模型举例如下:

(1)应用机器算法完善监管模型

为更好地应用历史违法行为数据,可以利用数据拟合和lightbgm等机器学习算法,结合日常工作经验和数据分析工具,对各关键监管特征进行TOP排名,将经验监管转换为数据监管,确定重点监管方向,提升监管效率。

(2)多层多维建模实现分类控制

利用K-MEANS聚类分析,决策树、统计学等方法,结合监管实践过程中常见的违法行为特征,按照阈值规则多层级多维度构建预测模型,提升违法行为的打击精准性,实现数据监管向分类监管的转变。

(3)创新监管载体赋能精准监管

根据监管主体静态数据和市场检查、举报投诉、案件查处等环节发生的动态数据,从多个角度分析监管过程中结构化数据的特点,构建信息处理、指挥调度模型,配合手机、电脑、移动端等设备,实现监管模型运行支持,为统一决策、统一调度、统一指挥提供载体,实现分类监管向精准监管的转变。

5.优化模型

为进一步提升模型命中率,确保模型高效运行,在模型运行过程中采用vecm(向量均衡修正算法)对模型预测结果进行划分。对产出不理想、业务场景使用不匹配等问题模型,及时采取重制模型、调整阈值、增减特征值等措施实现模型最优化,并建立模型运行评估机制、定期通报机制。

综上,数据整合打破了数据壁垒,解决了数据资源整合和数据互联互通的问题;数据清洗实现了数据差异整合,解决了数据冗余、错误、缺失等问题;数据建模完成了数据深度挖掘应用,解决了市场监管中数据监管、分类监管和精准监管的问题。

四、结语

大数据在市场监管中的应用是适应市场监管形势的必然之举,也是破解市场监管难题的创新之举,更是优化市场监管方式的智慧之举。本文中提到的数据归集、数据整合、数据清洗、数据建模都是大数据应用过程中的有效手段。通过大数据应用打破数据壁垒、实现数据互联互通,从而为精准监管、信用监管、智慧监管提供了数据支撑;通过大数据应用明确监管重点、降低监管成本、提高监管成效,从而发挥了社会共治共管作用;通过大数据应用精简信息传递路径,畅通信息流转,从而提升了“放管服”效率。可以说,大数据在市场监管中的应用是促进政府职能转变,放管结合、优化服务的有效手段,也是积极响应国家号召,加强市场监管和政务服务的重大举措,具有良好的发展和推广前景。

猜你喜欢

市场监管建模监管
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
综合监管=兜底的网?
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
青海省人民政府关于贯彻落实“十三五”市场监管规划的实施意见
中药饮片市场监管乏力
监管和扶持并行
种子市场监管存在的问题与改进建议
放开价格后的监管
三元组辐射场的建模与仿真