南京市公共信用信息归集问题和对策研究

2017-06-02王敏

信息化建设 2017年4期

王敏

南京市公共信用基础数据库的数据来源于56个市级部门和辖区的七日双公示数据，包括江苏省公共信用信息中心交换的数据，人社局、卫生局、国地税等部门向信用信息中心直接报送的数据，以及南京市资源交换平台归集的法人、自然人基本信息和信用相关信息数据。

其中，双公示数据目前共有4张表19万条，省信用信息交换数据共有72张表479万条，人社局15年下半年和16年上半年分2次共交换了7张表1900万条数据，卫生局报送了5个月3.8万献血记录信息，国地税报送了92.9万企业纳税登记变更和注销信息以及4万A级纳税企业信息。各信息提供单位按照国家发改委《关于依托“信用中国”网站试点开展行政许可与行政处罚信用信息公开公示工作的通知》（发改电【2015】481号）的要求向南京市公共信用信息中心持续报送七日双公开数据。南京市公共信用信息中心按照省信用办《关于切实做好2016年各省辖市向省级系统报送社会法人信用信息的通知》（苏信用办〔2016〕32号）的要求向各信息提供单位收集；同时，为了加强基础性工作，还对市级各部门和辖区进行了数据、行为和应用三个清单的征集和汇编。

这些信息客观地反映了企业在生成经营过程中的历史和现状，为各部门联动开展信用相关应用提供了数据基础；为第三方信用机构出具信用評级报告提供了依据；为大量中小微企业和农户申请项目资金提供了便利。

复杂多变的信用数据让平台的推广应用难度颇大

南京市公共信用基础数据库已经建设了4年时间，但是系统维护情况不甚理想。大量的信用相关数据，并没有更新到基础数据库中，在信用信息平台上推广应用难度很大。目前很多信用数据都是脱离信用基础数据库独立存在的。归结起来，主要有以下几个方面问题：

信用数据归集规范复杂多变，让各信用信息提供单位无所适从

国家发改委《关于依托“信用中国”网站试点开展行政许可与行政处罚信用信息公开公示工作的通知》（发改电【2015】481号）制定了自然人和法人，许可和处罚共四张数据表项，要求各信用归集单位按照七日双公示的时效报送公共信用信息，统一了报送数据格式，持续收集到了更多的数据。但是，因为公共信用信息涉及面广，涉及部门多，部门间业务千差万别，所以每年让部门报送新的公共信用信息归集目录是一项繁重而低效的工作。其中，因为标准制定过于简单，各信用信息提供单位报送时存在以下五方面问题：

为了满足报送格式要求，各报送单位把某些字段生搬硬套到简单的表格内，删除了许多自身业务相关的特色数据；

为了满足数据量的考核要求，各报送单位把大量企业基本信息和个人基本信息作为许可信息进行报送；

各报送部门信息化程度不一，报送数据质量问题严重依赖于部门内部重视程度；

公共信用和部门业务关注的侧重点不同，某些规定字段除非对原有业务系统彻底改造才能从源头上解决数据质量问题；

国家和省级数据规范格式本身也在不断的修订中。

信用数据归集方式缺乏有效的管理，收集的可利用和有效数据比例不高

在信用数据归集过程中，一般都规定了四种归集方式，但在实际操作中分别存在以下四方面问题：

基于前置数据库的对接，存在业务数据单方结构变动造成接口失效缺失数据，数据报送一次以后很难主动持续报送，报送单位外包商或者接口变动造成报送过程无人维护等问题；

平台直接上传时，存在由于数据格式出现问题无法上传，时效得不到保证，需要反复培训等问题；

基于数据接口按需读取时，要求报送单位信息化水平比较高，双方开发对接会产生新的工作量，加上数据按需获取落地有政策性的时效规定等诸多原因，存在一些限制；

文件方式报送方面，随意性太强，报送的数据量和数据质量得不到保障，造成无法入库。一方面，整理工作量大，很多问题需要返回业务处室重新处理；另一方面，相当多应付考核的数据，没有实用价值。

公共信用信息归集平台架构本身并不适应实际情况需要

原先的南京市企业公共信用基础数据库部署在政务内网，是一个基于RDBMS的通用数据归集平台产品的定制化工具，存在四个方面的问题：

线性和非线性依赖很强。系统的灵活性差，实现特定需求困难，外包单位基于商业利益故意夸大二次开发难度；

很难通过改造满足快速变化的需求。公共信用体系建设是一项全新的任务，许多制度和规范都在实践中不断的完善。一方面，数据结构和展现形式的变化频繁；另一方面，信息间的关联关系也随着应用展开变得越来越复杂；

底层实现缺乏隐私保护，数据版本管理等重要功能，可用性和可靠性差；

前端和交换部分数据字典和数据校验功能薄弱。

三大措施完善公共信用信息归集平台

线上对信用目录和清单动态管理

目前信用数据归集目录清单归集方式为一年一报，汇集归档打印成册，工作量大，可靠性和可用性不高。数据目录，需要重视目录结构的本身。各层级每个阶段的信用信息目录，作为目录清单的一个版本，需要有效保存，并且通过版本树管理起来。鼓励各报送单位业务部门自行在不同版本数据项间寻找对应关系并提供给信用信息中心。

数据目录和数据项设计需要统筹考虑到具体实施难度和信息内容的准确性与规范性。规定过细，符合要求的数据太少，操作过于复杂，对归集人员培训难度大；规定过粗，符合要求的数据量又太低。

通过线上目录清单动态管理，可以解决目前国家和江苏省信用数据归集规范不断变化的需求，并且把这项工作变成常态化工作。

规范数据归集行为

关注重点对象数据。公共信用信息基础数据库必须有重点关注对象。有些数据是开展信用应用的关键数据，需要单独管理。在归集源头，可以要求各归集部门提出自己的需求和重点关注对象名单，或者在实际应用中收集此类数据，单独管理，重点跟踪。如每年部门各项申请资金要求出具的信用审查对象，各部门提供的红黑名单和有信用评级的对象。

简化接口对接。系统预置服务接口、查询接口、内容接口对接实现，使接口对接变成轻量型业务，减轻信息归集单位的工作负担。

提供数据检查工具。信息归集中，不可避免的会出现错误，缺失关键信息，如姓名、身份证号、企业名称、社会统一代码等。系统提供录入提示工具、预处理检查工具和数据验证工具帮助数据归集单位从源头完成输入校验、批量信息校验和数据回归分析。同时，对各种输入错误和输入偏好，按频率做聚类分析，持续提升信息归集源头的数据质量。

涉密隐私数据归集和数据脱敏。公共信用信息系统实现对涉密隐私数据加密。如需要访问统计信息，经过部门授权可以离线生成后上线，或者直接由部门生成脱敏数据。归集部门内部，需要有原生数据到原生信用数据再到可交换信用数据的2层过滤。目的是解决归集有用信息和有用信息的脱敏形成可归集信息。可归集信息到适配接口间，存在数据版本的适配，以满足不同层次的归集需要。最后，进入到公共信用基础数据库。

创新数据归集平台底层设计与模块设计

采用文档数据库作为公共信用信息基础数据库的实体实现。公共信用信息天然的基于文档结构，完全可以用文档数据库取代关系数据库来存取信用基础数据库。为了保持关联关系的完整性，从信息归集源头就不能漏过任何信息的关联。信用信息本身是个网状关系，从一个特定的视角看是一个树型文档结构，可以通过企业历程视角来保存这个文档。把公共信用数据项作为顶点，两两数据项的关联作为边单独保存起来。

涉密隐私数据保护和数据版本树下移到底层核心模块。这两个功能是公共信用信息归集系统不可缺少的重要功能，并且需求相对稳定。涉密隐私数据保护包括在线存储密文、离线存储明文和数据脱敏交换。目录清单维护和信用数据归集都可以通过版本树来实现存储。

挖掘数据关联关系。公共信用基础信息间的关联有的是明显的，有的是需要结合业务系统来理解的，还有的是隐式关联。对于找不到关键字段关联的，只能通过模糊匹配，根据某种算法找到置信度超过设定阀值的关联关系，再返回到信息源头去确认。这就需要对信用信息进行数据挖掘，提高信息完整性。

用消息队列解耦信息交换功能。现有公共信用信息归集平台，对系统环境层层依赖，扩展性差，信息交换变化难以监控和调整。通过引入消息队列解耦，大大减轻开发和维护工作量。

增强系统的可扩展型。通过容器化实践增强系统的健壮性、应对突发事件的能力和响应变化的能力。场景决定系统架构的选择。虽然目前来讲南京市公共信用信心归集平台只有百万级别的数量和很小的并发访问量，但不能不为今后的横向扩展做进一步考虑。例如在公共信用基础数据库上展开文明交通信用分查询，公共信用信息系统直接对接移动互联网应用，需要更大的并发访问量。通过业务拆分和快速复制结点，迅速提升系统响应能力。

统一管理数据检查工具。一致性要求高的场景，需要对前端和后端的预处理、输入提示和回归检查进行统一管理。

公共信用基础数据库的建立、运行以及开展相关应用，很大程度上依赖于公共信用信息的数据归集。公共信用信息系统作为一个应用基础平台，不仅仅要提供数据的保存和展现功能，更多的还需要在数据归集上提供便利。公共信用信息的数据归集功能，可以建立在市區信用两级平台上，也可以作为公共信用基础信用数据库的一个组成部分。无论怎样设计，平台本身必须提供对数据归集的直接支持。

公共信用信息的目录清单和数据版本管理系统是解决目前信息归集问题的一个理想工具。但是，在整个公共信用体系的建设中，人的因素才是最主要因素。只有不断总结经验教训和提出更好的解决方案，调动各级归集部门的积极性，加强过程管理，深化业务理解，才能真正做好公共信用信息的数据归集工作。

（作者单位：南京市信息中心）

猜你喜欢

南京市公共信用信息归集问题和对策研究

猜你喜欢

杂志排行

信息化建设的其它文章