公共资源交易平台数据规范的研制与应用
2021-11-30付宏燕
付宏燕
(国家信息中心公共技术服务部,北京100045)
0 引言
公共资源交易是我国政府创新资源配置方式的重要体现,是现代市场经济体系的重要组成部分,属于政务公开的范畴,也是衡量我国营商环境的晴雨表[1]。2015年,国务院办公厅印发了《整合建立统一的公共资源交易平台工作方案的通知》(国办发〔2015〕63号文件),启动全国公共资源交易平台的深化整合工作。2017年国家公共资源交易服务平台上线,初步完成部分公共资源交易数据从各地市交易平台上行到省、国家级公共资源交易服务平台的汇聚。
为深化各级公共资源交易平台互联互通,促进数据的汇聚共享,2018年9月国家发展改革委联合财政部、自然资源部、国资委印发《公共资源交易平台系统数据规范(V2.0)》(发改办法规〔2018〕1156号)。本人作为上述数据规范的撰写者,以及其在全国各省、地市级交易数据向国家级汇聚的实施技术管理者,还原其设计思路,并通过三年时间对实施后汇聚到国家公共资源交易服务平台的数据进行核查分析,提出现存问题,为规范后续优化提供参考。
1 纵横互联的汇聚体系要求数据规范化
1.1 公共资源交易数据的汇聚方式
地方来源的交易数据通过政务外网,由地市逐级上行省、国家,呈纵向级联式实时汇聚到国家公共资源交易服务平台。619个地方交易系统的数据内容采集标准和具体的数据格式标准各不相同,均在系统中归集当地要求公开的公告公示文本信息,于统计或分析所需的结构化数据。对于交易数据的采集,地方系统一般按照项目交易流程的不同环节进行,比如项目进场时需要登记项目信息、招标主体信息,招标时发布的招标公告、更正公告,投标时的投标人信息,评标时的专家信息、评标信息,中标时的中标公示信息、中标结果信息,履约时的合同信息,等。
中央范围内主管部门的交易数据通过横向直连方式汇聚到国家公共资源交易服务平台。如政府采购的中央预算单位数据来源于财政部、国有产权的国资委监管中央企业数据来源于国资委、机电产品国际招投标数据来源于商务部、工程建设招投标的央企数据来源于中国招投标公共服务平台等。数据通过主管部门的政务外网前置机,利用政务信息共享交换平台交换完成库表直连,将数据实时交换到国家公共资源交易服务平台。
1.2 多来源数据差异要求数据规范化
数据标准是数据全生命周期质量控制的机制与制度保障,贯穿数据从采集到存储、治理和分析应用的全过程[2]。不同地方交易系统的表结构不同、字段定义不同、数据格式不同、数据采集时间点要求也不同;主管部门的交易数据,多从监管职责角度收集,与地方交易过程收集数据侧重点不一样,数据内容和格式也有区别。因此,国家公共资源交易服务平台进行纵横向数据的汇聚时,应保证在不影响各地交易系统的正常交易业务前提下,提出统一的数据规范,使不同对接单位有据可依,按照统一的标准进行数据内容和数据格式的转换,完成统一格式后的数据提交。只有数据规范化之后,才能更好地管控数据质量,支撑国家层面的数据共享、数据统计、数据分析等应用。
2 数据规范需解决的问题与范围定义
2.1 数据规范需解决的问题
公共资源交易平台数据规范是国家公共资源交易服务平台项目的工程标准,需要将交易业务有机整合到工程建设中。从公共资源交易的业务角度考虑,数据规范要涵盖较为成熟的交易领域,包括工程建设招投标、政府采购、土地使用权出让、矿业权出让、国有产权交易(实物资产)、国有产权交易(股权),应体现出交易的业务概念,表达出每笔交易的先后环节,并串联整个交易过程;从电子政务工程的数据应用角度考虑,数据规范应支撑国家平台的交易数据,可按项目所在地、交易发生地的省级、市级行政区域进行交易量和交易额的统计、分析,以及按主体(招标方、中标方、代理机构)或者主体的不同性质属性(如企业、事业、机关、社团等)进行交易额和交易量的统计、分析等。
从公共资源交易数据的质量管控角度考虑,数据规范应能支撑对汇聚数据的及时性、完整性和准确性的判断。作为数据质量规则建立的参考依据,可通过统一定义字段、类型和长度、特定版本的数据字典等,实现字段内容的质量检验;通过明确数据的归属责任,可追溯源头责任者以便整改。
2.2 数据规范的范围确定
数据规范纳入的数据范围,取决于国家对公共资源交易数据的信息公开要求和应用需求。在社会公共服务层面,应满足交易领域基层政务信息公开要求[3],如交易的招标公告、候选人公示、中标公示为公众和市场主体提供必要的交易信息参考;在政务服务层面,应满足为地方提供主体信息、交易信息的数据共享要求;在决策支持层面,应满足不同维度、不同粒度的交易业务分析支撑和数据统计要求;在监管支撑层面,应满足交易重要环节事中事后的监管要求。因此,数据规范的交易业务数据在选择地方交易平台共有信息的前提下,选择招标(更正)公告、中标公示、项目(标段)信息、主体信息、成交结果信息进行统一约束。
数据规范适用于全国公共资源交易平台系统间交换共享交易数据[4]。为体现业务层面的“交易”概念,引入统一交易标识码概念,定义了编码规则,对应到全国公共资源领域的每一笔交易;为了便于对数据的持续应用,明确了公共资源交易的分类原则与类目,规定了工程建设招投标、政府采购、土地使用权出让、矿业权出让、国有产权交易等领域交换共享数据的数据格式要求。
3 数据规范的整体设计
3.1 数据规范的结构设计
3.1.1 通用部分设计
数据规范通用部分的设计框图如图1所示,定义了针对所有纳入的公共资源交易领域,全国公共资源交易平台之间交换及共享应用数据时,都应遵循的通用性约束,如术语定义、统一交易标识码编码规则、公共资源交易分类类目、通用代码、附录等。通用部分旨在保障所有数据规范的使用者,对业务含义的概念理解达到统一认识,以及对技术层面的数据转换实现统一约束。
图1 数据规范通用部分构成
3.1.2 主体部分设计
主体部分的设计框图如图2所示,定义了分交易领域的数据集约束,以及非交易领域的其他数据集约束。不同交易平台间按照数据规范的汇聚和共享交换的数据95%都属于主体部分。
图2 数据规范主体部分构成
分交易领域纳入工程建设招投标、政府采购、土地使用权出让、矿业权出让、国有产权交易5个领域,每个领域均结合实际按交易流程顺序设计了项目登记、招标公告、投标人、中标公示、中标结果等数据集,每个数据集又根据数据电子化情况和展示、统计、分析的应用需求定义了不同数据项。其他数据集约束纳入主体扩展信息、专家信息、监管信息、信用信息,其中主体扩展信息数据集分别对应不同角色的市场主体扩展了该角色的数据项内容。
3.2 数据规范的内容设计
3.2.1 分交易领域内容
分交易领域对应公共资源交易的项目登记、招投标、评标、中标、合同签订的业务流程,按照在交易系统中的重要环节电子化留痕特点,取全国619个省、地市级交易系统中普遍保存的交易项目/标段、公告/公示、参与主体、中标结果信息做为共享交换的数据,用于保障项目信息和公告/公示面向社会公众公开、接受社会监督的共享服务,市场主体参与交易市场行为分析、营商环境预测的挖掘服务,以及中标结果的统计和其他应用服务。数据规范定义了分交易领域共享和交换的数据集、数据项、数据格式、值域、公开范围、数据字典等,共计74个数据表的约束。
除上述交易领域,2019年底,国家发展改革委印发《全国公共资源交易目录指引》,将机电产品国际招投标、海洋资源交易、林权交易、农村集体产权交易、无形资产交易、排污权交易、碳排放权交易、用能权交易纳入公共资源交易平台体系。随着国家对目录指引中交易数据应进必进的要求,相关电子化交易数据在相对成熟的条件下也将纳入到共享交换内容中。
3.2.2 非交易领域的其他内容
在非交易领域,考虑到市场主体在营商环境中的重要作用和大数据分析的需求,纳入不同性质、不同角色的全国各类市场主体扩展信息;考虑到招标时的资格预审、评标时的评分需求,纳入市场主体在交易过程中的信用信息提供参考;同时,纳入交易过程中相关部门的监管信息与评价,辅助对市场主体市场行为的判断。数据规范定义了其他约束的数据集、数据项、数据格式、值域、公开范围、数据字典,共计52个数据表的约束。其中,专家的身份证号信息在传输过程和存储时都需要进行脱密处理。
4 数据规范的难点
4.1 公共资源交易分类类目
不同交易领域的数据在收集或应用过程中,通过公共资源交易分类类目编码进行标识区分。分类编码采用两级代码结构,一级大类用1位大写字母“A”至“Z”字母标识,表示业务不同的交易领域;二级小类用2位阿拉伯数字顺序组合码标识,表示某交易领域中不同的子分类。如A代表工程建设招投标领域、A01表示房屋建筑工程招投标、A02表示市政工程招投标、A03表示铁路工程招投标,B01表示土地使用权出让等。
分类类目可依据业务领域的实际发展需要和关注热点进行扩充。在数据业务层面,通过分类编码支撑不同领域的交易量和交易额统计、分析、挖掘等应用,以及区分不同领域的公告公示内容。
4.2 统一交易标识码的作用
公共资源交易数据都是围绕交易产生的,应用层的统计、分析也都是以交易为基础。交易码的作用是区分每一笔交易,以及交易的所属领域、所属单位、所属日期,以及判断每一笔交易标识码信息是否正确传输至关重要。根据交易标识码可以追溯到数据提供方。
统一交易标识码前3位为交易分类类目编码,接着为所属单位的18位统一社会信用代码,以及8位产生交易的日期码、6位从000001~999999不重复的流水号,和1位校验码,共五部分36位组成,各部分之间用字符“-”隔开。
校验码用以校验统一交易标识码的前35位数字或字母的正确性,必须通过规范性附录的校验算法生成。数据提交方根据算法生成校验码;数据接收方收到数据后,通过相同的校验规则进行正确性验证。
4.3 特殊情况的处理
4.3.1 市场主体无统一社会信用代码
规范约束参与交易过程的市场主体代码为必填项,并且应填入18位的统一社会信用代码。此种情况下,规范约定其标识代码总长度不超过18位,采用由4位字符GGZY开头,加6位行政区域代码,以及本地该主体类型的唯一编码构成。符合规定的主体标识代码可以通过数据接收方的校验,否则返回报错信息。
4.3.2 项目类型的判断
工程建设招投标、政府采购领域的项目,有标识出是否国家固定资产投资项目的需求,以辅助进行国家固定资产投资情况的分析。该思路可拓展出后期是否科技部项目、其他项目的判断需求,基于此,规范增加了项目类型关联代码字段,定义了相关项目类型的数据字典,如为固定资产投资项目,在该字段填入1即可。
5 数据规范的实施进展与优化
数据规范从2017年在全国实施,开始全国数据的汇聚、共享交换和应用,到2021年为止已推行4年,期间经历了从1.0到2.0版本的切换调整。从执行角度看,数据规范已经在全国619个公共资源交易系统与省级、国家级交易平台共享交换的过程中得到了验证,尤其从数据规范2.0发布后,数据质量有了明显进步,数据及时性得到了保证,准确性也大大提升,支撑了国家平台对于数据展示、统计、分析的应用,以及地方数据服务的需求。
目前通过数据编码实现交易业务全流程的前后串联时,无论是统一交易标识码,还是项目(标的)编码关联查询同一交易,成功率都不够理想。这说明现有规范在数据单条记录的约束比较有效,但对于同笔交易串联的校验有待增强。因此,后续版本在响应国家对交易全流程电子化的基础上,增强交易标识码、项目编码的数据格式和串联应用方面,应更突出业务层的含义,强调同一交易在全流程所有环节的唯一标识性;同时,应考虑更加便于对源头数据质量的检验与考核,才能实现数据规范和业务的相互促进。
6 结语
作为工程标准,数据规范修订是一项长期的工作,需要随着工程进展和实际应用需求不断完善,而规范版本的切换实施涉及到国家、省、地市所有系统功能的变动,牵一发而动全身,规模庞大且不确定性较多。目前,公共资源交易平台数据规范3.0已在研制进程中,如何保障近2亿条历史数据在规范调整的前后衔接,以及在全国切换实施的系统评估,应作为规范修订的一项重点工作。