公共资源交易数据交换共享的设计与实现
2022-11-10付宏燕
付宏燕
(国家信息中心,北京 100045)
0 引言
公共资源交易是要素市场化配置的重要内容,属于政务公开范畴。公共资源交易大数据来源于地方交易平台的交易业务活动,以及各交易领域主管部委的收集或统计。数据要素的特殊属性,要求加强数据资源的开放共享;数据越多价值越大,越分享价值越大,越跨行业、区域价值越大[1]。推动海量公共资源交易数据的连接、交互和有序流动,促进多主体、多场景使用,可产生无可限量的经济和社会价值。在国家公共资源交易服务平台的建设中,用服务思维代替项目思维,以交易数据业务特征为出发点,完成全国各地、各部委公共资源交易数据的完整归集和交换共享,按需同步更新,是发挥数据价值最大化的必要环节。作为该政务大数据工程的组织实施者,本人还原其数据交换设计思路和实施难点,希望对不同行业构建政务大数据的整合共享提供参考。
1 公共资源交易数据交换共享内容设计
1.1 数据归集领域与交换内容
在所有应用场景中,市场主体是交易活动的发起者、组织者,也是交易行为的直接参与者、实现者,而交易行为通过不同阶段的数据体现。因此,公共资源交易数据归集与交换内容应围绕市场主体的交易活动进行,表达出从入场登记到成交的全周期,覆盖相对成熟的交易领域,如图1所示。
图1 公共资源交易数据归集领域与交换内容示意图
目前国家公共资源交易服务平台正式运行,完成了工程建设招投标、政府采购、土地使用权出让、矿业权出让、国有产权交易五个领域的数据从各省和各领域主管部委向国家级平台的归集,并面向社会提供服务,进一步挖掘交易数据的业务价值,如交易信息公开对市场主体招投标的参考价值、数据流动共享对简化招投标流程的价值、交易市场主体行为动态趋势等。
1.2 公共资源交易数据特征
一是源头多样业务特征明显,数据海量实时更新;应用驱动数据共享内容,体系结构动态扩展。全国600多个地市级交易系统生产的电子化数据形态各异,招标公告、中标公示等在地市、省、国家各级媒介均要求数据生成当天发布。五交易领域仅2021 年成交的项目数量已超110 万个,呈现出逐年递增趋势。随着2019 年底《公共资源交易目录指引》的印发,以及加强公共资源交易全流程电子化的要求,海洋资源交易、林权交易、排污权交易、碳排放权交易、用能权交易等越来越多领域纳入电子化范围[2],要求现有公共资源交易数据体系具有动态扩展能力。
二是数据质量暂不尽如人意,确权与定位困难重重;数据交换双向需求不同,多种时间标识易混难辨。目前源头提供的数据存在各种问题,如金额填成手机号码、万元与元不分、来源平台混乱等,对于后续应用造成很大困扰。数据源头的确权、错误数据的定位、错误信息的反馈都有一定难度,闭环效果不理想[3]。数据在国家层面主要支撑宏观的统计、分析、对比、决策、监督等应用,在地方层面多用于简化微观的交易业务过程;多种时间标识分别代表不同业务含义,如中标时间、发布时间、上传时间,前两者表示业务交易时间和公示时间,后者为校验核对的数据时间戳。
2 公共资源交易数据交换共享的整体架构设计
按照“运用大数据加强公共服务”的战略[4],设计图2 所示公共资源交易数据交换共享整体架构,由数据来源层、数据交换层、数据归集层、数据治理管理层、数据应用层构成,从来源逐层逼近公共服务应用,各层均遵循统一的公共资源交易平台系统数据规范,以及数据安全要求。
图2 全国公共资源交易数据交换共享整体架构图
数据来源层包含地方和中央范围的交易数据。地方数据由地市级电子交易系统产生,按数据规范抽取转换后实时推送至31省级电子服务系统,省级通过数据交换层的接口交换实时传输至国家公共资源交易服务平台;中央数据由财政部、自然资源部、商务部、国资委等通过库表交换完成。数据归集层完成对国家平台缓存库数据的存储、校验、反馈、考核等事项,并将结果反馈给数据来源;数据治理管理层对原始数据进行质量提升后形成基础库,再结合交易业务需求重新组织数据结构,形成主题库、主体库、共享库、标签库等,支撑最上层的服务应用。
3 不同来源的数据交换共享模式设计
3.1 地方范围数据接口交换模式
地方数据的明显特点是异地来源多样、数据格式多样、省平台技术架构多样、省侧和国家侧数据库类型多样。针对以上特点,设计图3 所示的地方多来源数据接口交换模式,实现在同一网络环境中多来源数据的自动采集和校验,支持两侧不同数据库类型,实时交换传输。
图3 地方多来源数据接口交换模式示意图
该模式包含接口程序、数据交换软件、前置机。接口程序多省复用,根据省平台主流的B/S架构、J2EE和.NET提供标准API接口和WebService接口服务,部署在省平台侧,实现数据校验、上传、异常反馈、数据获取等功能。省平台上传数据时,调用接口程序先启动数据一次校验,将长度异常反馈省交换库告警,并将数据打包成XML格式自动写入省前置机,触发数据交换软件传输到国家前置机,写入国家平台缓存库,此时完成数据解析执行二次校验,拦截不符合规范的异常数据反馈到省前置机,正常数据则写入国家平台基础库。
接口程序充分利用代码字典表达不同信息,如3~4位数字组合表示不同类型的表,其中第1、2位区分交易领域,第3 位区分交易阶段,第4 位表示该领域为新增;用0、1、2 表示数据的新增、修改、删除;用3 位数字100-999区分校验异常的不同类型和错误,用0开头的4 位数字组合区分来源平台等,所有代码组合均满足扩充设置,支持交易领域的随时增加。接口程序可实时核查省平台某时间段的数据上传量、成功量、失败量、失败原因;数据交换软件可实时核查某时间段省前置机的数据量、国家前置机的数据量,及两侧的交换数据比对。
3.2 中央范围数据库表交换模式
中央范围交易数据来源于各交易领域主管部委,特点是部委已完成校验治理,数据质量高,无须转换,但均需从互联网摆渡到政务外网,再经前置机交换至国家公共资源交易服务平台,部委侧和国家平台侧数据库类型不同但数据结构一致。针对以上特点,设计图4部委来源数据的库表交换模式。这种模式为库表的点对点交换,以数据源侧数据为准,接收方不做校验。
图4 部委来源数据库表交换模式示意图
该模式复用每个部委已配备的整合共享前置机和数据交换软件。通过配置库表交换任务,设置部委交换库、国家平台缓存库,开通数据传输端口,由实时插入部委交换库的数据触发交换任务,进行数据的自动传输。交换软件双侧表结构必须设置主键和交换时间字段。主键标识数据的唯一性,用以监测、定位核查;交换时间应设到秒级,是交换软件判断是否自动传输的标识字段,也是核对数据量的时间参考。
3.3 国家向地方共享数据的接口交换模式
数据下行共享时,国家平台向地方提供治理过的主体成交记录数据,质量高且完全符合规范。不同省、地市对数据的需求、用途各不相同,因此国家平台提供rest 接口服务模式,地方按需调用或者直接集成在系统中支撑业务。该接口服务支持地市级交易平台直接调用,也支持通过省级交易平台逐级调用,由国家平台控制资源使用方的日调用量和峰值,并监测接口运行情况。
4 数据交换共享的难点处理
4.1 交换共享的依据
数据规范是交换共享的依据和约束,适用于全国公共资源交易平台系统间交换共享交易数据[5]。为了保障数据的一致性和可用性,地方来源数据均需在上传前按照规范抽取约定的内容,完成格式的统一,如字段类型、金额单位、交易时间的转换,数值小数点的取舍等,只有通过国家平台按规范设置的校验规则,才能成功交换到国家平台存入基础库。数据规范体现出不同交易领域的业务特性,也具有不同交易领域的通用性和扩展性。
4.2 地方数据交换标识
为了标识地方数据的唯一性和来源省份、交换时间等特征,接口程序设计了由区域码、时间码、流水号共25位组成的数据交换标识码,其中二位数字组合表示31 省和兵团的区域码,用年、月、日、分、秒、毫秒共17 位数字表示数据传输交换的时间码,从000001~999999的六位数字构成不重复交换顺序码。除了交换标识作用,该码对于数据治理管理层、应用层的数据分类、统计、多维分析、分省业务判断等也具有重要参考意义。
4.3 部委数据异常定位
部委来源数据的库表交换模式中,通过跟踪数据量来判断交换过程正常与否,通过主键定位异常数据。交换异常的反馈集中在两个环节,一是部委侧跨网交换,网闸对于大对象的长文本存在传输失败现象,需要定时跟踪;二是监测环节中数据量不一致时,应从后往前核查,补充丢失数据。
4.4 数据安全要求
从来源层到应用层,数据安全贯穿始终。网络层面,所有数据的交换传输均通过国家电子政务外网完成,充分利用政务外网安全设备和策略保障。数据层面无敏感信息,交易业务数据均属公开范围,但当批量数据相互关联时可产生较大的业务价值,故在应用层采用了日访问量限制、每分钟访问量限制等反爬策略,若监测到某IP 地址访问次数达到上限,列入黑名单自动封锁三小时。
5 区块链交换共享模式的研究
5.1 区块链与公共资源交易数据的结合点
合理应用区块链的去中心化、防篡改等特点,可以解决交易数据交换共享中的确权或溯源问题,推动数据质量提升。然而,区块链的高资源消耗也应充分考虑。作为分布式账本技术,区块链要在链上多个节点的本地存储完整的历史数据,显然海量且冗余的交易数据,不宜都上链占用大量资源;数据上链时的签名、哈希计算、打包等,以及对应的解析、恢复等操作,计算开销也必不可少。所以,什么数据上链、上什么链、怎么结合已有基础设施是该技术应用的关键。
5.2 应用区块链的交换共享模式分析
结合交易数据特点,应选择有价值需求、有共享需求、有协同处理需求、有审计需求的数据按规范格式化处理后上链。因政务外网已有级联式网络,故采用基于政务外网的地市、省、国家三级组成的联盟链;鉴于交易数据的海量和区块链的高资源消耗,采用数据上行仍按原模式传输合并链上监测互验、数据下行根据链上需求开放共享的模式。
数据上行时,地方源头单位仅选择监测日志和增删改记录,将哈希值结合来源平台、签名打包上链传输,可完成数据的确权、追溯、变动、审核;链上日志点对点广播给对应省平台和国家平台节点,不做全链广播以减少网络负荷。数据下行时,将市场主体成交记录、交换日志的哈希值,由国家平台节点上链做全链广播,并将地方节点的共享需求与应用情况同步上链,方便数据按需流动和后期使用跟踪分析。这种模式将成本、效率和安全取得相对平衡。
6 结束语
截止目前,接口交换和库表交换模式已在全国形成稳定的数据动态更新和同步机制,交换收集公共资源交易数据量超2 亿条,按年涉及交易项目超100 万个、交易额超19万亿元、主体80万家左右,推动了全国公共资源交易数据枢纽为社会需求服务,以及交易数据要素在全国范围的流动,提升了公共资源交易业务协同效率。强化公共资源交易数据业务特征的交换共享模式,对于不同行业实现政务大数据的整合共享具有一定参考价值。随着区块链等新技术在交易领域的研究,提升源头数据质量的创新交换共享模式将会带来更多碰撞。