浙江数字化改革背景下公共数据在统计调查中的创新应用研究①
2021-04-15课题组
□ 课题组
|研究背景和现实意义
(一)课题涉及的几个主要概念
数字化改革是指统筹运用数字化技术、数字化思维、数字化认知,把数字化、一体化、现代化贯穿到党的领导和经济、政治、文化、社会、生态文明建设全过程各方面,对省域治理的体制机制、组织架构、方式流程、手段工具进行全方位、系统性重塑的过程,从整体上推动省域经济社会发展和治理能力的质量变革、效率变革、动力变革,在根本上实现省域整体智治、高效协同。
公共数据是指国家机关、法律法规规章授权的具有管理公共事务职能的组织以及燃气、水务、电力、公共交通、民航、铁路等公共服务运营单位在依法履行职责和提供公共服务过程中获取、产生的数据资源。
公共数据统计化是指利用公共数据辅助或完全替代政府统计调查,关键是在统计报表制度设计阶段将行政记录等公共数据确定为统计调查内容,并保持统计调查指标口径与行政记录一致。
(二)研究背景和现实意义
首先,公共数据融入现代统计数据生产体系已成为一个重要命题。党的十八届五中全会首次提出实施“国家大数据战略”,同年《促进大数据发展行动纲要》发布。“十三五”规划建议提出“实施国家大数据战略,推进数据资源开放共享。”《国家统计局大数据应用工作方案(2021年修订)》提出在核算、工业、能源、投资等领域广泛使用部门行政记录、互联网电子化数据等大数据作为常规统计调查数据的补充。这就提出了一个重要命题:如何将公共数据融入现代统计数据生产体系,实现与政府统计产品的高度契合。
其次,数字化改革为释放公共数据的“统计价值”创造了条件。随着浙江数字化改革的纵深推进,省市县数以亿计的公共数据向公共数据平台汇聚,为直接或间接应用于统计调查提供了可能。截至目前,已建立全省统一的公共数据资源目录,累计编制目录数据项178.3 万项。省公共数据平台累计归集数据761.7亿条,涉及医疗卫生、社保就业等20 余个领域。统一建设人口综合库、法人综合库、电子证照库、信用信息库、自然资源和空间地理信息库等五大基础库等。利用一体化智能化公共数据平台大数据分析处理能力,以提供数据接口和批量共享方式,累计共享调用数据471.98 亿次。同时,全省已开放1.88 万个公共数据集、57.4 亿条数据。
同时,公共数据统计化意义重大。主要表现为:有利于丰富数据获取来源,甚至替代传统统计调查方式,比如住户调查中,可以直接调取样本中低保户的低保补助收入;有利于依托行政记录验证基层统计数据,比如可以利用企业用电量等指标评估制造业PMI(采购经理指数)与相关经济指标的拟合度,有利于减轻统计调查负担,降低工作成本;如直接将行政记录用于统计调查,有利于提高数据的时效性;比如直接利用各地公共数据平台时时更新的房地产交易数据。
|统计调查对公共数据的需求以及现有获取方式
课题组对国家调查队系统承担的各个统计调查专业开展了问卷调查,经汇总和梳理分析,目前在统计调查各环节对公共数据均有需求,获取方式不一。
(一)统计设计对公共数据的需求
设定统计调查抽样框需要相关公共数据作为支撑。比如:畜牧业调查需要使用“农普”数据选定抽样框;住户调查和劳动力调查需要使用乡、村行政区划设置等数据选定抽样框;企业调查样本框更新和扩样需要使用名录库相关数据。此类支撑数据获取方式一般由相关部门直接提供或向相关部门索取。
(二)统计调查活动对公共数据的需求
一些公共数据可直接成为政府统计产品。比如:房地产价格调查直接使用住宅销售网签备案数据;政府定价或指导定价的规格品包括水、电、燃气、教育服务等价格数据是消费价格调查数据来源。目前,此类数据的获取方式一般有两种,一是由相关部门直接提供,二是通过调查员直接采集。
(三)统计数据评估对公共数据的需求
评估校验统计调查数据需要引进相关公共数据作为“因子”。如粮食调查数据评估需要使用耕地面积增减、规模户补贴发放等情况;现有住户调查评估办法引入GDP、“两项薪酬”等作为评估指标;工业生产者价格调查使用重要生产资料市场价格变动情况等评估价格走势。此类数据获取方式一般有三种,一是由相关部门直接提供;二是通过公共数据平台等查询;三是利用生意社、卓创咨询等网站收集的数据,比如大宗商品价格走势等。
(四)统计分析研究对公共数据的需求
统计分析时使用的公共数据种类较多,范围较广。比如住户调查统计分析常使用农村电子商务、培训岗位人数等数据;劳动力调查常使用城镇登记失业率、高校毕业生及就业情况等数据。此类数据既可通过公共数据平台、网站等各种平台查询,也可从统计年鉴、部门内部资料等获取。
|从公共数据平台获取统计调查数据的场景化运用
目前浙江省正全面打造并基本建成省市县一体化智能化公共数据平台。课题组以丽水市为例,选取部分调查专业的数据需求,在公共数据平台发起数据需求申请,测试数据获取路径,场景化探索公共数据在统计调查中的应用。
(一)住户调查相关数据获取可行性分析
分别选取公积金中心《住房公积金个人缴存信息》、税务局《个人所得税自行纳税申报信息(A表)》、医保局《职工医保年度账户信息》《医保待遇报销信息》共四个数据目录进行需求整理,经比对《住户收支与生活状况调查方案》(2021年)发现相关数据可进一步利用。公积金个人缴存数据目录中通过“个人缴存比例”和“个人缴存基数”测算出的“个人月缴存额”,可应用于“转移性支出-个人缴纳的住房公积金”的数据比对;个税数据目录中应纳税额、减免税额、应补(退)税额等指标,可应用于“转移性支出-缴纳所得税”的数据比对;医保数据目录中的医保支出费用可应用于“转移性收入-报销医疗费”的数据比对,通过与医保局工作人员对接,相关数据可按月统计。(表1)
表1 住户调查所需的部门数据情况
经与以上三个数源部门对接,均表示相关数据目录有归集数据,但由于获取的是个人账户信息,首先需要个人身份授权,后续还需通过部门内部审批流程才能确定是否能提供。常用的方式有两种,一是提供住户调查样本的身份证件信息,由数源部门定期将相关数据项进行推送;二是让数源部门开放相应数据查询接口,通过调用数据进行匹配查询。
(二)农业调查相关数据获取可行性分析
选取自然资源局、农业农村局、气象局等三个数源单位进行需求对接。
1.自然资源部门每年利用卫星遥感、云计算等技术,统筹利用现有资料,开展遥感监测,组织实地调查举证,更新县级国土利用数据库,形成年度国土变更调查成果(《土地利用现状地类图斑》),这一主题数据可以应用到耕地等基础数据核实中。根据保密要求,使用相关图斑信息需要签订保密协议,并按照规定使用。
2.农业农村局的种子目录如《种业直报-冬小麦种子生产供需情况调查信息》《春夏播种子企业备种情况统计信息》等数据可用于粮食产量监测调查关于粮食生产总体趋势变化评估等,且相关数据均可获取并使用。(表2)
表2 粮食产量调查数据评估所需的农业农村部门数据情况
3.气象局目前有《气象灾害预警信号信息》主题接口,可应用于粮食产量调查农情趋势评估,为粮食单产增减提供参考。该数据目录无条件开放提供,通过数据接口的方式自动推送至需求部门相应的业务系统。(表3)
表3 粮食产量调查数据评估所需的气象部门数据情况
(三)采购经理调查相关数据获取可行性分析
选取发展改革委、商务局相关数据目录进行需求对接。
1.《重点监测企业运行预期指数信息》主要为季度数据,该数据目录通过对重点工业企业开展问卷调查,形成相关统计数据和分析报告。该部门数据内容可用于采购经理调查趋势评估,相关数据可提供政府部门内部研究使用,但不对外使用。
2.商务局《商务经济情况表》中关于进出口总额指标有助于采购经理调查相关指数趋势评估,该数据目录为月度数据,可直接获取使用。
|获取并使用公共数据困难分析
(一)个人隐私数据的获取和保护是重要制约因素
虽然《统计法》对获取部门有关统计资料有明确规定,但是在实际操作中,仍存在不少困难。如《个人信息保护法》第二十三条明确:个人信息处理者向其他个人信息处理者提供其处理的个人信息的,应当向个人告知接收方的名称或者姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意。当前,数据的价值得到越来越广泛的重视,人们对个人隐私的重视程度也日益增加,如何界定统计部门可获取的数据范围,是公共数据创新应用的关键环节和难点所在。
(二)数据处理和数据共享的技术手段有待提升
一方面,各个统计部门自成“一派”数据采集处理结构方式影响数据共享。调查队系统除农民工监测与住户调查共用调查村(社区)网点外,其余专业均采用独立的调查方式以及填报平台,如同样是入户PDA 调查,月度劳动力、农民工等采用不同软件系统。统计局和调查队之间联网直报平台重复建设、数据未共享的问题更为突出。另一方面,统计部门与其他部门间未形成高效便捷的数据共享应用机制。如部门数据共享主要通过邮件、浙政钉等方式,未实现在线集中安全存放。
(三)部门间数据缺乏统一标准和可比性
各部门的统计分类标准、内涵、体系不尽相同,导致相关数据要求和统计口径不完全统一,造成数据互不衔接、公共数据无法有效利用。一是不同的取数方式、取数时间影响公共数据的利用率,如“重点监测企业运行预期指数”为季度指标,而PMI 是月度指标;二是不同调查方法、报送体系导致相关公共数据难以高效利用,如“种业直报-相关种子信息”数据来源方式与统计调查部门的抽样调查或取数方式不同;三是部门间数据上报时间不同,在数据利用时间上会有较大的滞后性。
|对策建议与展望
(一)建立健全法律法规,实现公共数据统计化有法可依
《个人信息保护法》第十三条规定:“为履行法定职责或者法定义务所必需的,个人信息处理者可以处理个人信息。”《统计法》第二十二条规定:“县级以上人民政府有关部门应当及时向本级人民政府统计机构提供统计所需的行政记录资料。”要从贯通这两个法律相关条款出发,以修订《统计法》为契机,赋予统计部门收集行政记录的资格、权利和义务,明确相关部门向统计机构提供个人信息等行政记录的内容和要求。
(二)强化统计顶层设计,修订完善统计制度方法
在统计标准方面,需各级各地各部门严格使用《统计分类标准和目录汇编》,构建跨部门、跨专业的“大标准”体系,将行政记录等转换为标准化数据,解决数据互通性、衔接性问题。在统计制度方法方面,要立足推动行政记录、文本、图像、音频等数据的统计应用,修订统计制度方法。比如,由政府定价或指导价的水电等价格,可修订制度方法,直接利用数据平台获取数据。
(三)紧扣公共数据安全,探索运用新技术新手段
一是探索开展匿踪私密查询。在使用个体身份信息从公共数据平台等外部数据平台获取相关数据时,运用不经意传输技术(Oblivious Transfer-OT)进行匿踪私密查询,实现隐私保护前提下,满足数据需求。二是强化公共数据的加密保护。如替换使用安全可靠的https 协议,使用商用密码对数据进行加密保护,实现传输过程数据泄露风险最小化。三是广泛运用多方安全计算、联邦学习等前沿信息技术,打消数据链的不同环节对数据归属、数据安全和隐私保护的顾虑。
(四)围绕数据一体化应用,构建综合统计数据应用平台
将国家及地方联网直报平台、省市县各级公共数据平台等各类数据平台,通过应用接口或多方安全计算等数据获取或分析处理方式,整合各级、各部门统计数据资源,通过联邦机器学习、人工智能等技术监控数据质量问题。实现以平台为依托统一各类统计数据口径,统一应用接口标准,一体化完成统计数据处理,并实现数据处理全链路跟踪,使各个处理环节更加标准化、规范化、制度化,提高统计数据的一致性、可靠性、重用性。
公共数据是一座“富矿”,统计调查部门应以推进数字化改革为导向,以建设统计大数据应用中心为契机,加快部署建设统计云。至2025年基本建成综合统计数据应用平台并与公共数据平台完成对接,逐步转变单纯依靠“我布置、你填报”的传统数据采集方式,部分数字化程度较高的统计调查专业优先实现完全的公共数据统计化;至2035年建成“统计标准全面统一、综合统计数据应用平台与公共数据平台互联互通、各部门各专业数据互相融合”的数字化、实时化、智能化数据采集共享系统,各统计调查专业全面实现公共数据统计化,统计工作方式从依靠有目的的调查采集全面转向对数据的分析挖掘。