APP下载

第五次全国经济普查数据处理工作前瞻

2022-02-06□吴

统计科学与实践 2022年6期
关键词:普查员普查数据处理

□吴 卉

经济普查作为一种全面统计调查,是一个由微观个体数据汇总成为宏观总量数据的调查过程。因此,经济普查的数据处理过程是值得重点研究的方向。本文以2018年第四次全国经济普查(下文简称“四经普”)为基础,深入剖析 “四经普” 在数据处理工作中存在的问题,认真研究新形势下经普数据处理工作面临的挑战和机遇,为即将到来的第五次全国经济普查(下文简称 “五经普”)数据处理工作提出建议。

|“四经普”数据处理中的典型问题

历次经普的数据处理方案和程序都是由国家局主导制定和开发,并在实践中不断完善。经过四次经济普查,数据处理工作在技术上呈现巨大飞跃,但也存在一些难题。

(一)数据处理组织模式有待优化

1.层级过多不利于下情上传。“四经普” 《普查数据处理方案》要求经普数据处理工作按照 “统一领导、分级负责” 的原则,在国务院经普办的统一领导下,由国家、省、市、县、乡五级普查机构组织实施。这种组织结构有利于上情下达,有利于国务院经普办领导各级普查机构按照统一部署完成本级数据处理工作,但在基层逐级向上反映问题的过程中,层级过多导致信息传递缓慢或失真的缺点就凸显出来。尤其在经普初期,数据处理各种问题较多,如若下情上传不畅,问题得不到及时解决,将不利于调动各级普查人员积极性,不利于普查工作的顺利推进。

2.部门协作未充分体现。经济普查需要编制、民政、税务、市场监管等部门协助提供相关行政记录,各级普查机构要与部门建立行之有效的沟通机制,才能高质量完成经普数据处理工作。然而,由于职责不清晰、分工不具体等原因,经济普查实际上是以统计部门为主,其他政府部门缺乏实质性的支持和参与。个别部门还存在协作意识淡薄的问题。例如,只提供了行政记录数据,却不提供数据结构的说明,统计人员接收数据后,要分析推测数据字段的含义,再与经普的数据需求作对接,延误普查进度。

(二)数据处理软件功能有待优化

国务院经普办统一组织 “四经普” 数据处理软件的开发工作,数据处理软件共5 套,每套软件又细分为多个应用系统,除了一套表单位数据采集处理系统在一直运行之外,其他系统几乎都是在 “四经普” 筹备前期开发的,未经长时间的运行优化,存在一定瑕疵。

1.PAD 端系统运行不稳定。从普查地图底册推送、单位清查、正式普查登记,再到事后抽查,PAD贯穿了经普周期的多个环节。如果前期调研不充分,PAD 上各类应用上线初期会存在很多问题,每个应用都要经历多次更新升级,随时都会有程序更新包推送到PAD 上。此外,系统测试时访问量不够多,未能对服务器造成真正的访问压力。试点时能正常使用的系统,遇到高峰节点就会出现响应跟不上的情况。系统设计不合理,稳定性不好,会给基层操作带来很多困难,增加基层工作难度。

2.PAD 端与平台系统数据衔接不够好。在普查区划分阶段,普查小区的电子地图需要先在电子地图系统中绘制,再推送到PAD 中去。如果电子地图系统中普查小区边界划分不准确,PAD 上会出现部分调查单位不在普查小区内的情况,导致普查员无法顺利采集数据。在正式登记阶段,PAD 采集软件中只加载了少量的审核公式,大量审核工作需要在数据处理系统中进行。采集的数据上传系统后,系统可能出现大量的审核错误,需要再次联系调查单位核实,引发调查单位的抵触心理,影响普查数据的质量。

3.资料开发软件使用价值低。经普资料开发时间较长,公报数据发布较晚,对政府和社会各界所关心的热点问题响应慢,利用经普资料进行分析研究的时效性较差。资料开发及分析软件汇集了历次普查数据,并向全国统计人员开放,数据量巨大,权限设置复杂,查询、汇总等操作难且响应慢,许多统计人员选择其他查询汇总工具,资料开发及分析软件使用频率偏低。

(三)数据处理硬件环境有待优化

1.PAD 设备型号各异,性能不佳。从三经普引入手持终端入户采集数据开始,至今有近十年的时间。经过反复使用、多次更新,普查员手中的设备型号各异,部分设备性能不佳。不同型号的设备在安装程序时可能会出现不同的问题;设备用久之后会出现电池不耐用、GPS 定位不准、内存不够大等问题。这些问题都会导致经普程序闪退或者死机。频繁发生的故障会消磨普查员的工作热情,降低工作效率。

2.基层电脑不达要求,设备更新缺少支持。普查区划分与绘图软件需要对地图进行渲染,对显卡有高要求;处理部门的海量数据,对CPU 和内存有较高要求。而多数基层统计人员的电脑只能应付日常办公,达不到经普软件运行的最低要求,容易出现卡顿或者不响应的问题。“四经普” 总体方案对基层数据处理环境没有明确提出设备的配置要求,没有文件方案的支持,各级统计机构在更新设备时如得不到财政支持,将影响普查工作进展。

|第五次全国经济普查数据处理的挑战

(一)调查单位数量成倍增长带来数据处理压力

随着 “放管服” 改革深入推进,新产业、新业态、新商业模式的不断涌现,市场主体数量爆发式增长,给经济普查带来了新的挑战。以无锡市为例,“四经普”时无锡市共有从事二三产业活动的法人单位24.69 万个,与第三次全国经济普查相比,增加12.02 万个,增幅为94.8%;产业活动单位为26.76 万个,增加12.78 万个,增幅为91.5%。单位数量的激增导致数据采集量的增长,对数据处理能力、存储能力提出新的要求,对统计基础设施承载能力带来巨大冲击。

(二)投入产出与经济普查整合带来数据处理压力

“五经普” 首次整合了投入产出调查,在普查软件设计、同步数据采集、跨表审核验收等环节既要确保两项调查一体化推进,又要兼顾两项调查的需求,体现出针对性和差异性,这也给经济普查带来新的挑战。“四经普” 共设计普查表式66 张,各普查表内需填报的指标少则十余项,多则百余项,且普查表指标复杂、表间逻辑关系紧密。投入产出表调查内容更细,数据指标更多,填报要求和审核要求更高。总体上看,整合投入产出调查,能够减少重复性工作,提高普查效率,实现总量数据与结构数据更好衔接;但对软件开发而言,报表数量、表内审核成倍增长,表间审核呈几何级增长。如何科学整合两项调查的数据处理工作,达到事半功倍的效果,对于数据处理组来说是一项新的课题。

(三)疫情防控与普查组织开展带来数据处理压力

2020 年,受新冠肺炎疫情影响,许多重大活动取消,如何在突发性公共卫生事件下安全开展国情国力调查,是 “五经普” 需要充分考虑的风险事项。普查员要逐户入企业进行单位清查和数据采集,各级经普办要根据疫情防控要求,充分估计可能发生的各种情况,提前制定风险预案,保障普查员在各种复杂的情况下安全履职尽责。数据处理组要充分调研,研究如何利用新一代信息技术优化单位清查和数据采集方式,在确保数据质量和信息安全前提下,为普查员提供更安全可靠、灵活便捷的数据采集渠道,确保顺利完成经普任务。

|第五次全国经济普查数据处理的机遇

(一)自主填报在第七次全国人口普查中应用给数据处理提供新借鉴

入户难,一直是普查中最大的痛点。第七次全国人口普查(下文简称 “七人普”)首次尝试引导调查对象通过网络自主填报,有效缓解了这一问题。传统的人口普查是通过普查员入户采集住户信息,算上摸底清查和正式登记,每个普查员至少需要入户两次才能完成数据采集工作。在正式登记环节,利用微信小程序,引导调查对象进行自主填报可以减少普查员的入户次数。无锡市部分街道 “七人普” 的自主填报率达80%,这既减轻了普查员的工作量,又减少了各类病毒交叉传染的可能性,保障了普查员的健康安全。

(二)部门行政记录广泛应用给数据处理提供新思路

随着数字经济的发展,各地在打造数字政府的过程中,积累了大量的社会经济数据资源。经济普查可以利用政府数字化转型的成果,运用大数据、人工智能等手段,基于名录数据,以社会信用代码为唯一识别码,与编办、民政和市场监管等部门的行政记录进行比对,确定经普调查单位的基本信息;利用税务和社保数据,确定调查单位的行业、规模及用工等信息;利用银行、平台等社会数据进行智能分析,生成精确的分地区经普清查底册,提升单位清查效率,保障调查数据质量,提高智能编码精度,为顺利实施经济普查夯实数据底座。

(三)新一代信息技术持续发展为数据处理提供新启发

传统的手工录入数据费时费力,给普查员带来很大的工作压力。可以利用图像识别和语义分析技术,自动识别财务系统中的会计科目和对应数字,并智能填充到PAD 数据采集软件中,普查员只需确认识别出的数字和填充位置是否正确即可,从数据采集的源头保证信息的准确性。在数据流入数据库的过程中,通过深度学习、智能分析等技术,完成对数据的分析和行业编码,并弥补缺失的信息。在数据库中,大数据可以将调查单位的主营业务、财务数据和用工数据等进行关联,构建广泛的调查单位关联网络,为后期深度挖掘经普数据价值提供坚实的基础。

|做好第五次全国经济普查数据处理的建议

(一)统筹兼顾,完善顶层设计,优化组织模式

1.统筹两项调查,科学制定数据处理方案。按照 “统筹组织实施方式、统一设计调查表式和业务流程、科学安排各专业分工合作、实现经济普查与投入产出调查一体化” 的设计原则,科学制定经济普查方案。方案要涵盖经济普查和投入产出调查的全部内容,既要保障两项调查指标的一致性,又要兼顾指标的科学性和可获得性,结合重点反映供给侧结构性改革新进展等要求,适度增减指标,尽量缩小上级复杂设计与基层填报水平之间的差距,提高数据的准确性和使用价值。

2.兼顾工作实际,优化数据处理组织方式。省级成立紧密型办公室集中办公,市级以下采用扁平化的数据处理组织模式,同时提高普查办对相关专业科室的牵头指挥力度。省级成立紧密型办公室,统一组织实施,确保基层接到的通知、答复都出自一个 “上级机构”。基层采用扁平化的组织模式,能够详细了解各种数据处理问题,并及时向上反映,有利于共享问题的解决,提高普查效率。

(二)充分准备,完善数据处理软件,改善硬件环境

1.充分测试,完善数据处理软件。完善的数据处理程序是保障经普数据质量的关键。要重视数据采集处理软件的测试工作。对数据处理程序做到早设计、早测试、早完善,尽力减少程序漏洞,提升PAD端应用的稳定性和流畅度,提高PAD 和平台间的数据衔接性能。不仅要解决能不能用的问题,还要解决好不好用的问题,提高经普数据的填报效率和数据质量。

2.提前准备,改善数据处理硬件。根据各类行政记录,科学估计经普的调查单位数及其行业结构和地区分布,提前统计各级现有的PAD 数量和型号,综合筹备PAD设备的采购和分发事宜。统筹各阶段数据处理工作的需要,充分估计经普的数据量,以集约、高效为原则,运用云计算技术构建数据处理节点的基础计算资源和存储资源,积极布置改善数据处理的硬件环境。

(三)利用先进技术,优化采集模式,挖掘部门数据价值

1.利用区块链技术,优化数据采集模式。通过程序向调查对象布置报表,再审核汇总是统计调查的主要手段,也是传统的 “我布置,你填报” 的数据采集模式。“七人普” 引入网络自主填报方式,丰富了采集方式,但没有从根本上改变这种模式。这种采集模式需要调查对象的高度配合,正确理解统计指标,并如实填报数据。随着区块链、云计算等技术的发展,越来越多的中小企业 “上云入链”,积极进行数字化转型。政府统计可以从“云” 和 “链” 中采集原始数据,形成 “你生成,我获取,你确认”的采集模式。这种采集模式,不存在指标理解和如实填报的问题,不依赖调查对象的配合度,能大大提高了统计数据质量。

2.利用大数据技术,挖掘部门数据价值。利用大数据技术,全面收集编制、民政、税务、市场监管等部门行政记录,各部门的数据相互印证,建立完整准确的普查对象信息库,为经济普查的清查摸底打下良好的基础。科学比对各部门行政资料,利用企查查、天眼查等便捷工具进一步补充完善相关指标,形成高质量的清查底册,提高清查效率。将重要财务数据嵌入到经普采集程序中去,对误差较大的指标作友情提示,提高普查数据质量。

(四)面向未来,贯通各统计应用系统,及时共享普查成果

1.重视资料开发,及时共享经普成果。每次普查都会形成大量的数据资料,分组详细、指标多样、结构完整,对未来经济社会发展的预判有重要价值。在经普资料开发阶段,要兼顾统计系统内外,尤其是参与组织实施的其他政府部门的需求,建立经普资料开发的应用规范。深化和拓展经普资料的应用开发,构建跨部门的数据共享平台,广泛动员社会各方力量深度挖掘经普资料,完善经普数据的开放渠道和共享方式,让相关部门和社会公众更加及时、便捷地共享经济普查成果。

2.面向未来发展,贯通各统计应用系统。数据处理工作不仅要立足当前任务,更要放眼长远发展,将各个统计应用系统融会贯通,做好本次普查与下次普查的衔接、当前建设与长远发展间的衔接。打通各个系统之间的数据关联,不仅可以为后续的普查以及常规调查提供强大的数据支撑,最终可以构建全国统一的统计数据大平台,更好发挥统计部门的 “智库” 功能,为经济高质量发展提供强大的统计数据服务支撑。

猜你喜欢

普查员普查数据处理
立即全面普查 警惕二代粘虫发生
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
胡春华强调:确保脱贫攻坚普查取得圆满成功
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
游戏
经济普查工作中普查员职权实现的若干思考
关于农业文化遗产普查与保护的思考
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
学习调查要“四会”
3个女儿的年龄