从基础信息载体建设谈大数据产业发展
——基于第七次人口普查的大数据发展研究
2020-03-01陈宗智
●陈宗智 孔 环
实事求是、改革创新、科学设计、精心组织、周密部署、依法实施,以确保第七次全国人口普查数据真实准确,更加全面客观地反映我国人口发展状况。这项工作涉及面广、工作量大、时间紧、任务重,其具体实施离不开统计技术和统计手段的部署,更离不开大数据的应用。若基础数据载体建设完善、更新及时、输出便捷,不仅使人口普查这项工作节省人力、物力、财力,更有利于地方政府管理机能、政策决策,也有利于大数据产业的发展。
一、基础数据和数据载体的现状
目前,部分数据信息的取得较为廉价,大多数人和机构也都没有意识数据信息是一项有价值的资产。即便是觉得某些数据信息有一定价值,也因为没有这些信息数据的存储载体而流失或不被重视。大数据在大数据企业已经是一项不折不扣的资产,那么,资产的“外购”或“自制”均应会支付或者耗费一定的货币或者经济利益。
例如:几十元、上百元人民币就能够从非正规渠道取得数以万计的姓名、性别、地址、电话等信息,甚至是企业名称、开户银行、工商登记等信息。与其对应的是个人和一些组织无意识或者无奈地对外泄露这些信息,例如:各式各样的注册、验证、登录时信息填报;户口本、身份证、营业执照复印件满天飞。
二、从大量数字到数据信息的积累
数字不是数据,数据也不是大量数字,大量数据也尚不能界定为大数据。例如:2010 年我国老龄化人口占比12%,约1.5 亿老龄化人口,到2030 年我国老龄化人口程度将超出日本成为全球最高。这句话告诉我们一条完整的我国老龄化人口信息。12%的比例是一个社区、一个城市、一个省份到整个国家一个一个数字统计而来,1.5 亿的庞大数字如果不能放在整句话中,也就没有意义,仅仅是一个数值。即使是上面一整句话也只能是一条信息。那么,如果我们把构成1.5 亿数字的每一条信息积累下来,输入不同行政级别和不同大小的数据处理载体,便是很好的大数据“原材料”。然而,我们在普查这些数据信息过程中,特别是前几次人口普查我们的基层组织并没有系统地留存。第一,我们没有留存的意识;第二,我们没有留存的“仓库”;第三,即便是留存了,也因为散乱而没有价值。
三、从数据信息到结构化数据的整理
数据信息本身是散乱的、扁平化的、非结构性的,例如:我们在人口普查时,从派出所户籍中心导出的区域内户口信息,本身数字庞大,又包含了姓名、性别、年龄、身份证号码、住址等辅助信息,可以称之为数据,甚至在某种程度上可以称之为大数据。但是这些数据信息如果用于人口年龄层次;流动情况,亦或就业率计算;是否需要放开二胎、三胎;理解居民收入等,其利用价值仍然有限。其原因是户籍资料是非结构性的数据信息。要么不包括调查的内容;要么没有进行结构化数据处理。如果将非结构化数据依据不同的统计目标,链接相关联的数据信息,从多维度进行整合分析处理,使其达到结构化。再借助互联网嫁接到人工智能终端,便是我们传统意义上的大数据。
四、信息载体建设与大数据产业发展
若实现基础数据共享,所有的基础数据信息要有各自的载体,也就是数据储存设备,哪怕仅仅是一份调查报告,使基础数据信息成果化。然后就具备了将成果化的数据信息推向商业化通道的条件,进而初步形成大数据产业链。
就第七次人口普查来说,我们需要普查的信息如果能够将不同级政府、部门、机构、组织已经掌握的基础信息“拿来主义”,完全能够满足普查需要,可能就不需要全国范围“入户”这一项繁重、复杂、的工作,仅需要部分住户核查即可。
每一位个人、每一个单位都将其掌握的基础数据信息进行载体存储,载体形式可以是一份调查报告、一张EXSLE 表格、一套数据集成,亦或数据处理系统。然后依托当地的大数据企业或者大数据产业局室,让这些载体内的成果“产品化”。辅助以大数据资产评估、定价、监管,在交易平台上以规范的交易流程进行大数据资产商品化流通。那么,整个社会就对数据化信息从意识形态上发生改变;尽管基础数据信息的取得不再廉价,但是取得的数据更加规范、更有可利用价值,势必推动整个大数据产业的发展。