APP下载

让文字化为数据让数据助推监测
——统计调查文字数据化路径初探

2020-11-16曹海波

统计科学与实践 2020年8期
关键词:报表编码文字

□曹海波

统计数据是统计工作活动过程中所取得的反映国民经济和社会现象的数字资料及与之相联系的其他资料的总称,除了最直观的统计数字、统计图表之外,与各类文字、说明情况等也直接相关。以笔者从事的工业生产者价格调查为例,月度报表中企业填写的出厂、购进产品规格价格超限(波动超过5%)说明,信息量就在200 条左右,如何充分发掘这些文字信息的效用是本文尝试研究的内容。

文字化为数据的意义

量化一切,是数据化的核心,也是大数据时代的基石。统计工作中接触的各类文字说明,由于文字表述的复杂性、表达方式的不统一,记录方式的多样化、多次记录甚至是重复记录等因素,会给统计人员在运用这些信息时增加明显工作量,在准确关联这些信息时把握前后逻辑的一致上造成困扰。将文字化为数据,本质上是剔除文字说明中的主观因素,提取核心客观因素的过程,如同已经存在的企业名称对应统一社会信用识别码、企业所处的地址对应的行政区划代码、企业所处行业对应的统计行业代码等,可视为统计工作与大数据时代进一步接轨的尝试,可更好地履行统计监测职能,提供更为优质统计服务。

一是可归类、可比较。文字数据化可以直观地归类汇总问题、监测趋势,通过统一分类和编码寻找同地区、同行业之间共性问题和趋势,推动不同行业间共性问题和趋势的归类互认;通过统一分类和编码寻找跨地区、跨行业之间的个性问题、不同趋势,推动个性问题、不同趋势在跨地区间、跨行业间的比较。

二是可监测、可回溯。文字数据化可以强化数据核查力度,综合了解企业生产经营状况、原材料购进价格与出厂价格波动之间的联系、市场需求等方面存在的新情况和新问题,以及产品价格变动趋势、政策变化对企业的影响等情况,准确掌握规格品的价格变化动向及真实原因。对同企业、同行业的产品价格波动原因进行长期监测,进行深入研究,进而摸索产业链上价格传导机制。

三是可拓展、可创新。文字数据化有利于开展大数据分析运用,发掘统计调查中各种文字说明的更大作用。在大数据环境下,数据的价值不仅仅是特定目的的使用,更大的价值在于数据创新,在于这些数据的再利用、重组、扩展创新出的新用途。例如商店里的监控器,最开始的初衷是监视扒手。但是后来可以通过跟踪客户流和他们停留的信息,设计店面的最佳布局并判断营销活动的有效性。

文字化为数据的初步尝试

(一)TF-IDF 算法提取确定关键词,并给核心词编码

整理汇总近几年月度报表说明,通过TF-IDF 算法进行关键词提取。TF-IDF 算法:用于反映一个词对于某篇文档的重要性。滤掉常见的词语,保留重要的词语。如果某个词在一篇文档中出现的频率高,则TF 高;并且在其他文档中很少出现,则IDF高。TF-IDF 就是将二者相乘为TF*IDF,这样这个词具有很好的类别区分能力。在jieba 用以下代码实现(图1):

将通过算法提取的关键词进行进一步筛选。并按照性质进行分类。我们暂且把企业的说明情况(Ni,i 为从1 开始的自然数,下同)假设为三维模式,即造成价格波动的原因(bi)、原因的存续时间(ti)和造成价格波动的结果(ri)。价格波动原因类的“订 单”“上 游”“需 求”“市 场”“终端”等,原因的前序时间“上月”“今年以来”“上季度”等,价格波动结果的“上涨”“上升”“下跌”“下降”等。当然,也可以进一步增设维度,比如价格波总结果的影响范围、影响预期时间等等。

图1 代码

(二)find函数提取关键词

FIND (find_text,within_text,start_num),其中括号内的“find_text”表示我们要查找的字符串。“within_text”表示要超找的区域,也就是需要在哪个单元格内查找“find_text”;“start_num”指定开始进行查找的字符数。比如“start_num”为1,则从单元格内第一个字符开始查找关键字。如果忽略“Start_num”,则假设其为1。具体结果(见图2):

图片中,数字“1”、“20”、“50”分别代表在文本中第1 个字符开始出现“今年以来”、第20 个字符开始显示“需求”、第“50”个字符显示“下降”。

(三)进行编码组合

每一条情况说明对应的数字化编码为Ni,Ni=bitiri,(见图3)

图片中,序号1 的文字说明对应编码为t1b1(b4)r2,解读成“今年以来的需求(终端)原因导致价格下降”;序号2 的文字说明对应编码为t1b1(b5)r2,解读为“今年以来的需求(市场)原因导致价格下降”。

以工价专业为例的当前可应用范围和局限性

(一)当前可应用范围。

一是同报表跨期限的文字说明整理。由于文字表述的复杂性,同样的问题说明由不同的人员来提供会出现不同的表述,有效的核心信息往往隐藏在较长篇幅的大段文字中,转化成数据的形式可以有效地剔除无用的信息,以最高效的方式提供核心信息。拉长时间跨度来看,以标准的数据化形式出现的每月报表说明中的核心信息,有利于统计人员汇总、比较,发现运行趋势。

二是跨报表运用。通过统一的编码将同一企业不同报表之间的文字情况进行标准化关联,更加容易审核、把握、厘清其中的逻辑关系,把握好企业、行业的运行态势。工业生产者价格调查中,与企业相关的文字说明除了月度的超限说明以外,还有很多其他渠道,比如日常与企业的数据核实记录等等,通过将文字编码化处理,将同一企业不同来源、不同表述的文字进行标准化,可以起到印证参考的作用,也更便于发现前后逻辑不一致的情况。

(二)局限性。

一是文字说明源头的精确性把握。本文所讨论的文字说明的主要来源为企业人员提供的素材,精确性目前依然有所欠缺。一方面在于统计人员对市场情况不够了解;另一方面在于企业统计负责人没有对每期报表进行过问审核,价格变动趋势是否符合市场规律及市场行情,报表数据审核工作有所欠缺。企业对统计工作重视不足,审核工作仅限于程序中简单提示审核,对价格数据超限的说明,描述简单没有深入挖掘,不能做到对于每个审核背后存在的问题进行审核,不能详细说明价格变动的原因。

二是代表性和推广使用问题。从苏州的工业生产者价格调查来看,月度需要填写超限说明的产品数量占全部调查产品的比重10%左右。对此类文字说明进行数据化编码虽然可以更为直观地对同企业、同行业的产品价格波动原因进行监测,但是无论从样本的代表性和当前的技术手段来看,所起到的作用仅停留在与指数中的行业趋势、与行业所处的市场趋势相互印证。实效性有待更多跨报表关联使用甚至是跨专业使用后的结果检验,这就需要大数据技术在统计部门的进一步推广应用。

图2 关键词

图3 编码组合

拓展运用的一些想法

一是夯实业务基础。将统计调查信息、企业报表与价格数据质量联动研究,发现苗头性问题及时开展有针对性的专题调研,带着问题访问企业,同时搜集鲜活资料,对有关经济数据进行深入解读,揭示经济运行中的矛盾和潜在问题,不断提高对宏观经济形势的分析研究和预测预判能力。

二是增加统计调查服务供给。统计调查的原始资料是大量的数据和素材,要反映出潜在的问题,解释出问题的实质,就要将专业知识与工作实践进行有机结合,从全局出发,抓住重点、热点、难点,运用专业统计分析方法,进行“去粗存精,去伪存真,由此及彼,由表及里”的统计分析过程,从中发现问题,找出规律。积极主动向党政领导汇报情况和问题,提出解决问题的合理化建议或措施,从而使统计调查由事后反映变为事前预测分析,提供常态化决策参考。

三是拓展大数据技术、大数据思维的应用范围。“统计大数据就是统计,是新时代、新时期和新的技术条件下的统计。”大数据时代就在当下,统计系统要推进以大数据运用为核心的统计信息化体系融合,加强对现有统计数据资源资产化管理和大数据挖掘分析应用,强化系统整合、数据融合、服务集合,推进数据采集整合、综合应用、关联分析和安全管理,促进政府统计数字化转型,为建立统计大数据奠定基础。

猜你喜欢

报表编码文字
生活中的编码
文字的前世今生
热爱与坚持
《全元诗》未编码疑难字考辨十五则
当我在文字中投宿
子带编码在图像压缩编码中的应用
Genome and healthcare
镇长看报表
月度报表
种出来的“逍遥居”