大数据技术探索“四众”企业单位查找方法研究
2017-08-09张海均
张海均
(四川省统计局,四川成都610041)
大数据技术探索“四众”企业单位查找方法研究
张海均
(四川省统计局,四川成都610041)
近年来,新业态、新模式蓬勃兴起,众创、众包、众扶、众筹(以下简称“四众”)快速涌现,四川利用大数据技术查找“四众”平台企业,以此作为调查对象,使用多维数据建立相关统计分析和算法模型,精准识别“四众”企业,并及时锁定、补充、佐证调查结果,为应统尽统“四众”平台企业作了有益的探索。
“四众”企业;大数据技术;统计分析;算法模型
按照国家统计局《新产业、新业态、新商业模式专项统计报表制度》的要求,借力四川运用大数据技术开展“三新”统计的探索,四川在全国首创开展了运用大数据技术精准识别“四众”企业单位查找的专项研究,丰富和拓展了新经济数据采集渠道,成效明显。
1 问题的提出
近年来,四川省基于互联网的新业态、新模式蓬勃兴起,“四众”快速涌现。作为新经济的重要组成部分,其具有分布广、规模小、变化快等特征,呈现大众化、规模化、井喷式发展之势,正在成为创业创新重要支撑平台。要想掌握新经济发展情况,传统的调查单位查找和数据层层上报、逐级汇总的统计方法难以及时、准确、全面和有效地反映新经济业态,探索科学反映“三新”统计调查方法是大势所趋,也是国家局布置的重要改革任务。
2 解决方案
此次研究以四川省成都市为例,以按制度方法确定的207家“四众”平台企业为参考样本,提出了精准识别“四众”企业的解决方案,具体包括以下3点:①针对提供众创服务的企业,设计大数据算法模型,在线上采集企业数据验证模型,通过模型能够准确覆盖已有的众创平台,并预测出一批疑似众创的平台企业,有效弥补了线下人工调查缺失部分;②针对提供众筹、众包服务的企业,利用数据爬虫技术收集和筛选大量网站信息,完成众筹众包平台网站的数据源采集和精准识别,并利用大数据处理技术清洗和整理数据,构建数据统计需要的数据表结构,建立统计行业数据仓库;③针对提供众扶服务的企业,更多是在线下开展活动,暂不具备大数据识别查找条件。
3 初步成效
3.1 开辟了查找、识别众创企业的新路径
根据国家统计制度整理出一批有效的爬虫关键词,通过网络爬虫技术抓取各类网站数据,整理企业名称、企业经营范围、企业类型、企业地址和企业存活状况等信息。运用大数据清洗技术,清洗线下人工调查的“四众”企业数据和爬虫技术取得的全部数据,提取众创平台企业的特征词库。运用综合评分法进行企业评分,得分越高,企业提供众创模式的概率越大,再运用交叉验证法检验数据预测的准确性,通过迭代优化和机器学习等方法进一步优化、完善潜在众创企业名单,提高预测的准确率。
通过与成都市线下人工调查企业数据的比对,大数据预测准确率为72.1%,部分企业名称和主营业务范围不含“四众”特征词的企业不能预测。通过对大数据预测的970家成都市2016年潜在众创企业(不包括2015年线下人工调查部分)进行初步人工调查,能够短期内线下找到的有500家,占51.5%;能够明确判定为众创平台的有115家,占23.0%.由此可以看出,大数据技术开辟了查找、识别众创企业的新路径,使成都市众创平台企业数由146家增至214家,解决漏统68家,漏统占比46.6%.众创解决方案整体思路见图1.
3.2 为辅助统全统准众包、众筹企业提供补充
利用关键字搜索引擎找到与众包众筹企业相关的网站,人工调研、整理出相关网站列表。以行业类的主流平台为参考依据,找到参与众包、众筹的服务商库,根据网站提供的详细信息,结合爬虫技术,对众包、众筹企业信息进行抓取。在实际工作中,利用大数据处理技术将采集到的非结构化数据转化为结构化数据,对于数据质量较差的数据源进行数据整理和清洗,以获得众筹众包平台企业的相关数据。众筹众包解决方案整体思路如图2所示。
图2 众筹众包解决方案整体思路示意图
利用大数据技术爬取全省2016年众包企业初步名录212家、众筹企业初步名录64家,分别比2015年线下调查多了34家和46家,解决众包企业漏统占比16%,众筹企业漏统占比71%.大数据技术使得四川省的调查结果更加符合全省创业创新支撑平台总体发展水平,为辅助统全统准众包、众筹平台企业提供了强有力的补充支持。
3.3 改进了“四众”企业数据采集和处理方式
大数据技术为新经济统计提供了一个信息系统,在国家制度框架下开展数据采集,能够消除线下统计数据质量的差异性,及时处理存在的数据冗余、空缺、错误、更新不及时等问题,并能不断优化数据取舍,提高统计数据质量。大数据技术能够精准识别众创、众包、众筹平台企业的基本名录信息,明确初步调查对象,减轻基层统计工作的压力。同时,在实际工作中,相关人员不断对算法进行迭代优化,使得模型更加合理、有效。
4 制约因素
“四众”企业存在跨界、融合、共生、渗透等情况,但是,现行国家制度范围的界定还不够明确,导致算法模型在企业分类过程中没有统一的标准,覆盖率还不够高。因此,大数据技术并不能替代线下人工调查,只能作为补充和参考。
部分企业为了获得政府补助,随意确定企业名称、经营范围等,人为增加创业创新支撑平台特征词,但实际并未提供“四众”服务,扩大了潜在企业数据库,为线下人工入户调查增加了工作量。
受现行工商登记制度的影响,部分企业搬迁、注销、死亡,未在工商部门和企业信息网报备,从而为精准识别“四众”企业增加了难度。
5 结束语
在日后的工作中,相关部门要进一步吃透国务院关于构建创业创新支撑平台有关部署精神和国家统计局“四众”企业统计制度的要求,进一步明确“四众”企业统计范围、测算方法等指标,提高线上、线下统计调查工作的准确性。
在已有算法和模型的基础上,建立大数据采集和分析信息系统,完善大数据处理过程的自动化和一体化流程,真正实现对“四众”企业的精准识别。同时,积极推广运用取得的成效,推动大数据技术在各专业统计工作中的运用和实践。
[1]王丽平,刘小龙.价值共创视角下众创空间“四众”融合的特征与运行机制研究[J].中国科技论坛,2017(03).
[2]陈茫.基于大数据的信息生态系统演变与建设研究[J].情报理论与实践,2015(03).
〔编辑:白洁〕
F276.44
A
10.15913/j.cnki.kjycx.2017.14.068
2095-6835(2017)14-0068-02