大数据黄金期仍存在多重“羁绊”
2019-08-24邓鸿雁
邓鸿雁
“我国大数据产业正在从起步阶段步入‘黄金期,2020年中国有望成为世界第一数据资源大国。”权威数据显示,预计2020年我国大数据市场规模将超过8000亿元。在行业应用中,工业大数据的占比将达到6.64%。但大数据发展的“黄金期"仍然存在着多重“羁绊”。
阻力日渐明显
“随着大数据战略的深入实施,信息壁垒、标准缺失、无法可依、人才稀缺、应用不足等问题越来越成为困扰大数据产业健康发展的重大障碍。”全国政协委员、民盟无锡市委主委、无锡市副市长高亚光接受媒体记者采访时表示。
笔者通过对公开资料梳理发现,我国大数据发展存在的主要羁绊有如下几点:
首先,信息壁垒有待突破。中国工程院院士孙家广认为,大数据产业发展具有极强的技术和信息依赖性,由于我国大数据产业起步滞后以及基础条件不够成熟,其在快速发展的同时面临的困难也日渐显现。其中一大难题便是,信息壁垒降低了大数据产业资源配置效率。大数据产业发展必须实现数据信息的自由流动和共享,如果数据不开放、不共享,数据整合就不能实现,数据的价值也会大大降低。
公开资料显示,我国信息数据资源80%以上掌握在各级政府部门手中。近年来,在《关于推进公共信息资源开放的若干意见》《政务信息系统整合共享实施方案》等文件的推动下,政府部门也在积极探索数据共享方案,加快了政府数据共享开放的步伐,惠民成绩单亮点不断。然而,由于我国大数据发展还处于起步阶段,不少基础性、关键性数据仍被政府部门束之高阁,共享开放程度低,这已经成为现代化治理进程中的“路障”。例如,据贵阳大数据交易所有关人士透露,不少企业以保护商业机密或节省数据整理成本等为由,不愿意交易自身的数据。而且部分政府部门也缺乏数据公开的动力,有的是因懒政而让数据沉睡,有的则是已经利用数据开展商业化应用,不愿意共享。
另据媒体报道,长江上游地区一些省份的交通管理部门、运输公司不愿与其他省(区、市)共享物流信息,造成联运衔接的信息壁垒,甚至出现同样1吨货物,100公里公路运费比经济发达地区高出60元的现象。
据了解,截至2016年底,广东省全省87个省直部门有6988类数据资源、62332项信息项,居全国各省(区、市)首位。但各部门提出的共享需求仅3649类,省级编目共享仅477类。数据难以真正发挥利民惠民、支撑政府决策的作用,菜鸟和顺丰的“数据断交”事件就暴露出大数据发展中的数据共享难题。
其次,标准缺失。尽管部分数据已接入共享开放平台,但由于缺乏统一标准而不能被系统或机器读取,成为无法释放应用的“休眠数据”。由复旦大学等机构联合发布的《2017中国地方政府数据开放平台报告》显示,截至2016年4月,全国19个地方政府数据开放平台的8398个数据中仍有约25%的机器可读性较差。据贵州省大数据发展管理局相关负责人介绍,部分政府部门在数据收集的过程中,由于缺乏统一的标准,收集到的数据虽然量大,但质量不高,可利用价值低。
“理论上我国有很多数据,但实际做数据分析会发现利用起来非常困难。”中国科学院院士、北京大数据研究院院长鄂维南表示。
第三,技术创新滞后。我国大数据产业虽然与国际大数据的发展步伐几近相同,但是仍然存在技术及应用滞后的差距,在新型计算平台、分布式计算架构、大数据处理、分析和呈现方面与发达国家仍存在较大差距,对开源技术和相关生态系统的影响力较弱。在市场上,由于国内大数据企业技术上的不足,用户更加青睐Google、IBM、Oracle、SAP等国外IT企业。
微软大中华区董事长兼CEO柯睿杰认为,数据智能并非那么触手可及。大数据来源众多、数量巨大、形式各异,要从中获得一目了然的信息,就需要真正高效、可靠的数据管理和分析平台。
鄂维南说:“中国的数据体量特别大,比如,中国推出的视频比任何国家都要多,这些数据的储存较困难,需要用的时候往往就没了”。再以基因测序领域为例,中国每年新增的基因组测序原始数据已超过20PB(1PB相当于100万GB),面临数据量大、数据处理流程长等技术挑战。
《大数据产业发展规划(2016-2020年)》指出,我国发展大数据具有强劲的应用市场优势,但是目前还存在应用领域不广泛、应用程度不深、认识不到位等问题。
“我国大数据在底层技术上和国外的差距特别大,技术都来源于谷歌等国外大公司。”国务院发展研究中心信息中心研究处处长李广乾不无担忧地说,“很多时候我们的商业模式走在了技术前面,但并没有通过技术手段来推动创新。”
第四,行业应用不深入。赛迪顾问股份有限公司大数据产业研究中心提供的數据显示,互联网、金融和电信三大领域的大数据应用在各行业总规模中的所占比重超过70%;健康医疗领域和交通领域近年不断“上架”新应用,但行业规模占比相对较小;而在其他众多民生领域,大数据应用仍处于浅层次信息化层面,行业发展水平参差不齐。
“目前,大数据在多个行业尚未与业务实现深度融合,应用场景创新不足,大数据技术人员需要提升行业业务知识和经验。”百分点首席数据科学家杜晓梦表示,国内很多行业仍仅在局部业务上使用大数据技术,仅今掌握的是数据挖掘和分析技术,如不能将技术与业务全面、深度地融合,则无法完全发掘出数据应用的真正价值。
第五,安全管理薄弱。数据安全管理薄弱增加了大数据产业的发展风险,数据安全和隐私保护是大数据产业发展的世界性难题,这主要体现在三个方面:一是数据的海量存储增加了数据安防的难度,可能造成大量数据损坏或丢失,造成难以想像的后果。二是在大数据时代,数据的多元性和复杂性要求人们形成更强的安全意识,但现实中不论是企业还是个人的安全意识还没有从传统的非信息时代转变过来,存在巨大的潜在风险。三是网络攻击带来了数据安全风险,随着大数据在政府、金融、公共事业等领域的广泛运用,数据泄露带来的损失远远超出行业范畴,甚至是全局性的国家安全问题。
目前,我国保护大数据安全的能力十分有限,加上大数据安全法律法规缺失、网络信息管理体制存在缺陷等问题,大大增加了我国大数据产业的发展风险。
第六,产业生态体系存在短板。这一问题阻碍了大数据产业链和产业集群的形成。产业健康可持续发展的一个重要特征就是形成了完整的产业链条和多层次的生态体系。我国大数据产业仍处于起步阶段,其主要体现为:各领域大数据企业分散现象普遍,产业发展、政策、平台、创新、环境等不协调,大数据企业之间分工不明确、交流合作不足、协同力度不够,大数据行业协会、产业联盟发展滞后。
第七,人才不足。清华大学计算机系教授武永卫表示:“未来3至5年,中国需要180万数据人才,但截至目前,中国大数据从业人员只有约30万人。”
大数据行业选才的标准也在不断变化。初期,大数据人才的需求主要集中在ETL研发、系统架构开发、数据仓库研究等偏硬件领域,以IT、计算机背景的人才居多。而随着大数据往各垂直领域延伸发展,对统计学、数学专业的人才,数据分析、数据挖掘、人工智能等偏软件领域的需求在加大,但这方面的专业人才却相对匮乏。
专家支招解套
高亚光委员建议,要从五个方面发力破解大数据产业发展难题:
一是要加快大数据立法进程。围绕当前大数据在政务服务、社会治理等领域的应用需求,尽快出台相关法律法规。例如,对电子证照、数据权属、数据的采集、开放和使用等方面进行立法,对电子证照以法律地位,对数据进行确权,规范数据的共享、开放和使用。为大数据产业健康良性发展营造良好的法制环境。
二是要建立大数据标准体系。当前各地都在建设城市级大数据中心,其中,人口、法人等基础数据库是城市大数据应用的基石。建议国家尽快出台相关基础数据库的标准规范,为在更大区域范围内实现城市间的数据共享交换打下统一的标准基础。
三是要建立大数据上下协同机制。目前,从国家到省,信息系统的垂直化趋势越来越明显,数据资源逐步在向上集中,市级层面难以获取垂直部门的数据以及公共事业领域的相关数据。建议国家层面制定相关规范,明确数据要在市级层面落地,打通数据共享渠道,支撑好城市级大数据的应用。
四是加快推进数据开放进程。目前,国内50多个省(区、市)建立了数据开放平台,但因无法规和政策支持,开放数据的质量都不高。建议尽快出台相关数据开放共享的规章制度和指导意见,提升开放数据的质量和实效,鼓励社会力量利用开放数据进行应用创新,降低企业数据获取成本,支撑产业发展。
五是要加强大数据人才培养。人才保障是大数据发展的关键,目前,我国大数据人才缺乏,根据TalkingData提供的调研数据,到2025年市场上数据人才缺口将以百万计,主要以数据科学和数据分析人才为主。为此,建议国家进一步加强大数据相关人才的培养。
为了克服困难、促进我国大数据产业的健康发展,中国科学院院士、北京理工大学副校长梅宏提出应从四方面优化产业政策,以化解大数据快速发展的羁绊:
一是完善大数据产业发展战略规划,优化产业布局。实践表明,新兴产业如果缺乏科学理论指导,就容易出现盲目发展、重复建设、同质竞争等问题。为此,我国应尽快优化对大数据产业的战略规划,明确方向和重点,制定长、中、短期发展目标,完善投融资、知识产权、利益分配等方面的政策,为大数据产业创造良好发展环境。
二是依托大众创新创业优化大数据产业发展环境。大众创新创业有利于增强创新驱动活力、拓宽创业渠道、优化创新环境、促进中小企业发展、优化产业结构等,这无疑是解决大数据发展创新技术受限、企业竞争不充分等问题的有效途径。
三是加强大数据共享平台和安全保障体系建设。在数据共享方面,应尽快制定和出台《公共信息资源开发共享管理办法》,以法律形式规定公共信息资源开放共享的内容、程序、标准等,并在此基础上建立公共信息资源共享网站,形成共享服务体系。在數据安全方面,应完善国家数据安全法律法规,同时加强网络安全基础设施建设,建立和完善大数据安全应急机制,从而大幅度降低大数据风险。
四是实施融合发展战略,构建大数据产业生态体系。这里的融合发展既包括大数据与其他产业的融合,又包括大数据企业与政府、社会组织的融合。大数据要形成完整的产业链和生态体系,需要众多产业的支撑。因此,构建大数据产业与其他产业发展的联动机制,组建全国性、区域性的大数据产业联盟,加强大数据产业链各个环节企业的合作,显得尤为重要。
清华大学新闻与传播学院教授沈阳表示,目前国内的大数据应用侧重于数据收集上,在基础统计分析、风险感知和预测方面还有较大提升空间。同时,也不能在尚未明晰具体业务应用场景的情况下盲目追求大数据,而要以应用场景为牵引,只汇集不分析或者片面追求大而全都不利于让大数据发挥其对生产力提升的促进作用。此外,在大数据广泛运用于创新创业、政府管理和民生服务等方面的同时也应认识到,大数据对社会的冲击有多大,社会对于大数据发展的回应、规范和约束就应有多大。