大数据应用及相关财税思考
2013-03-27孟宪民
孟宪民 李 磊
(1.辽宁省财政科学研究所,沈阳 110002;2.中国石油天然气管道局,廊坊 065000)
一、引言
美国社会思想家托夫勒将大数据称作是第三次浪潮的华彩乐章。大数据以其广泛的潜在应用需求和可以展望的巨大经济社会效益,正成为继云计算、物联网之后信息技术领域的又一热点,已经在社会经济各领域产生深刻影响。被誉为“大数据时代预言家”的维克托说过,“世界的本质就是数据,大数据将开启一次重大的时代转型;大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。从因果关系到相关关系的思维变革才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心”。
大数据从字面理解,泛指巨量的数据集。诞生在20世纪70年代的数据库是小型的、单一孤立的,基于小范围的抽样样本统计,而大数据则要求穷尽一切相关样本,搜集尽可能全面的数据。数据的海量与数据的完整性使大数据有着传统的数据库无法比拟的信息优势。更重要的是,这些数据不再需要用传统的数据库表格来排列。
大数据作为一种新的战略资源,是在对海量的非结构化数据的分析挖掘基础上,抽茧剥丝,提炼出有价值的数据和信息,为各领域的决策提供参考。对非结构化大数据进行采集分析,成为社会管理、企业决策、商业领域、产品开发、疾病预防的有效方式。大数据是人们获取新的认知,创造新的价值的源泉,对于社会、企业及个人都是一种核心的竞争力,大数据时代的到来对我们的生活,以及与世界交流的方式都提出了挑战。大数据时代来临后,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道结论,而不需要知道为什么。归纳起来,大数据有以下几个特点:
1.类型多样化。以往的数据大多是以二维结构呈现出来,但随着互联网、多媒体等技术的迅速发展及普及,图片、视频、音频、邮件、HTML、GPS 和传感器等产生的非结构化数据,每年都以超过50%的速度增长,预计非结构化数据将占数据总量的80%以上。大数据同以往的数据比在处理和分析方式上区别很大。
2.海量。大数据时代,各种传感器、移动终端等智能设备和网络社会无时无刻不在产生大量的数据,国内大型互联网企业每天的数据量已经接近TB级别。数据总量突破PB级别可谓是常态,统计数据量正在呈千倍级别上升。据测算到2015年总数据量将超过8ZB。
3.灵活性和时效性。数据是企业的新型资产,数据的价值最大化是企业的追逐目标。商业领域由于激烈的竞争,对信息需求的灵活性和时效性同以往相比要求更高,大数据需要被快速处理,形成有价值的信息。比如电子商城需要对当天的数据进行即时统计,做为补货决策的依据,如果分析结果要拖到明天才能得到,那么这些数据就会失去灵活性和时效性。大数据时代,需要相关大数据的分析和处理模型必须灵活、快速地适应新的业务需求。
二、大数据应用的国内外实践
大数据正在改变我们的生活及理解世界的方式,成为新发明和新服务的源泉,开启了一次重大的时代转型。无论是个人、企业还是国家,谁能更好地抓住数据、理解数据、分析数据,谁就能在未来的大数据竞争中脱颖而出。
1.美国实践。沃尔玛是最早通过利用大数据受益的企业之一。其一度拥有世界上最大的数据仓库系统,通过对消费者的购物行为等数据进行汇总分析,了解顾客购物习惯,有针对性的调整销售、营销策略,并创造了“啤酒与尿布”的经典商业案例:沃尔玛在对消费者购物行为等非结构化数据分析后发现,年轻爸爸一般在买尿不湿的时候,通常还要犒劳自己买啤酒,沃尔玛因此决定将这两个商品放在一起来销售的效果会更好;2004年沃尔玛通过对海量的销售记录分析注意到,每当季节性飓风来临前手电筒和蛋挞的销量都会增加,公司决定把蛋挞放在靠近飓风用品位置,以方便行色匆匆的顾客从而增加销量;作为大数据预测分析的试点单位,美国的圣克鲁斯警察局通过分析城市的历史数据源和社交网络数据,能够判断出犯罪趋势和犯罪模式,并对重点监控区域可能发生的犯罪行为进行了成功的预测,使该地区的发案率明显得到了控制;作为大数据的极力推动者,美国奥巴马总统及其团队曾经创新性地将大数据应用到之前竞选活动中,通过对近年的海量数据进行分析挖掘,锁定潜在的支持者,运用数字化策略定位拉拢中间派选民及筹集选举资金,将大数据的应用价值发挥到极致;2009年,谷歌公司通过对网民频繁检索的词条留下的搜索记录进行监测分析,早于使用传统信息反馈方式的美国公共卫生机构预测出甲型H1N1流感爆发和传播的态势;华尔街一家公司成功地通过全球网民在发帖中显示的情绪变化进行数据汇总、分析来决定股票的买入或抛售。
2.我国实践。由于起步较晚,我国的大数据信息并没有得到充分重视和挖掘,这也和我国的数据库、数据仓库、商业智能等领域基础薄弱有关,即使采集了也难以长久保存或做到部门、行业之间信息共享,但也有些公司在大数据探索和研发层面走出了宝贵一步。国内电商巨头阿里利用电子商务,用互联网的方式聚合消费力,引导和激发消费潜能,从而激发巨在的内需增量,引发产业的巨大变革。当前阿里正致力于通过数据和C2B的结合,启动内需。双十一电子商务交易达到191亿元,2012年全年突破1万亿元。预计到2015年阿里巴巴交易额会达到2.5万亿元。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和讲究诚信的企业,对他们发放无需担保的贷款。目前已发放贷款300多亿元,坏账率仅0.3%,大大低于商业银行。淘宝数据魔方则是淘宝平台上的大数据应用方案。通过这一服务,商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为等,并可以据此做出经营决策;处于行业领先并具有管理优势的苏宁公司面对新的挑战,最早全面转型、布局线上业务,减少传统的单纯门店经营模式,采用O 2O的经营模式,即互联网环境下门店与网购融合,令线上线下两块业务从“左右互博”的替代关系转为相互加强的互补关系,提升了整体渠道对消费者吸引力的同时,还将继续保持渠道对上游供应商的议价能力。2013上半年实现营业收入554.54亿元,同比增长17.51%;山东浪潮集团基于对数据产业的认知与积累,推出云海大数据一体机解决方案,重点面向行业大数据应用,是一体化的数据产品化方案,采用新技术体系架构,整合软硬件系统,涵盖数据存储、数据处理、数据展现等全环节。现在,浪潮英信服务器已经广泛应用到金融、税务、财政、电信、能源、企业、教育、政府、国家安全、铁路交通、研究机构等各行业。据权威机构统计,浪潮已经连续十四年蝉联国产销量第一,连续七年政府行业销量第一。
三、我国大数据应用面临的难题和挑战
(一)当前我国大数据应用面临的技术难题
当前大数据技术的运用仍存在一些困难与挑战,体现在以下的4个方面。
1.数据收集方面。数据产生方式的多样性带来了数据源变化,传统电子数据主要产生于服务器或是个人电脑,这些设备位置相对固定,随着移动终端的快速发展,手机、平板电脑、GPS等产生的数据量呈现爆炸式增长,且产生的数据带有明显的时空特性。要对来自网络的数据附上时空标志,去伪存真,尽可能收集异源甚至是异构的数据,必要时还可与历史数据对照,多角度验证数据的全面性和可信性,数据的筛选在质与量之间需要仔细考量和权衡。
2.数据存储方面。要达到低成本、低能耗、高可靠性目标,通常要用到冗余配置、分布化和云计算技术,在存储时要按照一定规则对数据进行分类,通过过滤和去重,减少存储量,同时加入便于日后检索的标签。
3.数据处理方面。有些行业的数据涉及上百个参数,其复杂性不仅体现在数据样本本身,更体现在多源异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度很大,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态而且可能是模棱两可的数据中综合信息,并导出可理解的内容。
4.易用性方面。由于大数据开始渗透到人们生活的各个方面,许多行业都有了这方面的需求但同时又不是数据分析的专家,复杂的分析过程和难以理解的分析结果也会限制从大数据中获取信息的能力,所以易用性是大数据时代软件工具设计的一个巨大挑战。
(二)大数据给我国信息安全带来新的挑战
1.网络化社会使大数据容易成为攻击的显著目标,成为高级可持续攻击的载体。基于云计算的网络化社会为大数据提供了一个开放的平台,也正因为蕴含海量数据和潜在价值的大数据平台的开放,大数据承载着越来越多的关注度,成为更容易被发现的大目标,更容易吸引潜在的攻击者。近年来互联网上发生的用户账号及虚拟货币被盗等连锁事件可以印证大数据更易吸引网络黑客,黑客利用大数据将攻击很好地隐藏起来,使传统的防护策略难以检测出来。一旦遭受攻击,大数据的拥有方损失是巨大的。
2.加大了数据公开与隐私保护的矛盾。由于互联网时代中的大数据来源非常广阔,传感器、社交网络、记录存档、电子邮件等大量数据聚集的同时也不可避免地加大了泄露用户隐私的风险。一方面,大量的数据汇集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录。这些数据的集中存储增加了数据泄露风险,而这些数据不被滥用,也成为人身安全的一部分。另一方面,一些敏感数据的所有权和使用权并没有明确的界定,很多基于大数据的分析都未考虑到其中涉及到的个体的隐私问题。因此隐私性主要体现在不暴露用户敏感信息的前提下进行数据挖掘。如果一味为了保护用户隐私就将所有的数据加以隐藏,那么数据的价值根本无法体现。
3.大数据对现有的存储和安防措施提出挑战。大数据的大小影响到安全控制措施能否正确运行。对于海量数据,常规的安全扫描手段需要耗费过多地时间,已经无法满足安全需求。安全防护手段的更新升级速度无法跟上数据量非线性增长的步伐,大数据安全防护存在漏洞。大数据存储带来新的安全问题。数据大集中的后果是复杂多样的数据存储在一起,例如开发数据、客户资料和经营数据存储在一起,可能会出现违规地将某些生产数据放在经营数据存储位置的情况,造成企业安全管理不合规。
4.大数据技术开始应用到攻击手段中。大数据技术是一把双刃剑,企业在利用大数据技术筛选有价值商业信息的同时,黑客也可以利用这些大数据技术向目标企业发起攻击。黑客通过广泛收集诸如社交网络、微博、电子商务、邮件、电话和家庭住址等信息为发起攻击做准备,大数据技术让黑客的攻击更精准更有针对性。此外,大数据技术为黑客发起攻击提供了更多机会。黑客利用大数据发起僵尸网络攻击,可能会同时控制上百万台傀儡机并发起攻击,这个数量级是传统单点攻击不具备的。
四、大数据应用下的财税改革建议
1.以财政大数据战略为导向。随着我国财税体制改革深入推进,各级财税部门所积累的数据量正在呈几何级数增长。以政府为主导,整合现有数据资源,建设大数据中心,加强政务数据的获取、组织、分析能力,通过对财税数据分析,揭示隐藏在数据背后的财税业务发展规律,提升政府的社会治理能力和公共服务能力,提高政府各部门之间的协同效率,并通过科技创新,引领和推动业务模式的创新和变革。为了扎实推进财政科学化精细化管理,进一步提高财政管理水平,促进经济社会又好又快发展,财税部门应尽早确立财政大数据意识。坚持用数据说话、用数据改进管理、用数据推动创新,提高工作的针对性和有效性,不断提高财政收入、改进财政支出、提升财政工作水平,使政府运行更有效率、决策更为科学。
2.构建公开透明的财税制度。当前我国税制复杂,资源配置低效,有损于社会公平正义的实现。借助大数据来构建公开透明的财税制度,通过设立唯一财税专户来构建国家集中信息管理系统,实现部门、单位、自然人的全覆盖,采集相关信息并进行多维度、多级次的分类和综合处理;简化税制及税款缴纳环节,以降低征税成本并保护低收入群体,体现税制公平为出发点。
3.加快技术研发,重视信息安全体系建设。鉴于大数据的海量信息和战略价值,政府要鼓励对相关技术研发领域的资金投入并给予优惠的财税政策,整合大数据处理资源,协调大数据处理和分析机制,推动重点数据库之间的数据共享;加快面向大数据的信息安全技术的研究,提高我国大数据安全技术产品水平,培养大数据安全领域的专业人才。加大对大数据信息安全形势的宣传力度,明确重点保障对象,加强对敏感和要害数据的监管,制定完善的重点领域数据库管理和安全操作制度。
〔1〕曹雨田.大数据,不仅“大”在数量[J].人民日报,2013-1-17(22).
〔2〕(英)维克托·迈尔-舍恩伯格.大数据时代[M].盛杨燕 周涛译.杭州:浙江人民出版社,2012.
〔3〕余建斌、赵展慧.大数据崛起[J].人民日报,2013-2-22(20).
〔4〕涂子沛.大数据:正在到来的数据革命[M].南宁:广西师范大学出版社,2012.
〔5〕王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
〔6〕陈一鸣.美国:以国家战略应对大数据时代[J].人民日报,2013-1-17(14).18.