大数据时代下应用大数据思维促进铁路创新的分析展望
2016-12-20焦梓婷
焦梓婷
[摘 要]大数据时代将带来深刻的思维转变,大数据不仅将改变每个人的日常生活和工作方式,还将改变商业组织和社会组织的运行方式。大数据开启了一次重大的时代转型,如何在大数据时代挖掘和利用隐蔽于数据内部未被激发的潜在价值,从而实现在经济、交通、教育、医疗、能源、军事等领域的革新,取决于我们是否能够从以往的小数据思维及时转换成大数据思维。本文在研读文献基础上,介绍了大数据思维产生的背景,阐述了大数据带来的思维变革,分析展望了建立大数据思维促进中国铁路创新发展。
[关键词]大数据 大数据思维 铁路创新发展
中图分类号:TM76;TM63 文献标识码:B 文章编号:1009-914X(2016)25-0373-03
1 引言
半个世纪以来,随着人类对自然和社会认识的进一步加深及人类活动的进一步扩展,科学研究、互联网应用、电子商务、移动通信等诸多应用领域产生了多种多样的数量巨大的数据。这不仅使得世界充斥着比以往更多的信息,而且其增长速度也在加快。信息总量的变化最终导致了质变,最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”这个概念。时至今日,这个概念几乎已应用到了所有人类致力发展的领域中。大数据(BIG DATA)的出现对传统的数据存储、数据处理和数据挖掘提出了新的挑战,同时也深刻地影响着人类的生活、工作和思维。
2 什么是大数据
2.1 大数据的概念
说起大数据,从字面意思来讲就是巨量数据集合,到底有多大?可能很多人并没有很具体的概念。一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。
然而大数据并非一个确切的概念。对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。而麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和价值密度低(Value)四大特征,即4V特征。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。业界学者杨善林认为在海量数据的量化基础上,同时具备大分析(Big Analytics)、大带宽(Big Bandwidth)、大内容(Big Content)等三大要素的巨大数据集。谢国忠则认为大数据的本质是利用企业内部信息,将庞大的信息进行有效整合,并结合新的数据类型为企业创造价值。
2.2 大数据的特点
大数据有有它自己的特征。目前工业界普遍认为大数据具有 4V+1C 的特征:
(1)数据量大(Volume)。存储的数据量巨大,拍字节级别是常态,因而对其分析的计算量也大。
(2)多样(Variety)。数据的来源及格式多样,数据格式除了传统的格式化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容,而随着人类的活动的进一步拓宽,数据的来源更加多样。
(3)快速(Velocity)。数据增长速度快,同时要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。
(4)价值密度低(Value)。需要对大量的数据处理挖掘其潜在的价值,因而,大数据对我们提出的明确要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析从大量、多种类别的数据中提取价值的体系架构。
(5)复杂度(Complexity)。对数据的处理和分析难度大。
IBM在此基础上又提出了5V特征,即在4V的基础上增加了真实性(Veracity)。
3 什么是大数据思维
要想大数据为人所用, 必须改变原有对数据的认识,将大数据与创意结合,并能充分利用数据分析技术,为企业和国家决策提供依据。大数据研究专家维克托·迈尔-舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生如下三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系。事实上,大数据时代带给人们的思维方式的深刻转变远不止上述三个方面。我认为,大数据思维最关键的转变在于从自然思维转向智能思维,使得大数据像具有生命力一样,获得类似于“人脑”的智能,甚至智慧。
大数据思维是一种总体思维。过去,人们对搜集数据、处理数据形成了一个思维定势,那就是我们不可能搜集到相当多数量的数据,我们只能在力所能及的条件下选择一小部分去分析和处理,为了让数据处理变得更简单,对数据的选择就尽可能到最少,也由于当时信息处理水平的限制,导致所选的数据不具备代表性,盲目因素太多。当我们进行抽样调查来分析数据的时候,往往会以调查问卷的形式选择一部分样本进行分析,这为人们提供了不少的便捷,但相应的缺点也是一览无余,这种样本分析法不管你有多深入的去挖掘,它都只能代表总体数据中的一小部分,不能代表全部数据,也许样本调查的准确性会达到90%以上,但是依然会遗漏一些很有价值的数据,就会导致数据的失真。但是随着大数据时代的到来,我们可能还没有意识到我们已经具备处理和分析大数据的能力,我们的思维正在一点点的改变,首先,我们不能一直依靠对小部分数据样本进行分析,而是转向为分析全部数据。
大数据思维是一种容错思维。在小数据时代,由于收集的样本信息量比较少,所以必须确保记录下来的数据尽量结构化、精确化,否则,分析得出的结论在推及总体上就会“南辕北辙”,因此,就必须十分注重精确思维。然而,在大数据时代,得益于大数据技术的突破,大量的非结构化、异构化的数据能够得到储存和分析,这一方面提升了我们从数据中获取知识和洞见的能力,另一方面也对传统的精确思维造成了挑战。维克托·迈尔-舍恩伯格指出,“执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户”。也就是说,在大数据时代,思维方式要从精确思维转向容错思维,当拥有海量即时数据时,绝对的精准不再是追求的主要目标,适当忽略微观层面上的精确度,容许一定程度的错误与混杂,反而可以在宏观层面拥有更好的知识和洞察力。
大数据思维是一种相关思维。在小数据世界中,人们往往执着于现象背后的因果关系,试图通过有限样本数据来剖析其中的内在机理。小数据的另一个缺陷就是有限的样本数据无法反映出事物之间的普遍性的相关关系。而在大数据时代,人们可以通过大数据技术挖掘出事物之间隐蔽的相关关系,获得更多的认知与洞见,运用这些认知与洞见就可以帮助我们捕捉现在和预测未来,而建立在相关关系分析基础上的预测正是大数据的核心议题。通过关注线性的相关关系,以及复杂的非线性相关关系,可以帮助人们看到很多以前不曾注意的联系,还可以掌握以前无法理解的复杂技术和社会动态,相关关系甚至可以超越因果关系,成为我们了解这个世界的更好视角。维克托·迈尔-舍恩伯格指出,大数据的出现让人们放弃了对因果关系的渴求,转而关注相关关系,人们只需知道“是什么”,而不用知道“为什么”。我们不必非得知道事物或现象背后的复杂深层原因,而只需要通过大数据分析获知“是什么”就意义非凡,这会给我们提供非常新颖且有价值的观点、信息和知识。也就是说,在大数据时代,思维方式要从因果思维转向相关思维,努力颠覆千百年来人类形成的传统思维模式和固有偏见,才能更好地分享大数据带来的深刻洞见。
大数据思维是一种智能思维。大数据使得人可以被量化,但却让计算机更具智能。工业革命使得需要人完成的工作只用机器就可以完成了,但大数据却可以使得机器有了分析问题的能力。卫星定位系统积累的大量数据,可以制作电子地图和导航,还可以通过分析数据开发出无人驾驶汽车,让机器变得拥有智慧。如何让计算机拥有智慧,除了要拥有大数据外,必须变革思维,创新分析思路与过程,不断探索新的方法,让堆积如山的数据不断创造新的价值。例如手机上常用的地图软件,可以搜索很多路况同步数据,为用户提供出行信息。这只是大数据最基础的应用,继续延伸, 是否可以根据上下班时段的交通流量估算失业率;是否可以通过对主要商圈的监控估算消费情况;是否可以将废弃的数据重新创造价值;是否可以利用用户在拼写过程中的拼写错误让拼写检查软件更优化;是否可以通过分析各实体和产业之间的关联关系,预测各行业发展趋势,找出关键影响因素;是否可以分析顾客的偏好,量体裁衣式的为顾客提供更好的服务; 是否可以运用大数据模拟现实情境,发掘出新的需求和更好的回报;是否可以创新大数据的使用模式,将大数据深加工,用户可以很方便地结合自身情况选择适合自己的产品。
4 建立大数据思维促进中国铁路创新
4.1 以数据为核心
大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。例如:IBM将使用以数据为中心的设计,目的是降低在超级计算机之间进行大量数据交换的必要性。大数据下,云计算找到了破茧重生的机会,在存储和计算上都体现了数据为核心的理念。大数据和云计算的关系:大数据与云计算是一个问题的两面,一个是问题,一个是解决问题的方法。而大数据比云计算更为落地,可有效利用已大量建设的云计算资源,最后加以利用。中国铁路信息化历经50余年的发展,取得广泛的应用,拥有海量的资源,大数据将成为推动中国铁路创新发展的新引擎。随着中国铁路信息化的到来,中国铁路发展的战略需求也发生了改变,数据的处理分析成为了一个关注重点,软件也将从编程为主转变为以数据为中心。如何高效地从海量数据中分析、挖掘所需的信息和规律,结合已有经验和数学模型等生成更高层次的决策支持信息,获得各类分析、评价数据,为设备管理、网络状态评估等提供决策支持,为铁路工作人员提供有用信息,成为铁路未来发展的趋势。
4.2 全样本考虑
统计学里头最基本的一个概念就是,全部样本才能找出规律。为什么能够找出行为规律?一个更深层的概念是人和人是一样的,如果是一个人特例出来,可能很有个性,但当人口样本数量足够大时,就会发现其实每个人都是一模一样的。在大数据时代,无论是商家还是信息的搜集者,会比我们自己更知道你可能会想干什么。现在的数据还没有被真正挖掘,如果真正挖掘的话,通过信用卡消费的记录,可以成功预测未来5年内的情况。大数据的核心就是预测,大数据能够预测体现在很多方面。大数据不是要教机器像人一样思考,相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。正因为在大数据规律面前,每个人的行为都跟别人一样,没有本质变化。例如:大数据助微软准确预测世界怀。微软大数据团队在2014年巴西世界足球赛前设计了世界怀模型,该预测模型正确预测了赛事最后几轮每场比赛的结果,包括预测德国队将最终获胜。预测成功归功于微软在世界杯进行过程中获取的大量数据,到淘汰赛阶段,数据如滚雪球般增多,常握了有关球员和球队的足够信息,以适当校准模型并调整对接下来比赛的预测。世界杯预测模型的方法与设计其它事件的模型相同,诀窍就是在预测中去除主观性,让数据说话。利用大数据技术可以从铁路的客票系统、货票系统、货运电子商务平台、运输信息集成平台等信息系统采集海量的原始信息,这些信息可以为市场分析和预测提供有力的支撑。与传统方法侧重于对调查抽样统计数据的分析不同,基于大数据技术的市场分析和预测技术既能够利用上述海量数据,分析客、货运量完整全面的变化过程,深入挖掘运量变化的规律性,进而预测市场的未来走势;还能够利用GPS、传感器等物联网手段采集获取精细的运输数据,并且通过互联网接入的政治、经济、其他交通方式、气候等影响因素数据,将旅客和货物流量流向的精细化分析与影响因素关联性分析相结合,挖掘各影响因素对铁路运量变化影响的方向和时滞,量化各因素对运量变化的影响。在对典型设备故障诊断与状态预测方面,可以综合利用GSM-R接口监测数据、网络管理信息、场强和服务质量动态检测数据、无线干扰检测监测数据等数据源,采用数据挖掘技术,研究监测检测数据综合分析方法、多源数据关联分析方法和适用于通信业务数的故障诊断分析方法,建立典型故障诊断模型、GSM-R网络QoS测试综合评价模型、CTCS-3列控系统降级故障表示模型等,对列车控制的车载系统、地面控制系统、无线通信网络交互作用进行可靠性评估和故障综合诊断,为列车控制系统降级原因分析、GSM-R网络维护、网络优化等提供支持。
4.3 用信息找人
互联网和大数据的发展,是一个从人找信息,到信息找人的过程。先是人找信息,人找人,信息找信息,现在是信息找人的这样一个时代。信息找人的时代,就是说一方面我们回到了一种最初的,广播模式是信息找人,我们听收音机,我们看电视,它是信息推给我们的,但是有一个缺陷,不知道我们是谁,后来互联网反其道而行,提供搜索引擎技术,让我知道如何找到我所需要的信息,所以搜索引擎是一个很关键的技术。例如:从搜索引擎——向推荐引擎转变。今天,后搜索引擎时代已经正式来到,什么叫做后搜索引擎时代呢?使用搜索引擎的频率会大大降低,使用的时长也会大大的缩短,为什么使用搜索引擎的频率在下降?时长在下降?原因是推荐引擎的诞生。就是说从人找信息到信息找人越来越成为了一个趋势,推荐引擎就是说它很懂我,知道我要知道的东西。例如,我们结合12306网站数据及实名制购票资料,对出行旅客的个人信息、出行线路、出行时间周期进行的统计分析,同时借助互联网大数据预报人员迁徙情况,最后完全勾勒出旅客的需求,使铁路可以充分了解每一位旅客,实时的知道他们旅行目的地,以及出发时间及需要的服务层次,有针对性地推送一些旅游服务、餐饮、住宿、景观等方面的产品,使得营销工作更加精准,营销效率也更高。
5 大数据思维带来的挑战
大数据的发展速度有目共睹,想要在竞争社会中走的更远,人人都需要建立大数据思维。那么在建立大数据思维中,有哪些挑战呢?
第一,大数据应用和商业回报间的矛盾。未来的大数据应用一定是可定制的、可在云上打包的服务,即将业务、数据、分析能力多面定制,一起打包。企业需要可快速部署和有明确投资回报率的应用,这涉及到数据的质量和丰富度及业务人员对数据的依赖度。这需要企业内各个部门的有效协作,并规避无法确定的风险,比如分析结果的不确定性,业务场景的复杂性,人员的能力缺失等。传统手段,比如通过社交媒体、邮件、网络文本等获得的数据量非常庞大,但解破这些数据的关系和价值却给企业带来巨大挑战。企业希望成为数据的主人,但在辨析数据的有效性、能带来哪些商业回报,以及如何帮助决策等方面却缺乏有效工具。
第二,海量数据与核心数据间的矛盾。要做大数据,首先要了解自己的企业,或者企业所在的行业的核心是什么。我们发现,有很多企业在竞争过程中,最终不是被现有竞争对手打败,而是被很多潜在未知的竞争对手打败的。举例来说,大部分人都认为亚马逊是做电商的,但其实亚马逊现在最主要的收入来自云服务,也就意味着亚马逊的核心数据(价值)是云服务。只有在此基础上,亚马逊建立的大数据才是有效的、服务于战略的。
第三,内部数据与外围数据间的矛盾。企业所获取的数据,很大一部分是内部数据,这让企业面对另一个挑战,如何让内部数据与外围相关数据产生联系并使之成长。只有让内外部数据的交融在用户场景中,才能为业务用户描绘更精准的业务发展空间。
第四,规律发现和规律失效间的矛盾。调研显示,从大数据应用总结出的规律来看,建立失效预警是特别必要的。当企业通过大数据分析发现一个规律,并在现实中应用时,必须要设立一些预警指标。当指标达到一定程度,既表明之前发现的规律已经失效,必须发现新的规律、建立新相关指标,这称为数据价值的有效性。没有根据实际应用场景的变化而及时更新的数据,挖掘得再多都是无谓的浪费,熟练应用失效预警,企业才能培养起团队对数据真实有效的敏感性。
6 结语
大数据思维把人们从旧的发展观、价值观中解放出来,复杂技术的涌现和科技进步促使人们开始从大数据思维视角重新审视世界,从而获取正确理解世界的角度性工具。大数据思维是客观存在,大数据思维是新的思维观。用大数据思维方式思考问题,解决问题是当下企业潮流。中国铁路正处于加快转变发展方式的新形势下,为了适应市场化经营要求,构建铁路运输企业的核心竞争力,提升铁路的持续发展能力和盈利能力,应用大数据思维去推动铁路创新发展具有极其重要的现实意义。
参考文献:
[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊.2012(06)
[2]孟小峰,慈祥.大数据管理: 概念、技术与挑战[J].计算机研究与发展,2013,50(1)
[3]王卫东,徐贵红,刘金朝,张文轩,邢小琴.铁路基础设施大数据的应用与发展[J].2015(05)
[4]维克托·舍恩伯格,肯尼斯·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.
[5]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报. 2013(06)
[6]刘婷,徐寰春.浅析大数据时代背景下智慧城市规划[J].智能城市.2016(09)
[7]李艺杰.浅谈大数据时代数据信息现状及发展[J].中国新技术新产品. 2014(15)
[8]冯永强,张良,冯怡,朱尚杰.大数据应用的现状与展望[J].信息化建设. 2015(12)
[9]张保国.浅议大数据在公交经营管理中的应用[J].城市公共交通.2016(03)
[10]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报(自然科学版).2014(05)
[11]邬贺铨.大数据时代的机遇与挑战[J].求是.2013(04)
[12]王浩,张怡.大数据时代下人类思维方式变革的趋势[J]. 新西部(理论版). 2015(02)
[13]张康之,张桐.大数据中的思维与社会变革要求[J]. 理论探索. 2015(05)
[14]黄欣荣.大数据时代的思维变革[J]. 重庆理工大学学报(社会科学). 2014(05)
[15]代明睿,朱克非,郑平标.我国铁路应用大数据技术的思考[J]. 铁道运输与经济. 2014(03)