大数据技术在工业领域的应用综述
2016-10-13河南省科学院应用物理研究所有限公司李磊明
河南省科学院应用物理研究所有限公司 梁 楠 李磊明
大数据技术在工业领域的应用综述
河南省科学院应用物理研究所有限公司 梁 楠 李磊明
在这个信息爆炸的年代,数据渗透到各行各业,大数据技术的应用将在社会经济发展过程中发挥不可替代的作用。到目前为止,对大数据及相关技术的研究还处于初级阶段。大数据技术在工业领域的应用起步相对较晚,但仍取得了一定的成果并有其固有的规律和特点。本文对大数据技术的背景和主要技术进行分析,并进一步介绍大数据技术在工业领域的应用情况。
大数据;数据处理;工业领域;大数据应用
1. 大数据概述
1.1大数据定义及特征
随着人类进入一个信息化、数字化社会,大数据便是随之而来的必然产物。从广义上讲大数据是指,规模巨大到无法通过目前主流软件工具,在合理时间内捕捉、存储、整理、处理和分析的数据。从数据本身看,大数据是具有规模大、处理速度快、多样化的信息资产;从分析处理的方式看,传统技术难以处理和应对,需要采用新的技术加以处理[1]。
相比普通数据,大数据具有显著的特征。Beyer 和 Laney将大数据的特点总结为4个V:Volume(数据量大),Variety(数据种类繁多),Velocity(处理速度快),Value(数据价值大)[3]。大数据的特征主要表现在四个层面:第一,数据体量巨大。到2013年,世界上存储的数据达到1.2ZB字节[2]。第二,数据类型繁多,包括文字、图像、视频、地理位置信息等等。第三,产生和处理速度快。当今社会,每时每刻都有大量数据被获取和存储。同时,大数据的处理与云计算、分布式技术的使用紧密相关,一般要求在秒级时间范围内给出分析结果[4],只有快速处理才能有效利用获取的数据。第四,价值密度较低,但商用价值大。现代互联网上半结构化和非结构化数据所占比例已达95%以上[5],分析时需要花费大量时间。同时,数据可以整合和多次利用,就多数应用而言,大数据整体蕴藏着巨大的价值。除上述已提到的四个特征之外,一般也认为,隐私性同样是大数据的主要特征[6]。
1.2大数据处理流程
大数据技术可运用到各行各业。根据数据从产生到消失的周期,大数据技术主要涉及以下四个重要内容:(1)数据采集:数据采集是大数据处理技术的基础。主要是从本地数据库、互联网、物联网等数据源导入数据,这个过程包括数据的提取、转换和加载[1]。(2)数据管理:对采集的大数据进行适当的处理,包括数据清洗、去噪、数据集成和数据修正,并分类存储,同时提供快速访问和查询的功能[7]。(3)数据分析:数据分析是大数据处理技术的关键。对集成的数据采用适当的算法模型,例如传统的数据挖掘、统计分析和机器学习算法和云计算技术,进一步处理和分析。处理方式可分为数据流处理和批量处理两种方式。云计算作为大数据分析的支撑技术,也是大数据分析应用的基本平台。(4)数据解释:数据解释主要是以直观的并便于理解的方式将数据分析的结果展示给用户。数据可视化技术是解释大数据最常用的也是最有力的方式[8]。
2. 大数据在工业领域的应用
国际数据资讯(IDC)公司统计,在2009年全球数据量达到0.8ZB,在2012年就增长到2.7ZB(如图1所示)[9]。预计到 2020 年,全球将拥有超过 35ZB 的数据量。这些数据中,85%以上的是以非结构化或半结构化的形式存在。
大数据技术通过对数据的分析,挖掘出数据间潜在的规律和价值,有助于人们做出正确的决策,从而提高企业的运行效率,取得更大的收益。预计到2017年市场规模有望可以达到184.3亿元。目前,大数据技术在工业领域的应用虽还较少,但此领域企业也越来越重视大数据技术的研究和应用。
图1 IDC全球数据量
2.1信息工业
信息工业在大数据技术的应用上相对于其他工业领域更超前,在大数据技术创新上也处于领先地位。信息工业通过大数据技术取得了巨大的发展,其在大数据技术应用和创新机制方面的经验对其他领域有着借鉴意义。
大数据技术在信息工业领域最典型的应用是搜索引擎。由于互联网技术的飞速发展,网络上的数据呈爆炸式增长。要从海量信息中找出用户需要的信息,搜索引擎在我们的学习生活工作中是必不可少的,它通过收集、处理和分析大量的数据提供快速准确的信息检索。Google公司的PageRank[10]算法是搜索引擎的核心算法,它认为一个网友的重要程度和它与其他网页的链接关系有关,并通过这个关系建立网页间的索引。当用户提交想要检索的关键词时,搜索引擎可以根据关键词和网页索引之间的相似关系获得检索结果[11]。由于网络数据量巨大,搜索引擎的计算对象往往是一个有数百亿行和上亿列的矩阵,需要多次迭代计算,这需要强大的存储和计算能力。在此推动下,发展了MapReduce[12]等分布式技术,进而开创了大数据技术发展的新纪元。
电子商务也是大数据技术在信息工业领域的典型应用。随着电子商务的发展,每天有数以万计的交易在网上进行。通过对用户的浏览记录,以及购买商品的价格、时间和数量,甚至对用户的个人特征信息进行分析,了解用户需求,进而有针对性的给用户推荐商品,实现个性化推荐。淘宝数据魔方是阿里巴巴在淘宝平台上的大数据应用方案。将用户相关信息进行搜集并分析,进而可以向商家提供淘宝平台上的行业发展情况。同时,商家可以了解自己品牌的销售情况以及其消费者的一些共有特征,进而优化自己的生产和库存策略,甚至是根据消费者的爱好设计生产新的产品,使其能获得更大的效益。消费者也可以在淘宝平台上获得更多优惠买到更多满意的商品。
社交网络也是大数据技术在信息工业领域的应用。社交网络是一种在网络上由社会个体和个体之间的相互关系组成的社会性结构。社交网络大数据主要包括即时消息、微博、电子邮件和共享空间等应用数据。虽然社交网络依托于虚拟网络,但是依然是人之间的交流活动。因而社交网络大数据代表了人之间的各类活动,分析这些数据可以更好的理解人类社会,并为社会中的各种关系提供的可计算的分析方法。目前社交网络利用大数据技术可以提供多种应用,包括商品推荐、社会化营销、在线教育等。
2.2制造业
在制造业中,大数据技术给企业带来了深刻的变革,创新企业的研发、生产、运营和管理方式。大数据技术在制造业中的典型应用包括产品创新、生产线物联网分析、产品故障诊断和预测、企业供应链优化等各方面。
大数据技术的引入可以促进产品的创新。客户与制造业企业之间交易行为将产生大量数据,挖掘和分析这些数据,可以使企业更能了解客户对产品的需求,为产品创新做出贡献。例如,福特公司将大数据技术应用到了福克斯电动车的产品创新和优化中。在行驶中,福克斯电动车的司机不停地更新车的相关使用信息,包括速度、刹车、电池充电。这些数据方便福特工程师了解客户的驾驶习惯,包括何时、何地充电以及其频率,进而制订产品优化计划,或者实施新产品的创新。
利用大数据技术,还可以对工业产品的生产过程建立虚拟模型,仿真并优化生产流程。此外,在生产过程中,通过对传感器对生产流程的监控数据的分析,可以发现生产流程中能耗的异常或峰值,由此可以优化在生产过程中能源的消耗。制造业通过大数据技术可以实现产品故障实时诊断与预测。例如,通用电气的能源监测和诊断中心,收集全球数十个国家上千台通用电气燃气轮机的数据。他们利用大数据技术分析系统内的传感器振动和温度信号的大数据流,为燃气轮机故障诊断和预警提供支撑。
大数据技术的引入给供应链的分析和优化提供了便利。随着物联网技术以及移动互联网技术的发展,企业可以方便的获得比较完整的供应链的大数据。通过对这些数据的分析,可以降低存储和配送的成本,并大幅度提到销售和配送的效率。例如,海尔公司供应链体系整合了全球供应链资源并搜集了全球用户信息,将客户信息、内部数据以及供应商数据都汇总到供应链体系中,并通过大数据采集和分析,海尔公司持续进行供应链改进和优化,保证了海尔对客户的敏捷响应。
2.3航空工业
航空公司利用大数据技术,通过对相关信息进行收集和分析,去选择潜在目标客户群体,并调整营销策略和营销范围,再进行有针对性的客户维护和广告宣传。同时,利用大数据技术对数据的分析,可以有方向性的为客户制定相关的服务和消费计划,比如说可以对乘客候机在不同时间制定相应的消费计划。同时也给乘客提供了极大的方便,让他们可以获得更完善更周到的服务。此外,通过对大数据技术的引入,航空公司可以掌握最新的客户趋势和销售情况,进而可以调整公司的发展战略,快速抓住市场的契机。比如说,大数据技术通过对每个航线乘客信息的分析,可以及时预测每个航向旅客流动趋势,从而使航空公司可以及时发现市场动向,并进行航向相应的调整,比如某些方向减少航线,某些方向航班增加,甚至可以根据大数据技术分析的结果确定航班具体应该调整多少等等。
2.4能源工业
在能源工业中,将大数据技术融入传统能源网络,进而构建成新的智能电网。通过用户用电数据的分析,可以知道每个地区的用电量和断电频率,预测哪部分线路可能会出故障,这将有助于对电网的升级和维护。美国加州大学洛杉矶分校的研究人员根据大数据技术设计的电力地图,将用户实时用电信息与天气、地理等信息全部结合起来,展示每个街区当前的用电量[13]。它还可以将每个街区的用电量与人的平均收入等因素结合起来分析,从而获得不同人群的用电习惯。同时这个加州地图不仅可以为电网规划提供有效的电量负荷和停电频率预测,也可以其中过载严重、停电频率高的街道进行电网的优先改造。智能电网可以实现发电与用电的互动,从而可以提高供电效率。智能电网在欧洲已经做到了终端-智能电表。通过电网每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来几个月时间里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业预先购买电量。通过这个预测后,可以降低采购成本。同时,智能电网通过对大数据的分析,就可充分利用间歇式的太阳能和风能。在其产生电能时,根据大数据技术对智能电网中数据的分析将其调度到电力紧缺的地区,这可以与传统的水火电能有效地互补。
3. 结束语
大数据技术的快速发展,给工业领域的企业带来了新的机遇和挑战。正确处理好大数据,不仅可以提升企业综合竞争力和效益,也可以给我们的生活带来极大的便利。目前,虽然大数据技术在工业领域很多成功的应用案例,但是它的应用仍还属于起步阶段。在工业领域,大数据技术的应用还存在大数据的集成与管理和大数据能耗问题,并面临着严重的安全和隐私问题,需要进一步的研究工作来解决。
[1]何宝宏,魏凯.大数据技术发展趋势及应用的初步经验[J].金融电子化,2013,6:31-34.
[2]Mayer-SchonbergerViktor,Cukier Kenneth著.周涛译.大时代数据[M].杭州:浙江人民出版社,2012
[3]Beyer M A,Laney D.The importance of‘Big Data’:a definition[M].Stamford:Gartner,2012:2-5.
[4]刘维贵.大数据研究综述[J].办公自动化杂志,2014(总269):27-30.
[5]王成红,陈伟能,张军,宋苏,鲁仁全.大数据技术与应用中的挑战性科学问题[J].中国科学基金.2014(2):92-97.
[6]Labrinidis A,Jagadish H V.Challenges and opportunities with big data[J]. Proceedings of the VLDB Endowment(PVLDB),2012,5(12):2032-2033.
[7]刘智慧,张全灵.大数据技术研究综述[J].浙江大学学报(工学版),2014,48(6):957-972.
[8]贺全兵.可视化技术的发展及应用[J].中国西部科技,2008,7(4):4-7.
[9]淘雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25:142-146.
[10]Yen C C,Hsu J S.Pagerank algorithm improvement by page relevance measurement.IEEE International Conference on Fuzzy Systems,2009,502-506.
[11]Dean J,Ghemawat S.Simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1):107-113.
[12]Althebyan Q,ALQudah O,Jararweh Y,Yaseen Q.Multi-threading based Map Reduce tasks scheduling.International Conference on Information and Communication Systems(ICICS),2014:1-6.
[13]张引,陈敏,廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013:216-233.