大数据的应用与发展挑战
2020-12-06李诗雨
摘 要:近几年来,开发大数据应用程序变得越来越重要,事实上,来自不同部门的众多组织越来越依赖从大量数据中提取的资料及信息,然而,在大数据环境下,传统的数据技术和平台效率较低。它们的响应速度慢,缺乏可伸缩性、性能和准确性,面对复杂的大数据挑战,人们做了大量的工作,因此,开发了各种类型的分布和技术。本文综述了近年来为大数据开发的新技术。它的目的是根据不同的大数据技术的技术需求和具体应用的要求,选择和采用不同的大数据技术的正确组合。本文将首先简要介绍大数据在人们生活中的应用,然后再重点分析大数据现在所面临的巨大挑战。
关键词:大数据;大数据分布;大数据应用;大数据挑战
前言:
如今,来自不同来源(如政府、社會网络、医疗卫生、营销、金融、旅游业)的大量数据每天以前所未有的速度生成。这是由于许多技术趋势,包括物联网、云计算的扩散以及智能设备的普及。在幕后,强大的系统和分布式应用支持这样的多连接系统(例如:智能电网系统、医疗保健系统、零售系统、政府系统等)。
1.大数据研究背景
由于可以从大数据中提取出有趣的价值,不同国家的许多参与者都启动了重要的项目。美国是抓住大数据机遇的领导者之一,2012年3月,奥巴马政府启动了大数据研发计划,预算为2亿美元。在日本,2012年7月,大数据开发成为国家技术战略的一个重要斧头。联合国发表了一份题为“大数据促进发展:机遇与挑战”的报告。它旨在概述大数据挑战的主要关切,并促进关于大数据如何为国际发展服务的对话。
2.大数据应用案例分析
2.1 智能电网案例
对全国电子用电量进行实时管理,对智能电网的运行进行监控至关重要,这是通过智能仪表、传感器、控制中心和其他基础设施之间的多重连接来实现的。大数据分析有助于识别有风险的变压器,并检测连接设备的异常行为,因此,网格实用程序可以选择最佳的处理或操作,对生成的大数据的实时分析允许对事件场景进行建模,这使得制定战略预防计划以降低纠正成本。此外,能源预测分析有助于更好地管理电力需求负荷,规划资源,从而使保护最大化。
2.2 电子健康
互联健康平台已经用于个性化医疗服务(例如,思科)。大数据来自不同的异构来源(例如,实验室和临床数据、从远程传感器上传的患者症状、医院运营、药物数据)。医学数据集的高级分析有许多有益的应用,它可以使医疗服务个性化(例如,医生可以在线监测患者症状以调整处方),根据人群症状、疾病演变和其他因素调整公共卫生计划参数。
3.研究大数据面临的挑战
大数据的挖掘提供了许多诱人的机会,然而,研究人员和专业人员在探索大数据集以及从这些信息矿中提取价值和知识时面临着几个挑战,其难点主要体现在:数据采集、存储、检索、共享、分析、管理和可视化等方面。此外,还存在安全和隐私问题,特别是在分布式数据驱动的应用程序中。通常,信息和分布式流的泛滥超出了我们的控制能力。在本文中,我们将更详细地讨论一些仍有待研究的技术问题(即大数据存储、大数据挖掘、大数据聚集、大数据处理或大数据清理等等),下面将简要介绍几点。
3.1 大数据管理挑战
数据科学家在处理大数据时面临许多挑战,一个挑战是大数据管理,有效地管理大数据对于促进可靠见解的提取和优化开支至关重要。事实上,良好的数据管理是大数据分析的基础,大数据管理意味着清理数据以提高可靠性,聚合来自不同来源的数据,并对数据进行编码以确保安全和隐私,这也意味着要确保高效的大数据存储和对多个分布式端点的基于角色的访问。
3.2 大数据清理挑战
这五个步骤(清理、聚合、编码、存储和访问)并不新鲜,在传统的数据管理中是已知的。大数据面临的挑战是如何管理大数据性质(速度、容量和多样性)的复杂性,并在混合应用程序的分布式环境中进行处理。事实上,为了获得可靠的分析结果,在使用资源之前,必须验证数据源的可靠性和数据质量。但是,数据源可能包含噪音、错误或不完整的数据。挑战在于如何清理如此庞大的数据集,以及如何确定哪些数据是可靠的,哪些数据是有用的。
3.3 大数据聚合挑战
另一个挑战是将外部数据源和分布式大数据平台(包括应用程序、存储库、传感器、网络等)与组织的内部基础设施同步,多数时候,分析组织内部产生的数据是不够的。为了获取有价值的见解和知识,必须更进一步,并用外部数据源聚合内部数据,外部数据可能包括第三方来源、市场波动信息、天气预报和交通状况、社交网络数据、客户评论和市民反馈,例如,这有助于最大限度地提高用于分析的预测模型的强度。
3.4 大数据分析挑战
高级数据分析需要理解特征之间的关系和探索数据,例如,数据分析使组织能够提取有价值的见解,并监控可能对业务产生积极或消极影响的模式,其他数据驱动的应用也需要实时分析,如导航、社交网络、金融、生物医学、天文学、智能交通系统。因此,需要先进的算法和有效的数据挖掘方法来获得准确的结果,监测各个领域的变化,并预测未来的观测结果。因此面对大数据挑战和流式处理,我们仍然需要分析上的进步,用于指导大数据如何进一步发展。
3.5 与计算机发展不匹配
大数据发展一个重要的问题与计算机的结构和容量有关,事实上,根据摩尔定律,CPU性能每18个月翻一番,磁盘驱动器的性能也以同样的速度翻倍。但是,I/O操作不遵循相同的性能模式,(例如,随机i/O速度适度提高,而顺序i/O速度随着密度缓慢增加)。因此,这种不平衡的系统容量可能会降低数据访问速度,并影响大数据应用程序的性能和可扩展性,因此这可能会降低整个大数据分析系统的性能。
结束语:
在本文中,本文重点分析了大数据发展的特点,深入探讨了大数据计算系统所带来的挑战,除此之外,我们还解释了大数据挖掘在多个领域的价值,我们试图从不同的角度来看待这个问题,简要介绍了大数据发展目前所遇到的种种问题,从一个客观的角度来对其进行了分析。
参考文献
[1] Pattern recognition Mach. Learn.,128(2006),pp.1-58
[2] Big data(lost)in the cloud Int. J. Big Data Intell.,1(2014),pp.3-17
[3] Streaming analytics Disruptive Analytics,Springer(2016),pp.117-144
[4] Beyond the hype:big data concepts,methods,and analytics Int. J. Inf. Manage.,35(2015),pp.137-144
[5] 王建锋.大数据时代计算机远程网络通信技术变革初探[J].中小企业管理与科技,2019(30):168-169.
作者简介:李诗雨,女(2000.03.27),汉族,西南科技大学城市学院鼎利学院学生,研究方向:大数据分析与应用。