APP下载

基于大数据的数据分析

2019-05-10周明君刘洪

科技传播 2019年8期
关键词:数据分析大数据分析

周明君 刘洪

摘 要 作为时代发展与科技进步的重要产物,大数据的诞生使数据处理的精度与广度全面提升,由此引发的数据处理方式的变革将影响众多相关行业。文章以面对大数据机遇为思考背景,通过讨论大数据的储存、分析与管理等方面,简述大数据的有效利用及分析方法,为相关行业应对大数据的机遇与潜在挑战提出可行性建议,以求推动行业发展。

关键词 大数据;数据分析;分析;方法

中图分类号 G2 文献标识码 A 文章编号 1674-6708(2019)233-0139-02

1 对大数据的认识

1.1 大数据的宗旨

大数据所涉及数据并未只有广度,即经过分析的数据才具有实用价值,因此大数据所指为经过分析的数据,由此大数据的分析成为了处理大数据的关键部分。大数据具有大数据量、多数据类型、快速处理速度、低密度的四重特点。高维低密度的数据具有法则性,因此大数据的分析应优化数据维度并细化低密度数据,使数据有意义的存在,大数据的分析应具有直接、准确、快速、大规模的特点。

1.2 大数据的目标

大数据的分析是为背后的各行各业的需求与发展进行服务,因此大数据的目标为实现基于数据的决策与资源配置。目前大数据分析技术可将数据源进行O2O(Online To Offline线上到线下)融合处理,并可以将基本的数值数据转变为不同类型的多媒体数据。

1.3 大数据的角度

大数据的处理角度应以客户的需求为出发点,即提供符合客户需求的个性化服务,并在企业的整个营销过程中起到预测发展趋势、配置资源比例的中间索引作用,将庞大的宏数据资源与产品定位进行链接。大数据的重要意义体现在预测经济发展的趋势,目前通过大数据所得的经济发展趋势为互联网金融,而目前的整体经济还处于金融互联网阶段,所衍生的产物例如网上银行仍与传统金融模式没有本质上区别,因此向互联网金融发展的关键在于改革金融模式,提高理财效率、改变P2P(peer to peer lending 或peer-to-peer个人对个人)金融结构。

1.4 大数据的关键点

大数据的关键点在于大数据的质量。保证大数据的质量才能保证产品及后续发展的质量,因此如何尽可能地提高数据的质量成为了大数据的关键点。大数据的在处理中存在许多干扰项,提高数据精度就显得尤为重要。

2 大数据的有效利用

2.1 大数据时代的数据分类与清理工作

大数据的分析中数据的分类与清理是提高数据精度的有效方法,也是大数据处理过程中工作量最大、最为耗时的环节,数据处理的后续工作能否顺利开展都决定于数据分类与清理的程度。数据的分类与清理不仅需要高效,更需要准确性,因此制定数据分类与清理标准,并采用统一的数据管理系統,以此来提高数据的整体质量,从根源上节省人力物力资源与成本。

2.2 大数据时代数据分析的特点

2.2.1 大数据时代数据分析的过程

1)分析建模。分析建模即从客户需求为出发点,将产品所涉及的实际问题方面转化为不同的物理数学模型,并通过理论分析与模拟制定可行的解决方案。分析建模是大数据分析过程中骨架的构建,这就意味着分析建模过程只能由人为操作,且建模的质量直接影响整个数据分析的质量。

2)方案执行。方案执行即对分析建模过程中得到的理论最优方案进行执行。方案的执行需要与方案本身紧密结合,并在实践中对方案的合理程度进行反馈,在合理方案与全面执行的共同作用下得出的大数据分析结果才具有最准确、最具参考价值的特点。

3)分享反馈。分享反馈是对数据质量的第一次检验,即应用数据对决策进行制定,这同时也是数据分析工作得到实际检验的过程,因此分享反馈环节不可或缺。

2.2.2 数据分析特点

数据分析具有多维、直观、针对性三方面特点。多维即针对传统数据处理工程中的一维,即数据分析结果仅以纸质报告出现,大数据时代的数据分析结果不仅应以多媒体方式全面展现,更应将整体的分析过程进行分析,而非只注重结果;直观即将数据分析结果的篇幅精简、结论鲜明、论据确凿,使决策人对数据分析结果全面掌握;针对性即同上文提到的个性化服务一样,对客户的战略与产品定位进行针对性分析。采用数据分析结果时不能忽略其潜在误差性,因此数据分析结果只能作为参考选项,而不能被分析结果桎梏而产生错误判断。

2.3 大数据时代数据分析师的培训

数据分析师作为大数据时代的新兴行业,目前国内行业整体水平处于不成熟的初级阶段,行业发展不仅需要行业领军者在技术上进行发展,更需要大量拥有技术的专业性人才的大量涌入,因此数据分析师的培训在长远上来看具有很高的实际价值。大数据分析师的发展方向应满足以下两点:一是需要数据分析房与客户进行紧密接触并不断反馈;二是建立专业性的大数据分析团队,拥有对核心技术的绝对掌控权,在数据管理与数据处理系统的建立上具有权威性。大数据处理的核心主要围绕数据分析、产品设计、风险管理三方面,随着行业的发展,数据分析的工作也逐渐由外包转变为企业自行完成,因此数据分析师的培养与引进不仅要注重数量、更要注重质量,培养具有扎实理论知识与灵活应用能力的核心技术人才。

3 大数据分析方法

3.1 神经网络法

神经网络法即模拟人类大脑思维方式,在非线性动力学系统中将单个神经元内的简单功能快速整合,在大量神经元网络结构中处理复杂问题。从20世纪40年代发展至今,神经网络法已被广泛运用于理论建模与算法研究领域,国内外的顶尖互联网也在实践中证明了大数据与神经网络相结合的重要意义。神经网络法是以神经元为基本单位的、大量神经元多为连接形成的神经网络系统,具有很强的适应性、泛化能力、高度并行性等特点,最简单的神经网络模型为前馈神经网路,所谓前馈即信息的传输方向具有单向性,通过信息的接收端将信息导入系统,再通过多级传输层(隐层)将信号进行分析传输,再有输出端传输。理论上神经元的数量与信号处理方式(激活函数)的数量越多,信号处理精度越高、涉及范围越广。因此神经网络法主要应用于数据挖掘阶段,SSPS股份公司、思维机器公司、Oracle公司、SAS公司和Mapinfo公司等都开发了以神经网络为核心技术的数据挖掘软件。

3.2 可视化分析技术

可视化分析技术主要应用于海量数据间的关联分析,需要可视化理论、认知理论与人机交互理论的理论支撑。可视化分析技术主要分为两个部分:从数据,中提取信息与将信息进行可视化过程,而可视化技术的优势与核心技术就在于可视数据化部分,即人机交互过程;人机交互同样分为两部分,计算机可视部分与用户界面部分。可视化技术的核心在于利用人体感知系统的复杂性与强适应性将数据内存在的大量信息高效率的直接传达给用户,而人类的认知能力同样拥有限制,例如空间识别上最高仅能识别三维空间,因此多维数据的可视化技术是目前技术上的难点,散点图与平行坐标目前普遍应用在多维可视化方面。可视化技术从宏观解释即把数据中的抽象有效信息进行简化与降维处理,使数据达到可视化的目的,数据在不同维度间的交互是可视化技术的理论基础,可视化分析技术的发展方向在于實时性数据的分析。例如利用Tabluea软件在分析全国农产品销售数据时,可视化分析技术支持内置中国省份、地市、区县地图可视化,点、线、面的数据可视化以及物流、航线、热力、散点、染色可视化,使此类数据最直观的展现其使用价值。

3.3 Mapreduce运算平台

在大数据处理方面具有较成熟经验的Google公司在针对网页大数据的分析与处理时所采用的Mapreduce运算模型为大数据的分析带来了更高效的方法与技术。该技术主要用于处理大型分布式数据库,主要原理为指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。如Google公司在统计2010年度词汇时,统计词频时建立Map函数接受文件名,并储存文件的内容为值,当该函数逐个遍历单词,每遇到一个单词Departyment,函数则产生一个中间键值对;MapReduce将键相同的键值对传给Reduce函数,这样Reduce函数接受的键Departyment,值是一串"1",个数等于键为Departyment的键值对的个数,然后将这些“1”累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置,存储在底层的分布式存储系统。该技术的本质即将数据分块,采用多核处理同时进行数据分析,大大提高数据分析效率。

4 结论

随着大数据时代的不断发展,大数据的应用将愈趋精度与广度的提高,并有助于各行业的发展与技术上的突破。因此,认识大数据、掌握大数据、应用大数据,将大数据更深入的融入到时代发展前沿,是我们应用大数据的目的与意义。大数据的深入应用应该是整个社会共同努力的结果,其结果同样也会反馈给各行各业,因此大数据的分析应成为现阶段全社会发展的方向。

参考文献

[1]卢建昌,樊围国.大数据时代下数据挖掘技术在电力企业中的应用[J].广东电力,2014(9):147-148.

[2]衡星辰,周力.分布式技术在电力大数据高性能处理中的应用[J].电力信息与通信技术,2013(9):165-167.

猜你喜欢

数据分析大数据分析
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
电力系统及其自动化发展趋势分析
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于大数据背景下的智慧城市建设研究