APP下载

基于Python语言的大数据分析研究

2020-02-21周竞鸿

电子技术与软件工程 2020年13期
关键词:Python语言数据分析

摘要:本文通过分析Python语言的各种有点,研究了Python语言及数据的应用,最后对Sickit-Iearn实现数据进行了分析。

关键词:Python语言;Sickit-Iearn;数据分析

伴随着科学技术水平的不断提升,计算机技术也得到了飞速发展,各个行业领域也发生了翻天覆地的变化,各式各样的数据信息不断出现,信息规模越来越大,推动我国进入到大数据时代。在大数据环境下,许多行业领域都与大数据建立了紧密的联系,决策的制定也很大程度上依赖大数据技术的支持,通过对庞大数据信息进行分析和提取,为公司决策提供科学的依据,不再通过经验和知觉进行决策。数据分析是大数据行业非常重要的一部分。数据分析主要表示为依托于各种形式的统计分析方法对海量数据信息开展分析工作,从中寻找出有价值的信息,并对这些信息进行归纳和总结,得出相应的结论。开展数据分析的根本目的是从庞大繁琐、无规则的数据信息中寻找到有用的数据,从而提高数据信息的价值,同时能够为公司重大决策制定提供依据。Python是提高数据分析性能的重要方式。在2017年,Python语言直接超越其它编程语言,成为了该年度使用频率最高的编程语言,被越来越多的程序员所喜爱。Python本身拥有大量的库,能够为产品开发带来非常大的便利,在数据分析、数据科学等工作中都有着非常普遍的应用,逐步发展成为了第三大编程语言。

1

Python语言概述

Python语言具有非常广泛的运用,属于比较高级的程序设计语言,是由荷兰人吉多·范罗苏姆发明出来的[1]。Python语言在设计初期,就非常重视语言的简洁性以及可读性,因此和C++、Java等编程语言相比,Python語言只需要少量的内容就可以完整表达思想[2]。在20世纪90年代初期,第一代Python语言版本正式问世,发展到如今,Python语言经历了多次的改进和完善,增添了许多新功能、新特征,也更加的全面和整洁,不仅被大量使用到系统管理任务的处理工作中,同时也普遍用于web编程。Python语言拥有容易上手、可移植性好等优点,具体如下。

1.1 容易上手

像C语言、Java语言等代码较为复杂,初学者很难在短时间内熟练使用,而Python语言则不同,该语言的运用逻辑较为简单,很容易掌握基本的编程方法,比较适合初学者学习[3]。例如,在利用编程语言实现某个功能时,基于Python语言的编程规模大约只有C语言的10%,当编程人员运用Python语言来进行编程工作,工作速度必将获得大幅提高,这也是Python语言得到迅速发展的重要原因[4]。

1.2 面向对象

Python中的所有部分都是对象。一方面可以面向过程开展编程工作,另一方面也可以面向对象编程。一般来说程序是基于数据与功能两个部分组成的对象构建而来的。像C语言、Java语言等在实现面向对象时,往往非常的复杂和繁琐,而通过Python语言的运用,可以非常方便、简单的完成面向对象编程。

1.3 可移植性好

Python语言能够与许多平台相兼容,比如说当下影响力比较大的Linux、Windows以及Android系统等,将Python应用到这些系统中仅仅只要增加解释器就可以,非常的方便[5]。

绝大多数语言均为编译型以及解释性,比如说C语言、C++等均是编译型语言,而Python则为解释型语言。C语言源文件基于准备处理、编译与链接等途径,最后在设备上执行目标代码。不同的是Python语言依托于解释器将源代码转变成中间字节码,之后运用Python虚拟机对执行代码进行解释。

1.4 多种多样的库

Python本身涵盖了各种各样的标准库,这些库中的资源能够为程序员工作带来极大的便利,涵盖有数据库、WAV文件、XML以及网页浏览器等。另外,Python不仅仅只有标准库,还存在很多高品质的库,比如说Python图像库等。

1.5 良好代码规范性

Python在进行代码编写时,通过强制缩进的方法对其进行约束,从而确保完成的代码拥有良好的规范性以及可读性。

2 Python及数据分析

在开展数据分析与数据挖掘工作中,Python、R语言以及SAS等都有着非常高的应用频率。Python与R语言同属于开源的,在互联网行业中获得了广泛的应用,与前两者不同的是,SAS是一个付费的商业软件,是现代医疗领域以及金融领域的标杆工具[6]。数据分析的进行必然要经历庞大的数据信息交互,开展探究性计算,最终获得可视性良好的数据结果。随着Python的不断发展和完善,可供其使用的数据库规模逐渐增大,现阶段其第三方数据库总数量已经达到了15.5万个左右。和R语言、SPSS等相比较,Python有若非常丰富的数据库资源,并且这些第三方库能够为数据分析工作带来极大的便利,例如,Numpy、Pandas等第三方库能够完成数据统计与可视化功能,为实现各种类型的数据分析工作提供可能。

2.1 Numpy库

Numpy是开展数据分析的标准工具,同时也属于科学计算库,为Python开展数组排列以及矢量计算工作提供帮助,能够依托于Numpy进行更高效率的数据核算与分析工作。在进行矢量运算过程中,借助于Numpy库一方面能够创建出多种便捷的端口,另一方面能够获得更高的数组运算速度,一般来说比程序员亲自操作Python语言进行运算的速度快将近一倍。尽管Numpy库主要以基础数据分析功能为主,并不包含大量的高等级功能,即便如此加强对Numpy库的理解和应用,能够更好的发挥数据分析工具的优势与价值。

2.2 Pandas库

Pandas库是在Numpy基础上构建的一个级别更高、性能更好的分析库,在能够实现数据分析基础操作的前提下,还可以开展数据排序、分组等高级操作,甚至也可以对相关数据进行求和、求最大最小值等。Pandas库在数据分析中占据了非常重要的地位,是专门为数据分析而开发的第三方库,可以实现结构化数据的处理。要开展数据分析工作,首先要从相关渠道获得需要的数据资源,Pandas库涵盖了各式各样的1/0 API函数,能够对csv、txt等格式的识别,同时也能够打开xlsx以及SQL server等形式的文件[7],如表1所示为Pandas库主要的读取文件函数。如表1所示。

2.3 Matplotlib库

Matplotlib库是一个非常重要的绘图库,在Python中发挥了重要的作用,将Matplotlib库与Numpy模块结合起来,能够将计算得到的结果以可视化的方式展现出来,由此可以看出,在Python众多第三方库中,Matplotlib是一个十分关键的数据可视化工具。在借助Matplotlib模块进行绘图时,通常采用的是该库本身带有的plot工具包,这个工具包涵盖的绘图应用程序接口和MATLAB有着较高的相似度,集成了许多非常复杂与高级的绘图目标结构,程序员仅仅只要使用pyplot模块中的指定函数,在加上少部分的代码,就可以轻松获得显示效果良好的直方图、散点图等平面图形或者立体图形[8]。借助于直方图可以清晰的展现出数据的实际体态特征。如图1所示为在mu等于95,sigma等于20条件下随机产生的9.5万个智商数据直方图。

3 Sickit-Iearn实现数据分析

Sickit-Iearn又称之为sHeam,是建立在Numpy库、Scipy库基础上的一种免费软件机器学习库,能够提供多种样式的算法以及模型,这些均是经过大量实践验证的,主要包含有分类、回归以及聚类算法三个方面,与此同时还可以进行数据降维、模型选取等操作。要想依托于Sickit-Ieam达成Logistic回归时,一方面需要进行算法设计,另一方面也需要运用Sickit-Ieam本身涵盖的ins数据集开展训练以及预估。

需要注意的是,Sickit-Ieam习惯于将通过训练集数据获取的值储存到下划线末端的属性中,这样操作的根本目的是实现和程序员规划的参数区域分离开来。通常情况下,权重主要存储在coef属性中,而偏移主要存储在intercept_属性中。

4 结语

Python语言不仅语法简单、容易上手,同时还能够实现强大的功能,包含了丰富多样的类库。Python拥有非常广泛的应用范围,在许多行业领域中发挥了重要的作用,比如说web编程、爬虫以及人工智能方面等,此外Python还能够很好的和C++、Java等语言构建的模块相兼容,因此也被叫做“万能语言”。依托于Python语言开展数据分析工作,既能够获得良好的分析效率,也可以得到理想的分析效果,所以Python成为了公认的优秀的数据分析工具。

参考文献

[1]谢克武,大数据环境下基于python的网络爬虫技术[J].电子制作,2017 (09):44-45.

[2]刘顺程,岳思颖,大数据时代下基于Py thon的网络信息爬取技术[J].电子技术与软件工程,2017 (21):160.

[3]逢菲,基于Python的分布式网络爬虫系统的设计与实现[J].电子技术与软件工程,2018 (23):6.

[4]夏火松,潘筱听.基于Python挖掘的大數据学术研究与人才需求的关系研究[J].信息资源管理学报,2017,7(01):4-12.

[5]王亮,左文涛,大数据收集与分析中Py thon编程语言运用研究[J].计算机产品与流通,2020(01): 22.

[6]丁传炜.基于Python大数据可视化的城市通勤特征分析研究——以上海市公共交通卡数据为例[J].伊犁师范学院学报(自然科学版),2019,13 (04):7 6-84.

[7]邱俊杰.基于Python定向爬虫技术对微博数据可视化设计与实现[J].电脑知识与技术,2020,16 (22):4 3-4 4+47.

[8]方骥,谢慧敏.Python在大数据挖掘和分析中的应用研究[J].数字技术与应用,2020,38 (09):75-76+81.

作者简介

周竞鸿(1976一),女,土家族,湖北省武汉市人。硕士学位,湖北国土资源职业学院讲师。研究方向为计算机应用技术。

猜你喜欢

Python语言数据分析
Python语言程序设计教学体系建设
面向计算生态的Python语言入门课程教学方案
浅析大数据时代对企业营销模式的影响