基于python数据分析技术的数据整理与分析研究
2020-02-25韩文煜
韩文煜
摘 要:在数据爆炸的时代,数据的价值被人们广泛的关注,大数据一词也应运而生。之所以叫大数据,是因为数据体积庞大,且数据类型繁杂。如何挖掘数据背后的内涵,如何分析看似杂乱无章的数据背后的意义等,成为人们津津乐道并广泛研究的问题。Python作为一种操作性高,上手简单,功能齐全的工具,被数据分析领域广泛使用。文章将使用python作为主要工具,利用python中所自带与集成的库,对不同类型的数据进行分析,并将其可视化。从而证明python在数据分析领域的可用性。
关键词:大数据;分析;python
中图分类号:TP311 文献标志码:A 文章编号:2095-2945(2020)04-0157-02
Abstract: In the time of data explosion, the value of data is widely concerned, and the term "big data" comes into being. It is called big data because the huge volume of data and the complexity of data types. How to mine the connotation behind the data and how to analyze data is becoming a problem that people like to talk about and widely study. Python is a simple data analysis tool. In this paper, python will be used for data analysis and visualization.
Keywords: big data; analysis; python
1 工具介紹
1.1 Python简介
Python是一种计算机程序设计语言。由于它的可读性高,集成方法比较多且全面,上手简单,便于理解等优势,被计算机领域及非计算机领域数据分析时广为使用。
1.2 数据分析简介
广义上的数据分析是指针对所收集的大规模数据,进行如数据读取,存储,计算,可视化,分析等技术,从数据之中发现隐含的,对决策有参考意义的信息、价值和趋势。因此,数据分析是一个跨越多学科的计算机科学分支,也是挖掘数据价值的重要手段。
2 方法及使用库介绍
对于数据分析人员来说,熟悉python中集成的多种类型的库是极其重要的。数据分析一般分为以下步骤:获取,保存,读取,计算,可视化,分析。Python中包含大量的集成好的包,使用者可以用简单的方式调取,使得分析过程更加便捷,并稳定性高。所以了解重点库是数据分析的重要一环。
2.1 Numpy
Numpy是python中用于计算的基础模块,还可以处理大型矩阵。Numpy的数据结构容量能够保存任一类型的数据,所以numpy可以整合各种数据,在性能上比python自身嵌套的列表结构要高很多。所以使用python进行数据分析时科学计算的模块大多会使用numpy库。
2.2 Pandas
Pandas是python中读取、保存、设置数据结构类型的主要模块。由于pandas的灵活性,在处理excel中的数据时,可以更加的高效。如读取excel表格,选择性的读取excel表格中的某一列,某一个数据,转换数据类型等。
2.3 Matplotlib
Matplotlib是python中用于可视化的一个模块。为了使数据更加的便于观察,利于使用者、学习者、分析者、更好的理解数据中潜在的含义,数据可视化在数据分析中是必不可少的模块。常见的可视化类型有折线图、柱形图、饼状图、散点图等等。
2.4 Pyecharts
Pyecharts是一个用于生成Echarts图表的类库。Echarts是百度开源的一个数据可视化JS库。可以生成动态可选择的图片,可视化效果美观,多变。可适合数据分析人员做展示使用。
3 实证分析
3.1 数据准备及整理
我们对已经获取的数据文件进行读取,并选择需要分析的数据。以“实验数据1.xls”为例。
使用pandas读取excel文件:
3.2 文本数据准备及整理
文本数据读取,包括已经解析的关键词,和关键词出现的数量。
3.3 数据可视化
使用matplotlib画折线图展示(见图2)。
通过以上的介绍与展示,可以发现在数据分析领域,python可以完成大部分的分析工作。当然python的数据分析功能远不止这些,比如批量处理数据,通过机器学习的方法分析数据,对数据进行统计检验等等。读者可以通过学习更多的编程语法来更好的使用python。
参考文献:
[1]Wes McKinney.利用Python进行数据分析[M].北京:机械工业出版社,2013.
[2]Yves Hilpisch.Python金融大数据分析[M].北京:人民邮电出版社,2015.