基于Python的数据可视化研究
2022-11-21洪丽华周卫红黄琼慧
洪丽华,周卫红,黄琼慧
(1.厦门软件职业技术学院 软件工程学院,福建 厦门 361000;2.云南民族大学 数学与计算机科学学院,昆明 650031)
随着科学的发展,各行各业需要处理的数据量急剧增加。有的需要批量处理,有的需要借助相关的软件来处理,有的甚至还需要通过编写代码来处理。那么,如何体现所处理数据的结果呢?数据可视化,是当前最受欢迎的方法。Python是处理大数据的最主要程序设计语言之一。结合本人参加百度公司和浙江大学组织的人工智能相关培训项目,本文从Python、数据可视化和二维图形3大方面进行阐述。
1 Python概述
Python是一种面向对象、开源、免费和功能强大的程序设计语言,提供了丰富和强大的标准库,还提供了大量的第三方库。第三方库的功能涉及人工智能、数据分析与处理和Web应用开发等领域[1]。Python是处理数据的主要语言之一。
Python自带的IDLE是集成开发环境(Integrated Development and Learning Environment)[2]。打开IDLE环境,其是一种交互式的开发环境,提供了交互式运行、程序编写和运行等功能。Python提供了不同操作系统版本,包括Windows操作系统版本、Linux操作系统版本、Mac操作系统版本及其他操作系统版本。读者可以登录Python的官方网站下载并进行安装。
Python的官方下载网址为:https://www.Python.org/downloads/。
Python的官方网站提供了Python的所有免费版本。根据Windows的操作系统,选择合适的Python版本的压缩包,下载、安装。按照相应的步骤,安装完Python后,从开始、所有程序、Python和IDLE,启动Python IDLE的编程环境。
2 数据可视化
数据可视化是处理数据的一项关键技术[3]。数据可视化是通过各种各样的图形来体现数据的相关性、对比性和变化趋势等内容,用户可以通过这些图形所提供的内容进一步分析和应用。数据可视化的作用,是把与信息、数据等相关的内容以图形的形式更清晰、更有效地传达和展现给用户。在某种程度上,从交流或表达的效果来看,数据可视化往往比文字更形象、更直接和更容易被用户理解。
Matplotlib是一个开源的数据可视化工具包[4],是Python中最受开发者喜欢的绘图库,而且其功能全面、用途广泛。Matplotlib可以绘制出各式各样的图形,比如:曲线图、直方图、散点图、折线图、饼状图、柱形图、箱线图、频谱图和雷达图等。Matplotlib不仅仅可以绘制2D图形,也可以绘制3D图形,还可以绘制动画。
运用Matplotlib进行数据图形绘制时,一般包括以下内容:数据区(数据点、数据曲线)、坐标轴(x轴、y轴、z轴及其标签、刻度)、标题、图例及图形文本、注解等其他描述[5]。
在Matplotlib库中,常用的函数有:axis()、title()、legend()、xlabel()、ylabel()、zlabel()、xlim()、ylim()、zlim()、xticks()、yticks()、zticks()、text()、annotate()、plot()、subplot()、hist()、bar()、grid()、pie()、boxplot()、scatter()和arrange()等[6]。
由于Matplotlib依赖于Numpy模块,安装完Python后,再安装第三方库Numpy,然后再安装第三方库Matplotlib。可以在线安装,也可以先下载安装包、再安装。在doc窗口中安装第三方库时运用命令pip install--,成功安装完会显示Successfully installed--。运用命令pip list可以显示已安装了哪些第三方库及其版本号。
3 二维图形
3.1 运用箱线图分析对学生平均成绩的影响因素和影响程度
为了提高学生的整体学习水平和成绩,现有一组经过采集得到的学生成绩和影响因素的数据集。而且为了更加清晰地了解学生成绩的最主要影响因素,现在需要对数据集进行分析处理,通过可视化找到特征与平均成绩的相关性。
相关的步骤及代码如下[7],图形如图1所示。
从运行结果的箱形图来看,数据是非常集中的,说明”reading score”因素对学生的平均成绩和学习水平的影响是非常大的,这给学校教师的教学和学生的学习提供了准确的指导方向。如果学校加强学生在”reading score”方面的学习、引导和监督,就会提高学生的成绩,提高学校的教学水平和教学质量。
3.2 运用柱形图预测泰坦尼克号乘客生还率
1912年,泰坦尼克号在第一次航行中与冰山相撞沉没,导致了大部分乘客和船员身亡。在本项目中,将探索部分泰坦尼克号乘客名单,来确定哪些特征可以最好地预测一个人是否会生还。
从泰坦尼克号的数据样本中,可以看到船上每位旅客的特征。
从以上运行结果的柱形图可以明显看出,不同性别(男性和女性)的乘客、不同年龄的乘客,在此灾难中,生还率是不同的。20~30岁的乘客的生还率比其他年龄段乘客的生还率高,女性乘客的生还率比男性乘客的生还率高。
3.3 运用折线图对电影评论进行情感分析
IMDB数据集是一个对电影评论标注为正向评论与负向评论的数据集,共有25 000条文本数据作为训练集,25 000条文本数据作为测试集。该数据集的官方地址为http://ai.stanford.edu/amaas/data/sentiment/。
相关的步骤及代码如下[8],图形如图4和图5所示。#[validation]accuracy:0.5147247314453125,loss:0.694599 9264717102
从以上运行结果的折线图,利用正向评论和负向评论的数据集,可以清晰地判断出accuracy和loss的变化情况。
4 结束语
基于Python的数据可视化,是目前众多学者所追求的一项技术,也是处理数据中最受欢迎的一种方法。这种方法所体现的各种各样的图形,能够充分地表达数据间的相关性及其变化趋势,能够最大化地被用户掌握和运用。基于Python的数据可视化,是一项可以继续扩展和延伸的技术。