Python数据分析中的数据整理探讨
2021-04-09山东大学管理学院张向伟
山东大学管理学院 张向伟
在现代社会中,数据量在不断的增加,人们也越来越重视数据价值。大数据的数据体积比较大,并且数据类型比较复杂,如何对数据背后的内涵进行挖掘,如何对复杂数据背后的意义进行分析,成为人们所重视的重要话题。Python属于功能完善、上手简单、操作性高的工具,其被广泛应用到数据分析领域。在此背景下,本文基于Python自带集成库分析了不同类型数据,并且实现数据可视化,证明了Python在数据分析中的可用性。
在人工智能技术不断发展的过程中,数据需求量也在不断增加。另外,信息技术和互联网技术的不断发展使人们生活习惯逐渐改变,大数据技术也被广泛应用到人们社会生产和生活中。人们在使用网络越来越频繁的背景下,产生了大量互联网数据信息,这种庞大数据信息中存在大量虚假、无用的信息,降低了信息的整体质量。为了从数据库中提取有价值信息,在使用专业数据处理技术过程中,出现了数据分析计算。Python为目前使用较为广泛的编程语言,其自身具有第三方数据库,在数据分析过程中能够提供帮助,应用前景良好。为了使Python技术在数据分析中的使用效率得到提高,本文将数据分析和Python技术作为基础,对Python数据分析中数据整理进行了探讨。
1 工具分析
Python属于计算机程序设计语言,因为其具有较高的可读性、集成方法全面、上手比较简单、易于理解掌握,被广泛应用到计算机领域和非计算机领域中。从广义上来说,数据分析指的是对大规模数据进行分析,比如数据读取、计算、存储、可视化等,通过数据分析发现隐含的并且对于系统决策有参考价值的关联信息和发展趋势。所以,数据分析是跨越多个计算机学科分支,也是挖掘数据隐含价值的主要手段。
Python是一种面向对象交互式、解释型语言,不仅有Java、C++的强大功能,还具有脚本语言简易性,其主要优势包括:其一,简易性。Python语法比较简单,实现同样的功能只需要C++和Java代码量的三分之一。Python设计原则就是简单,其各方面都将此原则为基础,从而体现更多优势。因为语言自身简单,所以学习Python也更加容易,并且其代码比较容易维护、阅读,能够提高软件的质量。另外,代码量比较少,能够降低输入,使开发效率得到提高。一条语句能够实现多条C++语句实现的功能,能够提高硬件性能,保证开发效率;其二,开放性。Python能够和现有环境、主流语言进行交互,假如Python解释型语言速度慢,其能够通过Python调用C++编写模块的Python模块,实现.Net和COS的交互,还能够使Python脚本在浏览器中调用;其三,可移植性。Python属于解释型语言,缺乏编译连接过程,通过Python解释器执行,所以Python代码能够不经修改就可执行在不同的操作系统;其四,资源丰富。通过www.Python.org可以得到大量资源,能够有效解决应用过程中遇到的问题。
以上是Python的特点和优势,本文将选择Python作为编程语言。
2 Python数据分析平台设计
2.1 设计需求
基于Python的数据分析平台在设计过程中,需要解决数据分析过程时数据收集、可视化、分析和导入等问题,以便实现数据分析处理。利用上述类库设计平台,使程序开发过程得到简化,实际使用需求得到满足。比如,在设计某产品客户满意度问卷分析工具过程中,可以通过本地获取方式来实现,调查问卷导入之后对数据开展预处理,根据问题的分类提取数据并且转换格式。之后,通过预先创建的数据分析模型进行分析,得到综合性评价结果。除了展示目前数据图形化之外,还要存储数据,改良产品,对客户满意度变化趋势进行分析,提供给产品设计参考依据。
2.2 数据获取和预处理
获取数据是数据分析的基础,指的是以需求分析的结果对数据进行收集和提取,主要通过本地获取和网络爬虫两种方式获取。网络爬虫指的是通过利用Python编写爬虫,合法得到互联网中的语音、文字、视频和图片等信息;本地获取是指利用计算机工具得到在本地数据库存储的营销、生产和财务等系统实时数据和历史数据。
数据预处理指的是实现数据合并、标准化、清洗和变换,并且可以直接在分析建模中使用的总称。数据合并指的是使多张相互关联的表格合成一张;数据清洗指的是将不一致、异常、缺失、重复的数据去掉;数据交换指的是利用哑变量、离散化等技术使后期分析和建模数据需求得到满足;数据标准化是将特征之间量纲差异去除。在对数据分析时,数据预处理的过程是相互交叉的,先后顺序并不固定。
2.3 分析建模
分析建模指的是利用分组分析、对比分析、回归分析、交叉分析等方法和分类模型、聚类模型、智能推荐和关联规则等模型,对数据中有价值的信息进行挖掘,并且通过分析得到结论的过程。
2.4 模型评价和优化
模型评价指的是创建一个或者多个模型,针对模型类别利用不同指标对其性能优劣进行综合评价的过程。模型优化指的是模型性能通过模型评价之后满足要求,但是在实际生产过程中发现模型性能不太理想,从而实现模型重构和优化的过程。模型部署是指使数据分析结果在实际生产系统中使用的过程,以不同实际需求来部署,其包括针对现状具体整改措施的数据分析报告、在生产系统中使用和部署的解决方案。在大部分项目中,数据分析员能够提供一份解决方案和数据分析报告,需求方为实际部署和执行方。
2.5 核心技术和平台框架
在设计基于Python语言数据分析平台时,要以软件应用的需求创建数据通道和数据库,便于数据调取和使用。另外,还要实现可视化展示模型和操作界面的设计,使用户对数据设计结果进行观察。本文在设计时,利用开源Python2.7进行编程,全部的类库、模块包括codes、Json、os和Matplotlib等。开源python2.7能够通过网络下载,利用pip对模块和类库下载。调查问卷为数据处理对象,能够使调查问卷数据结果在数据库中存储,并且通过函数调用录入数据,实现数据的分类存储。其次,除了调查问卷中的信息,还会录入调查对象信息,对调查问卷有效性进行评价,在处理数据时提出无效的问卷数据。在对数据结果展示过程中,可以利用图表方式将问卷信息与调查对象的结果展示出来,从而方便观看结论。
2.6 主要功能模块
在此数据分析平台功能模块设计过程中,需要为用户提供良好操作图形界面。主界面操作包括调查问卷查询、导入、结果展示、数据分析等功能,利用主界面对数据库更新,根据操作限制条件处理结果。此平台的数据分析能够给设计人员提供参考,在分析基本数据后,结合设计的要求将结果展示出来。比如:以产品的外观造型、产品功能、包装等数据分析结果来展示。随着产品销售时间的增加,评估数据的总量会扩大,在数据库中利用SQL语言编译,只需要以此创建就能够重复调用,使数据执行速度得到提高。在数据初始化时,以不同分类结果进行展示,实现数据表自动生成,对可视化模型调用,展示数据结果。用户在使用数据结果时,可以利用编辑、删除、查询、选择等功能得到自己需要的数据分析结果,并将其存储在结果数据库中。
结语:对比一般计算机编程语言,Python语言的主要特点就是免费、上手容易、语法简单,从而使Python的使用更加广泛。在数据分析中使用Python的时候,要结合数据的具体类型选择合适Python数据分析技术,可以提高数据分析的速度和质量,以此对未来发展趋势的科学预估提供数据支持。