APP下载

基于Pandas实现Excel文件的批量导入与分析

2020-04-10马孝宗

现代信息科技 2020年1期
关键词:数据分析

摘  要:文章以驻马店卷烟厂综合合格率分析为例,详细阐述了基于Pandas对Excel文件进行批量导入与分析的实现过程。该方法实现了Excel数据导入与分析的自动化,有效避免了由于数据量大、表格结构复杂造成的人工操作多、数据汇总难、易出错、效率低等难点,该程序也适用于CSV、SQL、TXT、HTML等文件的批量导入与分析,具有良好的实用性与推广价值。

关键词:Pandas;Excel;批量导入;数据分析

中图分类号:TP391       文献标识码:A 文章编号:2096-4706(2020)01-0060-03

Abstract:Combined with practical application,taking the comprehensive qualification rate analysis of Zhumadian Cigarette Factory as an example,this paper elaborates the implementation process of batch input and analysis of Excel files based on Pandas. This method realizes the automation of Excel data input and analysis,effectively avoids the difficulties of manual operation,data collection,error prone and low efficiency caused by large amount of data and complex table structure. The program is also suitable for batch input and analysis of CSV,SQL,TXT,HTML and other files,which has good practicability and promotion value.

Keywords:Pandas;Excel;batch input;data analysis

0  引  言

在企业数据分析的过程中,经常要对大量Excel表进行数据汇总,再计算出综合的指标。这些Excel表命名类似、结构一致,通常采用复制、粘贴的办法将各表数据粘贴至总表,再对总表进行数据核算。由于Excel表数量多、数据结构复杂,数据汇总的过程既占用统计人员大量的时间,又无法避免人工操作导致的数据缺失、数据错误、格式错误等,严重影响数据分析的及时性、准确性。为此,需要借助数据分析工具对Excel数据进行批量导入与分析。Pandas是Python下最强大的数据分析和探索工具,提供了高效操作大型数据集所需的工具。Pandas不仅提供了计数、筛选、排序、分组、绘图、方差分析、数据透视、数据合并与重塑等常用的统计分析功能,还提供了自定义函数功能以满足用户个性化的需求。下文介绍如何基于Pandas实现Excel文件的批量导入与分析,提高企业数据分析的工作效率。

1  需求分析

驻马店卷烟厂质量综合合格率分析包括数据生成、数据汇总、数据分析等环节。在数据生成环节质检人员操作质检仪器自动生成质检记录表,每个质检记录表都是单独的Excel文件,其中记录了本次质检的详细数据并以系统时间命名保存;在数据汇总环节统计人员采用复制、粘贴的办法将符合条件的质检记录表汇总为月度总表,并补全其中的缺失值;在数据分析环节统计人员首先导入各牌号的判定标准,接着判断每次质检的质量标偏、吸阻标偏、圆周均值 是否合格,然后统计质量标偏、吸阻标偏、圆周均值的合格率并以0.4、0.4、0.2的比例计算质量综合合格率,最后计算各机组与班组的月度质量标偏均值、月度吸阻标偏均值、月度圆周标偏均值。

质量综合合格率分析的核算过程存在以下几个难点:数据的汇总依赖于人工复制、粘贴,易出错且效率低;质检记录表中的“班组”与“机组”列为合并单元格,导致汇总后的月度总表内出现大量缺失值,需要人工补全;质量综合合格率分析包括质量综合合格率的计算与各项标偏的分类汇总,其计算过程复杂、耗费时间。Pandas提供了导入Excel文件的函数,可实现Excel文件的批量导入,Pandas中的数据帧类似于Excel中的工作表,以二维表的形式存放数据,且其分析功能也与Excel类似,因此基于Pandas可以极大地简化现有的质量综合合格率的分析过程。

2  技术方法

基于Pandas实现质检记录表的批量导入与分析,具体流程包括以下5个步骤:

(1)创建路径:获取计算机桌面路径,在计算机桌面检查并创建质量综合合格率分析所需的文件夹,统计人员将符合条件的质检记录表存放到此文件夹内。

(2)数据导入与清洗:首先设定合适的文件名筛选规则,接着扫描文件夹内所有文件名符合规则的Excel文件,通过设定文件的路径、标题行、索引列将Excel数据导入为Pandas的数据帧。导入后的数据通常包含无效值、缺失值、重复值、错误值等,通过数据清洗的过滤掉不符合要求的数据,Pandas中过滤数据的常见操作包括删除、填充、替换等。

(3)数据填充与汇总:清洗后的质检数据存在缺失值,采用填充所有空值为上一个非空值的方法将数据帧补充完整。接着依次合并填充后的数据帧,直至文件夹内符合命名规则的Excel表合并完毕,即可得到质检数据的月度总表。

(4)数据分析:从月度总表中筛选出质量数据、吸阻数据、圆周数据,采用数据透视、计数、自定义函数、数据合并与重塑等功能对各数据帧进行快速分析,计算各机组月度质量综合合格率、各机组各项标偏月度均值、各班组各项标偏月度均值。

(5)数据导出:将月度质量综合合格率、各机组各项标偏月度均值、各班组各项标偏月度均值三个数据帧保存至同一个Excel工作簿,便于统计人员查看、分析、记录。

3  程序实现过程

4  结  论

对于大量Excel文件的统计分析,如果缺乏自动化、批量化的数据汇总方法,数据汇总的过程将成为耗时多、易出错、效率低的瓶颈环节。借助功能强大的Pandas工具,统计人员可以快速、准确地从大量结构类似的Excel文件中导入数据、清洗数据、汇总数据、分析数据。除了Pandas工具自带的统计分析函数,用户也可以方便地自定义函数,实现个性化的分析功能,极大地拓展Pandas的分析能力,有效提高统计人员的工作效率。除了Excel类型的文件,Pandas也适用于CSV、SQL、TXT、HTML等类型文件的批量导入与分析,具有良好的实用性与推广价值。

参考文献:

[1] 张良均,王路,谭立云,等.Python数据分析与挖掘实战 [M].北京:机械工业出版社,2015:60-64.

[2] 张若愚.Python科学计算 [M].北京:清华大学出版社,2012:469-471.

[3] 麦金尼.利用Python进行数据分析:第2版 [M].徐敬一,译.北京:机械工业出版社,2018:10-11.

[4] 马瑟斯.Python编程从入门到实践 [M].袁国忠,译.北京:人民邮电出版社,2016:80-82.

[5] 西格兰.集体智慧编程 [M].莫映,王開福,译.北京:电子工业出版社,2015:156-157.

[6] 张志强,赵越.零基础学Python [M].北京:机械工业出版社,2015:85-86.

作者简介:马孝宗(1989-),男,汉族,河南驻马店人,信息管理员,助理工程师,硕士,研究方向:数据分析、办公自动化。

猜你喜欢

数据分析
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议