利用PQ完成数据清洗任务
2020-01-16王志军
王志军
同事小秦前来求助,如图1所示,现在她需要根據D列的内容计算出每种物料的数量之和,但这份表格由于经过多人编辑,数据相当混乱。除了手工操作之外,有没有简单高效的清洗手段呢?
我们可以借助Excel的PQ(Power Query)编辑器完成清洗任务,具体操作步骤如下:
第1步:创建表
切换到“数据”选项卡,单击数据区域任一单元格,在“获取和转换数据”功能组选择“自表格/区域”,随后会弹出“创建表”对话框,如果数据来源没有问题,那么直接点击“确定”按钮即可。
第2步:统一分隔符号
打开如图2所示的Power Query编辑器之后,我们首先需要统一数量之前的分隔符号“:”,目的是为了规范在输入时可能半角全角都有输入的情况。单击“存放地点”所在列的列标,切换到“转换”选项卡,在“任意列”功能组打开“替换值”对话框,将半角的冒号都替换成全角冒号。
第3步:将姓名和数量分开
保持“存放地点”所在列的选中状态,仍然在“转换”选项卡下进行操作,在“文本列”功能组依次选择“拆分列→按分隔符”,打开“按分隔符拆分列”对话框。首先清空预置的分隔符,单击展开“高级选项”按钮,选择拆分为行,勾选“使用特殊字符进行拆分”,分隔符号为换行符。这样处理的目的,是将姓名和后面的数量分开,执行之后可以看到如图3所示的拆分效果。
第4步:去除物料的单位
再次打开“按分隔符拆分列”对话框,此时请选择拆分为列,分隔符号选择冒号“:”,拆分之后的效果如图4所示。单击选中新拆分出的“存放地点2”列,选择“拆分列→按字符数”,拆分字符数设置为1,然后选择“一次,尽可能靠右”。这样处理的目的是为了去除最后的“只”“把”“台”等物料单位。
双击字段名称,修改成便于识别的内容,例如“数量”。最后返回“主页”选项卡,选择“关闭并上载”,如图5所示,现在就可以很方便地对完成清洗的数据进行汇总和计算了。以后,如果数据源有增加或更新,只需要在汇总表点右键即可获得最新的结果,不需要进行任何其他的操作。