APP下载

人工智能在数据清洗中的应用

2016-09-27贵州泛亚信通网络科技有限公司尹国丽

电子世界 2016年16期
关键词:人工智能方法

贵州泛亚信通网络科技有限公司 尹国丽

人工智能在数据清洗中的应用

贵州泛亚信通网络科技有限公司尹国丽

数据质量关系到信息系统的运行与建立,以及运用有效性,为保证数据质量,需采取数据清洗的方法进行处理,以去除不良信息。融入了现代人工智能科技的数据清洗,不仅能够更加有效地整理数据,还大大提高了工作效率,因而得到重视。本文探讨了该技术在数据清洗中的实际应用,以供参考。

人工智能;数据清洗;应用

1 引言

在采集数据后,由于所采集的原始数据中,往往会包含大量的无效数据,因此需要在将数据投入实际运用之前进行过滤和清洗。由于新获取数据需要进行合法性检查、通过数据分析格式转换,采取人工智能的方式,不仅能够获得实用有效的数据信息,还提高了数据清洗的效率,是值得推广的现代科技。

2 数据清洗概述

所谓数据清洗,指的是及时发现并纠正存在于数据文件中可识别错误的方法,以维持数据的一致性,从而对数据录入后的缺失值、无效值等进行处理,去除其中不符合需求的信息。

2.1数据一致性检查

数据的一致性检查,指的是依据每个变量之间的相互关系、取值范围等,对数据的合理性进行检查,进而去除其中超出正常范围或逻辑不符合要求的数据信息。而逻辑不一致的情况下,数据信息仍然可以多种方式存在,例如:人员基本信息中的出生日期、身份证号码等,一旦发现不同,就需要及时记录并纠正。

2.2无效值与缺失值处理

无效值与缺失值处理方法如下:(1)估计,利用其他变量值,代替无效值或缺失值,操作简单,但容易产生较大误差;或依据该对象的其他数据,通过逻辑推论实现估计。(2)整列删除,即是将含有缺失值或无效值的数据直接删除,但是容易导致数据样本大量丢失,造成该部分的数据都无法利用。(3)变量删除,如果某一变量存在的缺失值较多,但是该变量并不是特别重要的,因此可考虑将其直接删除。

3 数据清洗的原理与方法

3.1数据清洗的原理

通常进行数据清洗时,依据的原理在于运用相关技术,严格按照预先定义的清理规则,将原始采集的,尚未经过清洗的脏数据,转化成为能够满足数据质量要求的数据,其原理如图1所示。

图1 数据清洗原理

3.2数据清洗的方法

正常情况下,数据清洗方法通常是首先将数据库中的重复数据进行删除,然后转换余下的数据,经过一系列清洗步骤,将数据整理为所需要的格式,最终输出使用。数据清洗要点在于保证期准确性、完整性、一致性与有效性。而在针对具体应用时,由于很难将其归纳为统一的方法或程序,因此需要依据实际情况和数据差异,采取相应的处理方法。(1)对于一些存在缺失问题的数据,则需要首先从其他数据源为依据进行推导,然后运用一定的推导方法,将数据导入;而对于可以直接采用手工方式填入的数据,即可采取手工填入。(2)针对错误值,则可以运用统计分析的方法,识别其中存在的错误值、异常值等,或者采用常识性的规则,对其进行检测与清理。(3)被判定为重复记录的,通常是记录为属性值完全相同的数据,因此在消除此类数据时,同样需要通过判断其属性值,从而得到重复数据,进而采取合并或清除措施。(4)不一致性的检测及解决方法,可以通过定义数据的完整性约束来检测数据的不一致性,也可以通过分析数据发现联系,从而使数据保持一致。

4 人工智能在数据清洗中的应用

4.1人工智能

人工智能即机器智能,即对人的意识、行为、思维信息过程等进行模拟,使其具有人工智能功能,进而代替人完成危险性、复杂性或机械性突出的任务,提升工作的效率和质量,将人工智能应用于计算机网络技术中与人工智能自身的优势具有密切的关系。

4.2CATT数据清洗方案的整体实现

4.2.1文本识别方法的实现

在使用C语言进行文本识别贝叶斯学习算法的开发时,能够为将来的数据使用和移植,提供重要的操作平台,而其中需要重视的要点就在于移植后的重新编译环节。读取csv文件的部分,最后采用了Per15来进行编写,其原因有以下方面:(1)Per15属于一种脚本语言,其开发的难度相较于其他模式而言较低;(2)Per15便于跨平台实施,只要预先在最终平台上,设置Active Perl以及相应的库,即可运行;(3)Perl能够利用数据库的DBI接口,从而直接与操作数据表一样,进行csv文件的相关操作,从而便于开发。

在perl程序中读取csv文件,并通过文本识别程序naive少yes,判断目标值是否正确,其具体方法如图2所示。

图2 人工智能清洗代码片断

一般情况下,在项目进行试运行的初期阶段,约12个星期的时间内,可以将阀值定为95%,即控制$result值大于或等于95%时,被认为是正确的数据,此时就会通过DBI将其写入IAPP013 APPL EMAIL. csv文件中;而如果$result值小于95%时,则会将其写入IAPP013-PPLMAIL_suspicion.csv文件中,以待采取进一步的处理措施。

4.2.2清洗工作流程方案(见图3)

图3 清洗工作流程

在通过元数据管理清洗方式,依据CATT主题的特殊需求,首先需要对IAPP013 APPL EMAIL.csv文件进行清洗,即通过人工智能的方式,将desired location字段进行清洗,然后针对其中所有的

数据文件等,采取同样的清洗过程。在实施清洗的初始阶段,需要引入相应的数据清洗模块,以此解决该数据主题以及该字段所存在的特殊需求。在经过该模块对源文件的清洗之后,将会产生两个文件,其中一个文件所包含的,是所有符合正确条件的数据,因此可以用这些数据替换数据池中的IAPPO 13 APPL EMAIL.csv文件;而另外一个文件,则包含的是所有未能通过清洗认证的,存在问题的可疑数据。此时,维护人员将会收到E-mail的通知,要求将这些可疑数据文件,采取人工识别的方式进行整理检查,并且将其中的正确数据、错误数据等,分别添加到之前分好的正确和错误的数据样本库中。该过程的必要性,主要是由于人工智能模块实际运行处于试验阶段,而随着人工智能的运用能够日渐熟练并适应之后,维护人员所需要采取的人工干涉将会越来越少,最终达在能够达到数据处理特殊需求的同时,提高工作效率。

图4 系统运行环境结构

就整体框架而言,清洗过程本身及其所包括的表、视图、存储过程等,均被储存于元数据库中,运用SQL Server2000管理界面,用户可以浏览并更新相关数据,进而更新代码并编辑各对象的元数据,为元数据库定制相应的界面,实现用户管理。

清洗逻辑则需要依据字典中的相关记录,针对其中的脏数据采取清洗措施。所对应的元数据模型主要由存储过程来实现,而元数据中所储存的,对于何种记录的清洗与被清洗成何种值等,其中的储存信息通常用表或视图的形式实现。

项目小组需要将清洗模块安置于一台开发用的服务器上,即Linux服务器,所使用的操作系统为Suse Linux 10,而后期进行清洗的部分,则与其他的数据主题一样,放置于一台开发用SQL Server服务器上,而将数据池放置于Folsom的服务器上,这整个系统的运行环境如图4所示。

5 结语

在生产业务不断拓展,生产管理、技术质量以及财务成本等各个方面相关数据随之产生,为了得到准确明晰的参考数据,进行数据清洗至关重要。通过将人工智能的清洗方法融入其中,智能去除其中的错误数据或重复数据,有效保证了数据质量,为数据在后期的使用中提供可靠的依据。

[1]赵姝颖.人工智能技术在科技传播中的应用探索[J].机器人技术与应用,2014(1):37-41.

[2]杨东华,李宁宁,王宏志,等.基于任务合并的并行大数据清洗过程优化[J].计算机学报,2016(01):97-108.

[3]罗强,何利力,王晓菲.数据仓库中数据清洗技术分析[J].电脑编程技巧与维护,2015(2):61-61.

猜你喜欢

人工智能方法
我校新增“人工智能”本科专业
学习方法
2019:人工智能
人工智能与就业
数读人工智能
下一幕,人工智能!
下一幕,人工智能!
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法