APP下载

大数据中数据的质量问题探析

2020-02-14刘妍东

现代商贸工业 2020年4期
关键词:解释性可信性数据库

刘妍东

摘 要:随着云时代的来历,大数据技术也越来越引起人们的关注。大数据带来的巨大的技术和商业机遇使众多的企业趋之若鹜。大数据分析挖掘和利用将为企业带来巨大的商业价值,但随着数据规模的急剧剧增,数据体量巨大、数据类型繁多,数据的价值参差不齐,在数据分析时将导致分析偏差。所以在大数据时代,数据的质量问题也是重中之重。通过分析,数据的质量问题主要存在这六大方面的问题:准确性、完整性、一致性、相关性、时效性、可信性和可解释性。

关键词:大数据;质量问题

中图分类号:TB     文献标识码:A      doi:10.19311/j.cnki.1672-3198.2020.04.092

1 从采集的角度划分质量问题

1.1 准确性

准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。例如,某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。如果用户提供的证件号码与实际号码一致,那么该号码存储在数据库中的值就是正确的。

数据的不准确由如下原因造成:一是在收集数据时,设备出现故障,导致数据存储的值出现乱码。二是在数据输入时,人为的输入不准确的信息,或者计算機内部出错导致录入的信息有误,比如我们上网注册一些信息时,出于隐私考虑,用户会故意输入不正确的信息,包括年龄、地址、手机号等。 三是在数据传输的过程中出现错误。比如,超出了传输缓冲区的大小,数据会出现截断等现象。最后一种是命名约定、数据代码、输入字段的格式不一致导致出错。其中,最常见的是:不按格式输入导致出错,例如输入字段为日期时,多个用户输入日期的格式不一致。

1.2 完整性

完整性是指信息具有一个实体描述的所有必需的部分。在传统关系型数据库中,完整性通常与空值(NULL)有关。空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条记录都丢失。

不完整的数据对数据分析会产生影响,比如考虑构造一个预测交通事故发生率的模型。如果忽略了驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的。这种情况下,我们就需要尽量采集全面的数据信息。

1.3 一致性

数据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。

比如表1描述学生的基本信息,包括学号、姓名、性别、出生日期和所在专业,而所在专业必须从专业信息表获取。表2描述了专业的基本信息。从这两个表可以看到,表1中的学生李想所在的专业号并没有出现在表2中,说明该条记录的专业号有误,必须修改正确,才能保证两张表对应字段的正确性,这是数据的逻辑不一致。 数据不一致还体现在记录的不规范上,比如两个表中对日期的格式记录不一致,如20100405和2019年4月5日这两种格式,会导致在数据集成中造成数据冲突。

另外在数据出现冗余的情况下,数据内容由于各种原因比如并发控制不当,或程序故障导致前后数据不一样也是造成数据不一致的原因。

2 从应用的角度划分质量问题

2.1 相关性

数据的相关性是指数据与特定的应用和领域有关。与数据相关的应用场景一般有,比如进行数据挖掘或构造模型预测时,需要采集相关的数据。例如考虑构造一个模型,预测交通事故发生率。如果忽略了驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的。这种情况下,我们就需要尽量采集全面的相关的数据信息。

另外一个相关性的质量问题表现在相同的数据,在不同的应用领域中,相关性也是不一样的。例如,对于某个公司的大型客户数据库,由于时间和统计的原因,顾客地址列表的正确性为80%,其他地址可能过时或不正确。当市场分析人员访问公司的数据库,获取顾客地址列表时,基于目标市场营销考虑,市场分析人员对于该数据库的准确性满意度较高。而当销售经理访问该数据库时,由于地址的缺失和过时,对该数据库的满意度较低。

2.2 时效性

数据的时效性是指有些数据会随时间而变化的,这些数据收集后就开始老化,使用老化后的数据进行数据分析、数据挖掘,将会产生不同的分析结果。 如商品推荐。顾客的当时购买行为或Web浏览行为称为快照,它只代表有限时间内的真实情况。如果数据已经过时,则基于它的模型和模式也就已经过时,所以进行商品推荐需要采集当前的数据进行分析和推荐。在这种情况下,我们需要考虑重新采集数据信息,及时对数据进行更新。

另应用场景是城市的智能交通管理。以前没有智能手机和智能汽车,很多大城市虽然有交管中心,但它们收集的路况信息非常滞后。用户看到的,可能已经是半小时前的路况了,那这样的信息就没有什么价值。但是,能定位的智能手机普及以后可就不同。很多用户开放了实时位置信息,做地图服务的公司,就能实时得到人员流动信息,并且根据流动速度和所在位置,区分步行的人群和汽车,然后提供实时的交通路况信息,给用户带来便利。这就是大数据的时效性带来的好处。

3 从用户的角度划分质量问题

3.1 可信性

数据的可信性由三个因素决定:数据来源的权威性、数据的规范性、数据产生的时间。例如新浪微博某一用户发布的微博内容是否具有可信性,首先确定数据来源是否具有权威性,如果是权威机构的数据,那么可信度比较高。如果微博字数较长且叙述比较详细,可信度也会增加。同时微博的发布时间是否接近实时,也影响数据的可信度。

3.2 可解释性

数据的可解释性,也称为可读性,是指数据被人理解的难易程度,如果数据具有解释性或包含有注释性信息,而且数据书写规范,则数据的可解释性越高。相反如果数据晦涩难懂就根本不具备分析的条件。

当我们在数据采集和处理时能处理好这六种数据质量问题,则在大数据分析中,就会得到正确及实用的信息。

参考文献

[1]朱慧明.大数据背景下电商运营课程教学改革研究[J].现代商贸工业,2019,(32).

[2]张余丹.大数据时代在线教育平台商业模式浅析[J].现代商贸工业,2019,(21).

猜你喜欢

解释性可信性数据库
可变情报板发布内容可信性检测系统探究
基于可信性的锅炉安全质量综合评价研究
论行政自由裁量的“解释性控权”
在区间上取值的模糊变量的可信性分布
Five golden rules for meeting management
融媒体时代解释性报道的发展之路
非解释性宪法适用论