数据匹配在大数据业务中的作用
2021-01-13宋茜
宋茜
尽管大数据分析听起来很有希望,但公司对其数据的期望与现实之间仍然存在巨大差距。现在的公司喜欢大数据但缺乏有效使用大数据的策略,哈佛商学院分享了他们的一些见解:“问题是在很多情况下,大数据没有得到很好的利用,公司更擅长收集关于他们的客户、他们的产品以及竞争对手的数据,而不是分析这些数据并围绕它设计战略。”
这不仅突出了对大数据的需求,而且强调了学习如何设计包含大数据的业务战略。
大数据:利用高级分析
大数据是一种消耗大量空间(体积)、以前所未有的速度(速度)并以不同格式(种类)存在的东西。大数据本身并不能为业务流程或战略增加价值,必须用好它才能从中提取所有见解和好处。
如果大数据使用得当,那么它可以通过利用收集到的有關产品、客户和市场的洞察来帮助优化运营和业务流程。
制定结合大数据的有效商业战略
BillSchmarzo被称为大数据院长,他对使用大数据来实现业务目标过程进行逆向工程的操作,做出了最好的解释。
确定预期的业务成果
首先,必须确定业务需要的成果,尝试考虑能够改变业务的举措,或使其离成功更近一步。例如,在未来12个月内将在线商店销售额增加10 %。
确定支持用例
此步骤是关于了解哪些用例将帮助实现第一步中的成果。例如,如果在线销售额增加10 %是期望的业务成果,那么其支持用例将是:在高流量网站上做广告促销、开展电子邮件营销活动以及增加在线潜在客户生成等。
一旦实现了每个业务成果的支持用例,需要评估每个用例的财务影响、潜在价值和实施风险。
优先考虑用例
在此步骤中组织需要对所有用例进行优先级排序,以便可以一次专注于一个用例,这可以通过对比业务价值、用例的实施可行性来完成。
确定每个用例的数据源
每个用例的实现都需要使用数据来完成。例如,为了提高客户交叉销售,需要来自社交媒体、购物篮、站点流量信息等数据。在这一步中,每个用例都与一个或多个数据源相关联。
计算每个用例的经济价值
一旦了解了成功执行每个用例所需的数据源,就可以计算数据源所拥有的财务价值。
刚刚看到了每个数据源如何拥有经济、财务价值,以及如何使用它来成功执行任何有助于实现预期业务成果的用例。每个组织都可以访问其数据,它一定很简单,每个人都应该这样做,对吧?
数据源具有这种经济价值,因为它们要具有衡量数据质量的6个关键维度:数据准确性、有效性、一致性、唯一性、完整性和及时性。
有一个挑战比其他挑战更复杂,就是在所有数据源中拥有独特的数据记录。
很多时候,需要来自多个来源的数据才能完全执行单一用例,为此,数据首先被合并和整合,以便可以存储在一个地方,并且可以用于分析。
公司通常在数据库中有许多关于同一个人/实体的数据记录。这是因为很多完整的信息会导致创建新联系人而不是更新现有联系人,或者信息存储在不同的系统中,例如网站跟踪应用程序、电子邮件活动工具等。
不管是什么原因,这是降低大数据分析结果准确性的最常见障碍。例如,如果数据包含与同一个人相关的重复记录,最终可能会向这个人发送2次电子邮件。这不仅会损害客户体验,还会使用例结果不准确,可能会多次计算来自同一个人的点击率,并高估了电子邮件活动的有效性。
介绍数据匹配
当不同的数据集被合并和清除在一起时,数据值会变得重复和不一致。如果将大数据业务战略建立在不准确的数据记录上,则会产生有偏见的结果。另一方面,如果执行数据匹配技术,就可以轻松地利用这些数据来执行任何用例或业务流程。
数据匹配如何工作
当数据集包含唯一标识符(例如社会保险号、身份证号)时,数据匹配非常简单。在这种情况下,可以简单地比较2个记录的标识符并将它们分类为匹配或不匹配。
当数据集中没有唯一标识符或由于保密目的而无法使用时,事情就会变得复杂。在这种情况下,多个变量被分配权重,然后一起评估并配进行分类。
组织采用各种数据匹配技术,例如语音、数字、模糊匹配或其他专有算法。匹配后,可以决定合并记录或清除它们,以便大数据中的每条记录仅与单个实体相关,此过程也称为实体解析。在整合大数据设计业务战略时,数据匹配和数据质量的作用非常重要,会对业务成果产生重大影响。