论大数据和数据集成

2015-05-30丁晨

商 2015年8期

丁晨

大数据是大事务数据（即关系数据库）、大交互数据（即社交数据、网站日志、传感设备、电子邮件），以及大数据处理（即Hadoop）的大综合。大数据处理主要源自于社会化媒体、移动应用以及云计算。通过以更快的速度对更多的数据值，更多类型的数据进行分析，大数据可以驱动快速创新。

实践表明，大数据项目中80%的工作都和数据集成有关。我所说的数据集成是指访问、解析、规范化、标准化、集成、清洗、抽取、匹配、分类、修饰以及交付数据等功能。如D.J.Patil在他的书《Data Jujitsu》（数据柔术）中所说的那样，大数据项目中80%的工作都是清洗数据。）最近在针对来自25个公司的35名数据科学家的一次调研中，其中一个参与者说道：“还没有开始做任何实际的分析之前，我在集成、清洗，以及转换数据上花费了一半以上的时间。很多时候，在开始数据分析的工作的时候，我都感到非常庆幸。”（Kandel等，企业数据分析和可视化：一项调研访谈。IEEE可视化科学和技术（VAST），2012）。换句话说，在利用大数据做任何有意义的事情之前，必须首先进行集成。这是因为大数据来自于如此众多的不同类型是数据源，数据格式也千变万化。

不仅仅是因为有很多数据，而且由于有很多不同类型的数据源、不同类型的结构和格式。在企业内外来自客户和供应商交易的数据正在被大规模地产生和使用，例如互联网、社交、云以及传感器设备等。为了从大数据中发现价值，就需要将数据从发源地和源系统中移动到大数据平台，经过集成、分析之后就可以交付这些原始数据中的价值。

在某些情况下，可以使用数据虚拟化技术以避免移动数据，利用数据虚拟化可以创建一个数据抽象层以隐藏底层数据源的复杂性。基于这个数据抽象层，可以决定是否需要连接不同的数据源或者将合并后的数据移动到一个屋里目标存储。

数据集成另外一个重要的方面就是元数据管理和数据治理。元数据管理为更好地理解数据创建了一个语义层，并且可以更好地支持数据治理活动。

确实有不同的考虑。但是，我发现详细比较传统的行列格式的关系数据以及平面文件数据和多结构（即层次式、图形）以及非结构化数据会比较有用。前者很多情况下只能被传统的数据平台（即关系数据库管理系统）所处理，而后者可以使用新出现的NoSQL技术进行更为经济高效的存储和处理，例如Hadoop，还可以进一步区分高密度、高价值的数据（例如存储于关系数据库系统）和低密度的原始数据（例如：网站日志、社会化媒体文本），以便决定如何以最佳的方式存储，集成和处理数据。

如果数据集成没有做好，那么总会导致项目延期、项目失败、最终用户的参与程度降低等结果，并且直接影响业务，导致较差的客户服务、低劣的产品质量、低效运营，以及不成熟的决策。考虑到不完全、不一致、不精确，以及不能准时交付给业务的数据，影响可能是跨越多个订单通道的不一致的客户体验，由于订单错误或者延期交付所导致的忠诚度下降，或者由于缺乏优化的交叉销售、纵深销售而导致现金流的损失。

大数据项目中数据集成的最佳过程就是包含了访问和挖掘、解析和准备、发现和概要分析、转换和清洗，以及抽取和交付数据等功能的过程。如前所述，大数据项目中80%的工作都是数据集成。例如，大型跨国银行将数据集成应用于和欺诈检测、风险和投资组合分析、投资建议、法规复符合性，以及积极的客户开拓等相关的大数据项目中。大数据不仅仅是分析。而是整个流水线。因此，当提到大数据方案的时候，就必须考虑到所有的过程：收集、存储、组织、分析、以及分享。

数据集成常常被忽略，这是因为一个快速但粗劣的集成方式实施起来阻力会小些。在这些项目中，没有全面考虑到在大数据项目中位了支持和维护生产环境中不断增加的数据量和数据类型所必要的范围和需求。组织需要一个可以线性扩展、具备24x7可靠性的数据集成平台，以支持一个灵活可变的架构，同时提供工具以增强生产率，提高协作。

总的来说，大数据的元数据处理确实存在一些需要特别考虑之处。并不是所有的数据都以与大数据项目相关的方式进行建模。原始的交互数据（即社会化数据、网页日志、传感器设备、电子邮件等）是以读取模式而不是以写入模式进行处理的。因此，在大数据项目中，元数据的缺失是其固有属性。这也是数据治理在大数据项目中发挥着关键作用的原因。元数据可以通过数据发现（即领域、关系）以及数据管理来逐渐完善（即规范化、清洗）。有些元数据可以随着数据在企业范围内被访问、集成、分析和使用的过程而自动逐渐完善。例如，法规符合性审计数据的历史以及使用模式可以通过某些集成工具而自动获取。大数据项目中有多种不同类型且非常有用的元数据（技术型、业务型、操作型）这些元数据有助于增强搜索、简化数据审计、增强信任、提高协作、减少返工并增加安全性。

大数据需要一个经过优化的数据集成平台，以支持一个异构的数据环境，其中包括生产效率工具，这个工具必须具备一定的可扩展性，既可以用生产环境，也可以用于其他多个项目，并且易于在整个生命周期中对项目进行管理。大数据项目需要的集成工具必须能够针对交易和交互数据提供一致、稳定的连接；预先构建的ETL和数据质量转换；解析库（解析器）；一个用于构建数据流的可视集成开发环境（IDE）；以及数据概要分析功能。组织需要一个可以支持所有数据量和数据类型的集成平台，这一平台应当能够通过数据复制、数据流，以及复杂事件流程（CEP）对实时和批处理过程提供支持。数据集成应当被作为完整的大数据参考架构的一部分来考虑，这一架构也包括了MDM。

批处理数据集成主要用于对大量数据进行预处理，从而实现对数据的分析，并从中识别出模式和趋势为业务开发提供服务。批处理集成通过更快地处理更多类型的数据，从而实现其业务价值。实时数据集成有不少应用场合：通过只捕获和集成那些发生了变化的数据以避免不必要的数据暂存和很长的批处理窗口，从而使大数据处理的负载更为均衡；以及根据不同的情境积极响应事件。批处理和实时数据集成都可以提供一些非常有用的大数据方案。例如：在欺诈检测中很常见的一种做法就是以批处理的方式对大量的历史数据进行分析，识别出欺诈的模式，然后使用实时数据集成来建立情境上下文，并以一种实时的方式来判断某一欺诈事件发生的可能性，然后据此产生报警。

大数据的技术变化很快。但是，就新技术和趋势而言常常就是这样的在等式的另一边，即人和流程，并没有足够快地采用最佳实践，因此没有充分吸收大数据所提供的好处。从根本上说，成功取决于业务和信息技术更高效的工作和相互协作。数据科学团队致力于管理数据资产，创建新颖的数据产品和服务，这些需要多种不同的技能，其中有些可以从外部购买或者通过培训而获得。大数据项目和传统的商务智能不同之处在于，组织需要一个更为一致的自上而下的业务技术策略，持续不断地寻求各种方法以从大数据上获得最大的回报，通过引人新产品和服务从而变现数据资产，同时提升业务运营能力。我们可以期望见到管理层对数据科学团队支持与战略性的业务措施保持一致（即增加客户认知和粘性）。

大数据技术正在快速的变化和发展。开源社区和商业开发商都在和他们的客户一起工作，以便令新出现的技术更为成熟，从而确保这些新技术可以用于现有的数据管理基础设施。我们将会看到更多的基于通用设计模式构建的具有特定用途的应用（例如推荐引擎），以及特定的垂直大数据应用案例（例如风险和组织分析、预测病患结果、车辆远程信息处理）。很多新技术需要专业化的技能，从而给大数据项目增加了复杂性。因此，我们将看到开发商们将这些新技术进行集成，并创建一个抽象层，从而隐藏了这些技术的底层复杂性。（作者单位：齐齐哈尔工程学院）