大数据时代的数据库和数据技术(上)

2013-04-29杨天纯

中国信息化 2013年14期

关键词：关系数据库数据仓库结构化

杨天纯

大数据定义、作用及其对数据库技术影响

1.1 大数据及其影响

大数据（Big Data）是目前最重要的科学、技术和社会话题。借用IDC数据公司的定义：“大数据是一种新一代的技术和架构，具备高效率的捕捉、发现和分析能力，能够经济地从类型繁杂、数量庞大的数据中挖掘出色价值。”

大数据定义有着如下的基本前提和含义。

① 大量的数据：大数据概念源于数据的爆炸性增长。用世界著名的咨询公司高德纳（Gartner）研究报告的描述：“同一类型的数据量快速增长；数据增长速度的加快；数据多样性、新数据来源和新数据种类的不断增加。”

② 多种类型数据积累：新的数据存储和数据采集的技术发展使巨量数据的采集、收集、存储成为可能。网络技术、移动设备、数字传感器、数码摄影/摄像、监控影像、卫星定位系统、遥感技术、气候和环境监测技术等等，每时每刻都在各种形式、各种类型的大量数据。

③ 计算技术的进步与发展：现代计算技术、网络技术、多媒体技术和数据库处理技术等可以处理各种形式的海量数据，产生出大量的高附加值的数据、结果、状态和知识。

④ 数据处理能力成为战略能力：数据量的激增、数据类型的多样、技术平台对数据的综合处理，造成了知识边界扩展、知识价值提升、知识衍生能力加快，它极大地影响到了企业、个人、社会和政府的决策，极大地促进了社会生产力的发展，使掌握大数据技术者获得了竞争优势和难于模仿的核心竞争力。因此，大数据技术也成为了国家的核心战略资源。

大数据的含义广博、技术领域广泛、技术平台多样、作用效果巨大、影响意义深远。理解大数据的理论、方法和架构，适应大数据的变革与发展，分享大数据所带来的种种便利和收益，便能够在大数据时代占领先机。

1.2 大数据对数据库技术的影响

大数据的宗旨是处理数据，数据库技术自然占据核心地位。而大数据环境下的数据库技术也具有明显的特殊性。

1.2.1 大数据环境下数据处理技术面临的新特点

数据量宏大。对数据库技术影响最大、最直接的方面莫过于数据的爆炸性增长。即使先不考虑数据类型的变化，需要处理的数据从MB扩展到GB，现在再扩展到TB，不远的将来数据库将经常面对PB量级的数据，这必然对数据库的硬件架构、数据库系统结构和数据库应用产生重大的影响。

数据形式多样。另外一个对数据库技术产生重要影响的因子是数据的多样化，传统数字、图像、照片、影像、声音等多种数据资源需要进行处理，并且和传统关系式数据不同的，许多数据格式中的有价值数据并不多，例如多张图片中特定对象的变化，连续视频影像中对特殊对象的跟踪等等，其数据抽取方式、过滤方法和存储、计算方式均有别于传统数据库。

单机或小型局域网的数据库处理无法满足。当前，数据量爆炸式增长，数据类型日趋多样，传统关系数据库的处理能力已难于满足，需要新的数据库处理技术。

传统的并行数据库的灵活性具有局限性。并行数据库系统取得了辉煌的成绩，但是它的灵活性不佳，弹性受限，系统规模的收缩或扩展成本非常高。这样的系统适合于“相对固定结构”的计算结构，例如机银行业务管理系统或城市交通管理系统等。

结构化、半结构化与非结构化形式并存。让数据库有能力处理这些半结构化和非结构化（有时不作区分）数据变成了新型数据库技术的一项迫切要求。

对结果要求的模糊化。在大数据的时代，计算技术不仅限于回答“是/非”问题，而是需要更多的模糊化结果。例如，流感有很可能在一周后流行、近期可能发生5级左右地震、近一周国际往返机票将上涨……这些答案并不精确，但足以指导人们的活动。非结构化数据的处理结果常常是给出模糊化的答案。

新数据库技术的出现与挑战。新需求的出现，促使了新技术的产生，为处理非结构化数据，Apache、Google、Amazon等公司分别开发了适应各自需要的新型数据库系统，相关的专家经过分析和总结提出了NoSQL的设计理念，并创建了许多成功的产品。

1.2.2 新型数据库技术的特点

与传统数据库技术相比较，新型数据库技术具有一些明显的特点，具体如下：

可处理的数据总量和数据类型增加。不再为数据结构化或数据代表性而人为地选取部分数据或进行数据抽样；不再靠样本规模的大小来控制结果的置信区间和置信度。新的数据库处理技术试图利用“全部数据”，完成对结果的计算和推断。

使用更多的非结构化数据，而不是片面地强调全部使用结构化数据。在非结构化的高复杂度、高数据量、多种数据类型的情况下，允许结论和结果的“不精确”，允许追求“次优解”。体现大数据技术“以概率说话”的特点。

不再试图避免或降低数据的混杂性，而是把“使用全部数据”作为追求“次优解”的途径。即在复杂、混乱、无结构化与确定、规整、结构化数据之间做出平衡。

在遇到“使用全部数据，得出模糊化结果”与“实用部分数据，得出准确结论”的选择时，新型数据库技术一般会选择前者，从一个更全面的角度利用更多的数据资源去寻找答案。

科学地在因果关系与相关关系中做出抉择。如果数据总体支持因果关系的判别和断言，则像传统数据库那样提供因果关系断语；如果数据计算量宏大、成本高昂或条件不具备，则把关注点由“因果关系”调整为“相关关系”——将追求“最优解”变为追求“次优解”或“模糊解”。自然地，这种相关关系的选择不能是随机的，而是预先设计和规划好的。

不同的数据库开发理念，不同的应用目标，不同的技术方案，早就了新型数据库丰富多彩、特点各异的局面。

1.3 从传统关系数据库到非关系数据

在计算机系统结构刚刚趋于稳定的1970年，IBM公司的Edgar Codd（科德）首先提出了关系数据库的概念和规则，这是数据库技术的一个重要的里程碑。科德定义的关系数据库具有结构化程度高、数据冗余量低、数据关系明确、一致性好的优点。关系数据库模型把数据库操作抽象成选择、映射、连接、集合的并差交除操作、数据的增删改查操作等。而1976年Boyce和Chamberlin提出的SQL结构化查询语言则把关系数据库及其操作模式完整地固定下来，其理论和做法延续至今，被作为数据库技术的重要基石。关系数据库中定义的关系模型的实质是二维表格模型，关系数据库就是通过关系连接的多个二维表格之间的数据集合。当前流行的数据库软件Oracal、DB2、SQL Server、MySQL和Access等均属于关系数据库。

到二十世纪八十年代后期，IBM的研究员提出了数据仓库（Data Warehouse）的概念，4年后Bill Inmon给出了被大家广泛接受的数据仓库定义：“数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理中的决策制定。”数据仓库的进步在于，它把决策支持定为数据库中数据组织和管理的目标，从而把智能性和决策能力融入到数据库中。Inmon之后，Ralph Kimball建立了更加方便、实用的“自底向上”数据仓库架构并称之为“数据集市”（Data Mart），这种技术受到企业及厂家的欢迎并采纳实施。虽然数据集市被归并为数据仓库，但是它的出现诱发了商务智能和联机分析技术的流行。

随着数据库在企业中的广泛应用，企业收集了大量的数据，如何从已有数据中提取对企业运营和决策具有重要价值的信息，成为了数据库使用者和开发者关系的话题。“关系数据库之父”科德再次走在了前面，提出多维数据库和多维分析的概念，这便是“联机分析处理”（OLAP），使得数据库已经显现了“智能性”特点。从数据仓库中产生的OLAP又反过来促进和推动数据仓库技术的更深层的发展。

数据仓库、OLAP的发展和成熟催生了下一代数据库“智能产品”——数据挖掘。该技术是指从大量的数据中自动搜索数据之间隐藏着的特殊关系，通过统计、分析、检索、机器学习结合专家系统（结合过去的经验）和模式识别来发现数据之间的“内在联系”，为判断、决策、规划提供信息。这时被发现的“内在联系”不再是简单的结果，而是上升为“知识”，大量知识的积累更进一步提升了数据挖掘的准确性和商业价值。数据仓库把数据挖掘地深度进一步扩展并快速应用到商业环境中，这便是“商业智能”（Business Intelligent， BI）。

商业智能和数据挖掘的大规模应用是在互联网高度普及的时刻，随着数据库技术的发展和商业竞争的白热化，网络服务、网络搜索引擎及网络用户行为标引技术逐渐成熟。通过数据库中的知识、用户行为统计、分析，产生出更具综合性、普遍性和高商业附加值的知识，与数据挖掘和商业智能同期发展的数据可视化技术，充分利用图形、图表等视觉元素，完成了现代数据库技术在结果输出和表现形式上的又一次飞跃。数据挖掘、商业智能、可视化技术的基础是大数据，其工具便是大数据工具。