大数据下主题数据库的研究现状与展望*
2014-12-18于兆吉
于兆吉, 魏 闯
(沈阳工业大学 管理学院, 沈阳 110870)
大数据下主题数据库的研究现状与展望*
于兆吉, 魏 闯
(沈阳工业大学 管理学院, 沈阳 110870)
在对数据库和数据管理发展历程进行梳理的基础上,提出主题数据库应结合大数据时代背景下的数据特点进行重新定位和改变的观点。通过对大数据和主题数据库相关文献的筛选、分类和分析,对大数据和主题数据库的概念进行认知和界定,对与主题数据库紧密相连的相关研究,包括主题划分、信息资源规划和大数据背景下管理和决策的研究现状进行评述,最后提出大数据时代主题数据库进一步研究的方向。
大数据; 数据管理; 数据分析; 主题数据库; 主题划分; 信息资源规划; 研究综述
随着互联网突飞猛进的发展,数据总量呈爆炸式增长,数据量从TB级别升到ZB级别,IDC报告称,未来10年数据总量将会增加50倍,应对如此的数据总量,相应管理数据仓库的服务器将增加10倍[1]。目前主流的软件已经无法在合理的时间内针对如此数量级别的数据进行撷取、管理、处理并整理成能为决策提供帮助的信息。美国政府率先提出并启动了“大数据研究和发展计划”,标志着大数据已上升到国家意志,大数据时代到来。
一、主题数据库的理论发展
1.数据库和数据管理的发展
维基百科中对数据是这样定义的:“描述事物的符号记录,是可以定义为意义的实体,它涉及到事物的存在形式。”[2]数据逐渐演变为智慧的流程如图1所示。纵观数据库和数据处理的发展阶段,也是围绕着数据演化流程中的处理、挖掘和分析不断发展和完善的。
图1 数据演化流程图
20世纪50年代中期以前,数据管理处于人工管理阶段,数据并不被保存,只在需要使用时输入。数据库在20世纪50年代产生,此时数据管理简单,通过大量的分类、比较和表格绘制的机器运行数百万穿孔卡片来进行数据处理。Remington Rand Inc 1950年推出的一秒钟可以输入数百条记录的磁带驱动器,引发了数据管理的革命。20世纪50年代后期到60年代中期,磁盘、磁鼓等存储设备出现,数据管理进入到文件系统阶段。1969年IBM建立第一个数据库系统IMS,数据管理由此进入数据库系统阶段。
由于数据独立性和抽象级别上的欠缺,1970年E.F.Codd在论文《大型共享数据库的数据关系模型》中提出关系模型的概念。随着信息技术不断发展,关系数据库系统技术趋向成熟,但是不断出现的复杂数据类型对数据库提出了更新更高的要求,接下来出现了演绎数据库、面向对象数据库等新的数据库类型研究,但没有一个统一的数据模型能够将新型的数据进行表示和联系[3]。数据管理随数据特点和外部环境变化共经历了如表1所示的三个阶段。
由于事务处理环境的局限性,数据库无法实现高效的数据分析决策功能,大量数据处于分散状态,而有效正确分析的前提是需要完整和集成的数据,这样所得到的结果更加可靠。新的数据库环境需求由此出现,人们的需求从向数据库中添加信息转变为从数据库中得到有用的信息。Bill Inmon 在《建立数据仓库》中提出被人广泛接受的概念——数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策[4]。数据库与数据仓库的主要区别如表2所示。
表1 数据管理发展三个阶段
表2 数据库与数据仓库的主要区别
数据仓库是面向主题而不是面向事务的,主题是根据日常事务处理的业务进行提取的。主题数据库始于20世纪的70年代末期到80年代初,James Martin在《战略数据规划方法学》中提出了“主题数据库”的概念和相关理论方法。主题数据库随着应用的增多,数据库不再增多,它不是按单证报表原样去进行数据库的搭建,而是面向业务主题建立数据库,实现系统的集成,解决数据冗余、信息共享程度低等亟需解决的问题[5]。
数据仓库是集成的、面向主题的数据集合,主题数据库就是这个集合中的元素。主题数据库是四类数据环境中的高层次数据环境,经过归纳总结,主要有以下几个方面的优点:
(1) 高度共享集约化的数据环境,易于管理。虽然建设时间长,但是所需维护成本低,信息共享程度高,不再是“自建自用”数据库,而是各个应用系统之间的“共建和共用”。
(2) 独立于计算机的具体应用。主题数据库与企业组织需要解决的主要问题相关联,建成之后很多应用项目可以此为基础进行构建,减少冗余。
(3) 可以保证数据库逻辑结构的稳定性。数据处于相对稳定的环境之中,以此可以建立相对稳定的数据模型,通过数据模型可以保证信息的准确性和及时性,提供可靠的分析决策。
大数据时代下传统的数据仓库必须向大数据进行靠拢,必须具有如表3所示的重要特性才能满足目前的大数据需求。
表3 数据仓库系统必须具备大数据的重要特性
面对大数据时代的数据特点,主题数据库的规划方法和数据管理方式也应产生新的变化以应对数据思维的改变。
2.相关概念界定
大数据最早在Apache org的项目Nutch中被定义为“更新网络搜索所需要进行批量处理或分析的大量数据”[6]。Grobelnik M给出大数据的3V定义,认为大数据需要基于以下3个特点:Volume(规模性)、Velocity(高速型)和Variety(多样性)[7]。IDC考虑大数据价值稀疏性的特点,提出了大数据4V的定义,即在3V的基础上添加了Value(价值性)[8]。由于大数据的真实性,IBM的4V定义是在3V的基础上添加了Veracity(真实性)[9]。目前国内外在大数据的定义上并没有达成共识,本文基于主题数据库在大数据时代下的应用,把大数据定义为:“海量的数据规模已经无法通过目前主流的工具在合理的时间范围内对业务数据进行搜集、管理和分析处理。”
国内高复先最早指出主题数据库是一种数据环境,它独立于具体的应用,数据经过设计后的存储结构与处理过程独立开来,保持主题数据库的逻辑结构稳定性[10]。李俊、赵霁对主题数据库的特点与组织方式进行研究后,定义主题数据库为“一个用于支持企业或组织的决策分析处理的、面向主题的、集成的数据集合”[11]。本文结合大数据时代背景重新定义主题数据库,认为主题数据库是在对整体业务需求分析规划的前提下,以面向业务主题为基准对各类应用数据进行综合管理,消除冗余,抽取主题而建立的稳定数据库。
二、大数据下主题数据库的研究现状
目前国内外的学者对主题数据库的研究主要集中在信息资源规划和主题划分两个方面。
1.信息资源规划的相关研究
I.B.Singh最早在《信息资源规划方法:案例研究》中以加拿大Albert地区杀虫剂的使用和相关管理网建设为例,解释了IRP产生的时代背景、目的和理论方法,其实施的主要步骤如图2[12]所示。
图2 IRP的实施流程图
信息资源规划的研究角度主要有以下几个方面:
(1) 战略角度。大数据时代信息资源主要是海量的业务数据,无论多复杂庞大的信息系统都是以信息资源作为基础和先导工作。
陈延寿在《企业信息资源的开发和利用》一文中指出了信息资源规划的战略性地位,认为由于信息资源规划的复杂性,存在着在规划中缺乏相关的理论指导和专业型人才缺乏的问题[13]。秦艳姣在《信息资源规划与企业信息化》中对我国的信息化发展现状进行了分析,认为信息化的首要解决办法就是信息资源规划,阐释了信息资源规划的实施流程和步骤,并对其在企业信息化中相关的具体应用进行归纳总结[14]。王学颖在《基于生命周期视角的企业信息资源规划研究》中分析了我国企业信息资源管理和规划的现状,在此基础上提出了基于生命周期的规划方法ILEA,并对其基本构成和开发的方法进行了阐述[15]。
大多数企业或组织在业务处理中没有明确的信息资源规划,还有一些企业形成的信息资源战略管理的思维是信息资源杠杆战略,因此信息资源的整合需要相应的战略制定[16]。S.K.Min指出,数据信息是目前企业或组织在竞争市场中获得有利地位的决定性资源,提出了战略系统规划的概念,并且介绍了相关的方法论以及实施的具体过程[17]。
随着大数据时代的到来,数据信息共享以及工作的跨领域特性,在交接环节中就会导致延迟或者错误。许捷关注财务系统在各个组织中的重要地位,并试图从信息资源规划的角度去诠释建立财务信息系统在数据规划中的相应模型[18]。李翔认为,信息资源规划的工作需要和业务流程重组联系,以业务流程重组为中心点进行展开[19]。
(2) 应用角度。信息资源一般可以按照来源分为内部资源和外部资源。其中内部资源系指与企业组织内部业务联系的各种信息资源,而外部资源就是企业或组织运营之外产生的但是与其紧密相连的各种信息的集合。
从内部信息资源来看,企业组织在空间上的跨度越来越大,分布地区越来越分散,然而对信息共享的要求越来越高,而且每个层次对于信息需求的程度和类型不同。从外部信息资源来看,Asa.Du.Toit在其《南非制造企业信息管理》一文中对南非制造企业的信息竞争优势进行了研究分析,讨论了通过有效的信息资源,从战略的眼光来看其竞争优势能否增强[20]。我国学者孙毅通过对辽宁大连圣达公司为某企业成功实施信息资源规划项目的研究,阐释了如何使IRP适合各种应用系统。
此外,我国学者对不同行业IRP进行了研究。其中,吴迪针对建筑行业阐述了因为采用分散开发和局部应用系统造成“信息孤岛”问题的现实存在,并探讨了通过信息资源规划的相关方法进行信息系统的集成,进而解决数据共享程度低的问题[21]。郭崇针对电信行业,介绍了集成化和网络化的庞大任务以及采用信息资源规划和应用系统进行资源整合、引进先进的软件和系统开发间的联系[22]。
(3) 方法模型角度。大多数学者对信息资源规划、管理的模型和框架进行了探讨。马尔香提出了信息资源管理7模块的理论,包括电子通讯、数据管理、文书和记录管理、图书馆和技术情报中心、办公系统研究和统计信息管理、信息服务[23]。而我国学者王晓光提出了6I模型,包括信息产品、信息内容、信息标准、信息系统、信息流程、信息组织[24]。
蔡文海重点突出了主题数据库建设在信息组织技术中的核心地位,探讨了主题数据库在运输经济中的应用和重要地位[25]。陈骞在探讨主题数据库规划的过程中提出了建立主题数据库的相关方法,并阐述了对模型进行遴选的方法[26]。
2.主题划分的相关研究
主题数据库在某种程度上是IRP实施数据标准化的支撑,对主题合理的规划实施才能保证数据库系统高效率、稳定地运行,并能快速适用于多变的应用环境。在主题数据库的构建中,如何找出实体之间的关系,根据业务需求、数据需求提取主题是国内外学者研究的重要内容。
James Martin在《信息工程》中提出实体和活动之间的内在联系,亲和度的概念以及计算公式也同时被给出,企业组织可以依据计算出的亲和度值判断实体之间联系的密切程度,然后进行实体划分,最后可以实现主题数据库的简单划分[26]126-127。然而,亲和度具有双向性,也就是说实体A到实体B的亲和度并不等同于实体B到实体A的亲和度。因此,亲和度不能明显地区分和确定实体之间的关系,容易造成实体之间紧密程度的混淆,影响业务活动中对实体关系的分析,这对于主题的划分并没有实际的意义。
周炎涛在亲和性分析的基础上提出了单向性模型,对双向性的方法进行改进,定义了聚合性分析以及聚合度的概念,以此来区别亲和度和亲和性分析的相关概念,通过建立聚合性分析的矩阵,可以清楚地看到实体之间的关联程度,规避了亲和性分析中的双向性问题,更有利于实体分析中对于实体关系的分析和理解[27]。而王思昌通过对实体活动之间关系的研究,建立了E-A矩阵,间接地判断实体之间的关联程度,从而对实体进行规划:首先确立核心实体,然后计算核心实体和其他各个实体之间的关系数值R,当R大于给定的关联系数分界值时,表明两个实体之间的关联程度为紧密,因此这两个实体组就可以归为一个实体大组;相反则两个实体组之间的关系为互相独立[28]。
刘文远在对聚合性分析的研究中发现,一些非核心的实体和核心实体对中的两个实体之间的聚合度值是相同的,但是遇到聚合度不相等的情形,依然会出现和亲和度一样的双向性问题,导致无法准确判断对两个实体如何进行划分。为解决此问题,刘文远在《IRP中基于广义聚合度的主题数据库划分技术》一文中给出了广义聚合度的概念,规避了核心实体和与其聚合的其他实体具有次要联系时的双向性问题。这样主题数据库的划分技术就更具有普遍适用性,实体之间的关系更为清晰且易于理解[29]。
樊康新等在研究实体之间的关系以及联系强度的基础上,提出了实体闭包的概念,指出可以将有关联的实体划分到一个闭包中,在进行实体分组时,计算实体之间联系的紧密程度和使用频率,认为同一组的所有实体应该都具有较紧密的关联并较为频繁地被使用,与此同时,各个组的实体之间原则上应该没有关联或者关联性较弱而且被使用频率较低。基于这种理论,企业组织应该根据实际应用情况确定各个实体之间的关联程度,然后根据实体之间关联程度的强弱进行再次调整[30]。
综合主题数据库主题规划的研究现状,主题数据库的规划就是从上至下对业务所涉及的所有实体进行聚类分析,并将全部数据划分成可管理的单元。
3.大数据背景下数据的管理决策
大数据时代下的数据思维发生了革命性的变化,国内外学者紧跟时代步伐,对大数据背景下的管理决策进行研究与探索。包括R.E.Bryant在内的三位信息科学领域的资深专家发表了《大数据计算:商务、科学和社会领域的革命性突破》,让研究人员和业界认识到,最重要的是大数据带来的用途和见解的新颖性而不是数据本身[31]。紧随其后,包括IBM在内的国际知名公司争先开始了大数据战略的进程,主动跟进大数据研究的最新进展和应用。目前的大数据研究仍处于初步阶段,大部分研究集中于数据的挖掘、储存、处理以及数据安全等方面。国内外鲜有学者从管理决策的层面对大数据带来的革新和变化进行研究,这个领域是大数据背景下亟需关注的研究方向。
三、总结与展望
主题数据库概念的提出已有时日,但主题数据库的相关理论和方法并没有被大规模地应用到实践中,因此还存在很多值得深入探讨的问题。随着大数据时代的到来,主题数据库也必然产生新的理论和问题,总结归纳起来主要有以下几个方面:
(1) 计算机技术随着时代的发展飞速变化,IRP中主题数据库的相关划分方法也将随之发生新的改变。如何在海量数据的今天,在满足信息化要求的同时简化主题数据库流程,提高适用性,统一标准,仍需要对理论方法不断完善并和IRP结合起来,开展大量的工作。
(2) 大数据背景下,大部分数据是非结构化的数据,数据质量参差不齐。主题数据库中主题的划分方法在此时代背景下需要得以完善,如何对实体与实体、实体与活动之间的关系建立合理的模型或者进行计算,快速地将庞大的数据量分成合理的数据单元,建立起符合业务需求的主题数据库是摆在面前的首要问题[32]。
目前大数据仍然处于起步探索阶段,对于大数据的管理决策问题并没有太多相关的研究成果。主题数据库的建立是为了对数据进行管理和通过数据进行决策,因此在大数据背景下的主题数据库更应该侧重于主题数据库的数据分析和数据管理决策问题。针对大数据的几个特点,哪个特点对数据管理决策的影响最大,不同领域的使用人员和不同学科的研究人员之间如何沟通和协作才能有利于大数据背景下主题数据库相关问题的解决,都将是下一步需要研究的方向。
[1] Gantz J,Reinsel D.2011 digital universe study:extracting value from chaos [EB/OL].[2011-09-01].http://china.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.
[2] 维基百科.数据 [EB/OL].[2014-04-05].http://zh.wikipedia.org/w/index.php?title=%E6%95%B0%E6%8D%AE&oldid=28910777.
[3] 覃雄派,王会举,李芙蓉,等.数据管理技术的新格局 [J].软件学报,2013(2):175-197.
[4] 刘喜文,郑昌兴,王文龙,等.构建数据仓库过程中的数据清洗研究 [J].图书与情报,2013(5):22-28.
[5] 陈骞,刘伟,孟庆久.信息资源规划中的主题数据库研究 [J].情报杂志,2006(2):136-137.
[6] 孟小峰,慈祥.大数据管理:概念、技术与挑战 [J].计算机研究与发展,2013(1):146-169.
[7] Grobelnik M.Big-data computing:creating revolutionary breakthroughs in commerce,science,and society [EB/OL].[2014-04-05].http://videolectures.net/eswc2012_grobelnik_big_data.
[8] Barwick H.The “four Vs” of big data:implementing information infrastructure symposium [EB/OL].[2014-04-05].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data.
[9] IBM.What is big data [EB/OL].[2014-04-05].http://www-01.ibm.com/software/data/bigdata.
[10]高复先.信息工程与总体数据规划 [J].交通与计算机,1988(2):8-14,55.
[11]李俊,赵霁.主题数据库的特点与组织方式 [J].交通与计算机,2000(3):12-13.
[12]柯新生.基于网络的企业级信息资源规划理论与方法研究 [D].北京:北京交通大学,2009:2-15.
[13]陈延寿.企业信息资源的开发与利用 [J].现代情报,2005(7):193-195.
[14]秦艳姣.信息资源规划与企业信息化 [J].现代情报,2006(7):179-181.
[15]刘益江,毛宁,陈庆新.一种评估数据仓库设计质量的方法 [J].计算机技术与发展,2012(9):161-165.
[16]王学颖.基于生命周期视角的企业信息资源规划研究 [J].情报杂志,2011(6):156-160,147.
[17]Chantrasa R.Decision-making approaches for information sharing in a supply chain [D].USA:Clemson University,2005:5-20.
[18]许捷.财务信息化与信息资源规划 [D].大连:东北财经大学,2003:15-32.
[19]李翔.试论企业经营秘密的保护 [J].科技情报开发与经济,2003(11):181-183.
[20]李晓钢.智慧城市的信息资源规划研究 [J].电子政务,2011(4):32-37.
[21]刘明,高明印,李常建.企业信息资源规划实施研究 [J].价值工程,2004(4):113-116.
[22]郭崇.应用信息资源规划建立电信企业信息化基础 [J].东北财经大学学报,2004(6):51-53.
[23]覃雄派,王会举,杜小勇,等.大数据分析:RDBMS与Map Reduce的竞争与共生 [J].软件学报,2012(1):32-45.
[24]王晓光.面向信息企业的信息资源规划研究 [D].武汉:武汉大学,2004:21-31.
[25]蔡文海.信息资源规划工具的研制及其在运输经济中的应用 [D].大连:大连海事大学,2000:6-18.
[26]詹姆斯·马丁.战略数据规划 [M].北京:清华大学出版社,1994.
[27]周炎涛,谢东,吴正国.单向性模型下的主题数据库聚合性分析 [J].湖南大学学报:自然科学版,2005(3):101-104.
[28]王思昌,冀亚林.信息工程中主题数据库的规划与设计 [J].价值工程,2005(9):66-68.
[29]刘文远,徐丽娜,王宝文,等.IRP中基于广义聚合度的主题数据库划分技术 [J].情报杂志,2007(10):70-71,74.
[30]樊康新,李春明,顾晖,等.MIS战略数据规划与主题数据库构造 [J].工业控制计算机,2002(10):4-7.
[31]Watts D J.A twenty-first century science [J].Nature,2007,445(7127):489.
[32]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望 [J].计算机学报,2011(10):1741-1752.
Statusquoandprospectofresearchesonsubjectdatabaseineraofbigdata
YU Zhao-ji, WEI Chuang
(School of Management, Shenyang University of Technology, Shenyang 110870, China)
Based on summarizing the development process of database and data management, the opinion is proposed that subject database should be repositioned and changed combining with the data features under the background of big data era.Through filtering, classifying and analyzing related literatures of big data and subject database, the conceptions of big data and subject database are recognized and defined, the status quo of related researches closely connected with subject database is reviewed and elaborated including topic partition, information resource planning, and management and decision-making under background of big data, and the further research direction of subject database in era of big data is proposed finally.
big data; data management; data analysis; subject database; subject partition; information resource planning; research review
2014-03-22
国家软科学研究计划资助项目(2012GXS4D078); 辽宁省自然科学基金项目(201202169); 辽宁省高等学校优秀人才支持计划项目(WR2012003)。
基金项目:于兆吉(1975-),男,辽宁辽阳人,副教授,博士,主要从事企业管理与技术创新等方面的研究。
* 本文已于2014-05-20 16∶55在中国知网优先数字出版。 网络出版地址:http://www.cnki.net/kcms/detail/21.1558.C.20140524.2141.016.html
10.7688/j.issn.1674-0823.2014.03.12
C 93-0
A
1674-0823(2014)03-0263-05
(责任编辑:吉海涛)