企业级非结构化数据中心存储组织形式探究
2014-09-29王延田肖少辉姜传鑫
王延田,肖少辉,姜传鑫
(1.中国电力工程顾问集团公司,北京 100120 2.北京洛斯达数字遥感技术有限公司,北京 100120)
1 概述
在大型企业中,日常处理的业务数据按类型可分为为结构化数据和非结构化数据。结构化数据通常是指可以用二维表结构来逻辑表达实现的数据,如目前管理信息系统中最常使用的关系型数据库就属于结构化数据。非结构化数据通常是相对于结构化数据而言,不方便用二维表结构来表现的数据,包括以WORD、PDF、EXCEL和JPG等格式组成的各类办公文档、报表凭证,以及图像和音频/视频等数据文件均为非结构化数据。也有将介于界定严格的结构化数据和完全无结构的数据之间的数据形式称之为半结构化数据,这类数据有HTML页面、XML、XBRL等。
在企业信息化应用过程中产生的数据,能够采用关系型数据库处理的结构化数据约占企业数据总量的20%,而其他80%的非结构化数据无法完全采用关系型数据库来处理。
科学管理和合理应用这些非结构化数据已经成为企业正确决策、增强核心竞争力的关键。2010 年,由中央办公厅、国务院办公厅联合下发《电子文件暂行管理办法》(厅字[2009]39号),明确要求大型企业电子文件管理需要满足统一管理、全程管理、规范标准、便于利用、安全保密五大要求。
以上要求为企业级非结构化数据中心的建立提出了明确的指导方向,如何设计和构建一套满足非结构化数据中心统一管理、面向服务的数据存储组织形式,成为亟待研究和解决的问题。该组织形式的研究直接影响到数据中心面对海量非结构化数据的承载能力、扩展能力以及面向多业务系统的服务能力。
2 研究目标与路线
2.1 研究目标
针对以上的需求描述,此次的研究目标以现有成熟存储技术为基础,结合现有非结构化数据理论知识,最终形成非结构化数据的存储规划,建立非结构化数据元数据模型、属性关系模型以及分类对象模型。通过这些模型的建立,优化非结构化数据的存储,方便数据的快速检索和有效管理。
2.2 研究路线
根据研究建设目标,采用先期调研、方案设计和原形系统建设的研究路线推进非结构化数据存储方案的研究,验证存储方案的有效性和易用性。
图1 课题研究路线
(1)先期调研阶段:首先调研企业现有基础设施、存储能力以及非结构化数据数据应用情况。然后收集现有非结构化数据处理理论和成熟技术,结合本企业实际情况,制定数据存储的初步方案。
(2)方案设计阶段:基于先期调研及数据存储初步方案的基础上,重点研究非结构化数据的存储规划、元数据模型、属性关系模型以及分类对象模型等关键技术。利用这些知识体系支撑非结构化数据的存储、检索和对外标准服务应用。
(3)原形系统建设阶段:根据先期确定的研究目标,按照方案设计阶段形成的技术方案,进行原形系统建设。原形系统能够对非结构化数据实现物理存储、属性检索、全文检索和对外标准化服务功能,实现并验证方案设计阶段所建立的存储规划理论和各种模型理论。
3 存储设计
3.1 存储规划设计
存储规划主要考虑将非结构化数据的物理存储与逻辑存储进行分离,因此采用SAN网络存储与数据库存储相配合的模式进行,并将检索与文本内容进行有效分离、合理分布。每一个非结构化数据分配一个唯一ID,将其对应的逻辑信息,如文件名称、文件大小、所属分类、文件存放路径等,一并存储到数据库中。而文件的存放的路径尽量缩短,由过去的树状存储模式转换为扁平模式,以提高海量文件访问速度。同时,生成伴生文件,存储数据库中存放的逻辑信息,便于文件的日后迁移和索引处理。
图2 存储规划图
3.2 元数据模型设计
通过对非结构化数据的分析,可以得出数据拥有系统属性和扩展属性两类。系统属性即为文件自身所包含的自然属性,例如名称、大小、创建日期、创建人等。但非结构化数据除了自然属性外还会有业务扩展属性,例如会议纪要就包含了会议时间、会议地点、议题、参会人员等。同时,元数据和扩展属性的数量也会随着人们对事物认识的不断提升而增加,因此需要增加元数据描述文件对元数据进行定义,在数据分类中增加扩展属性描述的信息。对元数据模型的认识是属性关系模型和分类对象模型的基础,也决定了非结构化信息提取的方式和解析算法。
3.3 属性关系模型设计
在系统元数据和扩展属性中,属性之间存在一定的关联关系,这些关系相互结合形成关系网络,在每个关系上设置权重,便可构成以任一节点为中心横向亲属网络图。通过该模型以及计算机图形学与人工智能理论可以提供给非结构化数据查询者一个建议的搜索路径,便于其快速找到所关注的内容。例如,通过会议地点来查询资料的用户很可能同样系统通过会议时间来进行进一步检索。同时,通过该模型还可以提供查询结果的动态展示,突出显示查询者重点关注的属性信息。
图4 属性关系模型图
3.4 分类对象模型设计
因企业内部应用的需要,非结构化数据有着明显的业务分类需要。该分类可能影响到文件数据的存储位置,分类也代表着某些属性的聚合。例如文件分类包含了系统属性,会议分类除了包含系统属性外包含了与会议相关的属性集合。因此,分类对象模型是一个倒金字塔形的分类模型,位于上部的分类继承位于下部分类的部分或者全部属性。该金字塔结构反映了人类对事物认识演化过程,随着认识的逐步深入而是分类更加细化,构成了属性关系的纵向网络。
图5 分类对象模型示意图
4 原形系统应用情况
随着原形系统的实施和应用,正逐渐成为某企业非结构化数据中心,并且相继接入了门户系统、OA系统、生产经营统计平台、电网规划平台等多个业务系统。原形系统为上述业务系统提供了内容存储服务、内容访问服务和内容管理及挖掘服务等。降低其他系统在非结构化数据管理方面的开发费用和时间成本,更专注于其自身业务需求。进一步提升了非结构化数据中心的应用价值,形成了很好的集约效益。
5 小结与展望
本次课题研究成果很好地解决了企业级非结构化数据的存储组织形式问题,使得非结构化数据在企业内部得到高效存储和便捷应用,也为企业级非结构化数据中心进行数据集中存储、统一管理、标准服务奠定了坚实的基础,已成为企业信息化建设的重要组成部分。
[1]张志刚,姚伟.海量非结构化数据存储问题初探[J].中国档案,2009,(8).
[2]陈静,尚鲜连,顾晨宇.基于SOA的非结构化信息检索的模型研究[J].自动化术与应用,2009,(11).
[3]程志华,倪时龙,黄文思,龚贺.企业级非结构化数据管理平台研究及实践[J].电力信息化,2012,(03).
[4]李未,浪波.一种非结构化数据库的四面体数据模型[J].中国科学,2010,40(8).