APP下载

电力企业云百科系统的架构设计

2018-12-25

网络安全与数据管理 2018年12期
关键词:百科分布式数据库

张 伟

(中国大唐集团科学技术研究院有限公司,北京 100040)

0 引言

随着云计算服务在电力行业里广泛的应用,用户对电力云平台的搜索能力要求越来越高。云计算将原本分散的资源聚集起来,再以服务的形式提供给受众,实现集团化运作、精益化管理、标准化建设。

电力云平台系统基于电力系统数据库中通过云搜索引擎的快速搜索,检索到相应的共享知识内容,系统功能界面简洁,用户操作便捷。

1 系统简介

电力云百科系统是部署在云上的一套系统,此系统是电力系统内部的一套维基百科,主要应用于电力系统内部的电力知识的共享以及共享知识的不断更新。

电力云百科主要包括搜索引擎和百科知识编辑处理两个业务模块。整个业务系统运行在云平台之上。当客户从海量数据中查找到所需的知识点时,可以首先对搜索到的知识点进行阅读浏览,之后如果需要对知识点进行补充修改时,可以对此词条进行评论,然后在前端进行修改,完成知识点的编辑,通过管理员的权限控制、审核,最终完成词条的修改。

2 架构设计

电力云操作平台由分布式云文件系统(DataCell FS)、数据库同步系统(DataCell Echo)、电力云搜索引擎三部分组成,为云百科提供了应用基础。电力云平台系统架构如图1所示。

图1 电力云平台系统架构图

2.1 分布式云文件系统

分布式云文件系统(DataCell FS)是完全自主开发具有自由知识产权的文件系统,该系统为分布式计算存储提供底层支持。分布式云文件系统架构如图2所示。

图2 分布式云文件系统架构图

由此DataCellFS具备以下特点:

(1)对于整个集群有统一的命名空间。

(2)数据一致性。适合一次写入、多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在。

(3)文件会被分割成多个文件块,每个文件块被分配存储到数据节点上,而且根据配置会由复制文件块来保证数据的安全性。

分布式文件系统DataCellFS是用于构建企业级非结构化数据平台的云存储软件产品,具备高可扩展性的特点,可帮助企业实现高效的非结构化数据存储和管理功能[1]。平台采取全新的分布式体系架构,利用先进的虚拟化技术灵活地将网络上众多独立的存储节点粘合起来,隐藏底层的负载均衡、冗余复制等细节,对上层程序提供统一的文件调用接口,并按照每个客户端实际使用量随时动态地分配物理空间,实现建立在现有硬件设备或其他廉价硬件设备上的网络虚拟存储功能。同时,DataCell FS还结合高效数据总线的传输能力,在文件传输、存储和访问的过程中采用主动检测和自动处理失败情况等多种机制来提高整个系统的容错性和可靠性,从而能最大程度地利用网络带宽和保证可靠的文件传输,并较好地满足跨区域、多节点、复杂网络环境的文件存储和共享需求[2]。

2.2 关系型数据库集群软件

关系型数据库集群软件是电力云操作系统的重要组成部分之一,可以解决跨区域、异构分布式数据库的统一访问和实时数据同步问题,可以同时处理同一系统内的多个异构数据库系统之间的数据交换和同步。通过对各个数据库系统内数据的动态划分和管理,跨域数据库访问和同步分发系统还可在一个或多个数据库中支持多个主/从并存[3]。在放宽对数据一致性要求的前提下,它可以绕过普通关系数据库的性能瓶颈,大大提高大型应用系统中数据库的响应速度和数据容量。关系型数据库集群软件架构如图3所示。

图3 关系型数据库集群软件架构图

另外,数据同步访问接口为业务系统、管理系统以及各种其他系统提供一致的数据同步和访问接口,将外部系统所提交的数据请求分发到相应的控制模块,并负责将必要的数据操作结果通知并返回给外部系统。控制模块负责将接收到的数据请求提交给主数据库,并且在主数据库操作提交成功后将数据请求通过控制总线组播给所有此次需要同步的虚拟数据库的同步模块。根据用户所选择的策略,控制模块会选择等待虚拟数据库节点完成或者不等待,并将结果返回给数据同步访问接口以通知用户数据操作结果。虚拟数据库的同步和访问模块负责将接收到的来自控制模块的操作请求提交给本机的物理数据库[4],并且将提交的结果返回给数据同步访问接口来通知用户数据操作的结果。

除了普通的数据操作模式之外,根据用户选择的策略,虚拟数据库可以工作于异步模式。当异步模式时,用户不实际参与实时的数据访问和同步过程,可以选择在适当的时机通知对应的虚拟数据库节点以异步的方式提交数据[5]。当系统中有新的虚拟数据库节点加入时,可以根据用户选取的恢复点,自动化恢复所有过往的数据操作,最终达到与所有其他的虚拟数据库节点一致的状态。这种虚拟同步(Virtual Synchrony)技术不仅可以保证在任何情况下多数据库节点数据操作均能正常地完成或者从故障中恢复,同时极大地强化了对异构数据库以及多主数据库情况下的数据访问和同步支持[6]。

概括地讲,数据库同步系统具有如下的技术特点:

(1)多点读写,提供负载均衡;

(2)提供多主数据库和多从数据库模式;

(3)支持分组,同一组数据库可以建立多个组,按照不同的业务逻辑进行同步;

(4)多机备份,避免单点失效;

(5)数据模型可通过外部XML文件灵活配置,避免业务代码更改;

(6)多操作系统,支持Linux、AIX、Windows等平台;

(7)支持分布式异构数据库,支持包括IBM DB2、Oricle、MySql等数据库的异构环境;

(8)多节点支持,支持 10个以上的同步节点;

(9)多策略,支持配置文件的更新或更新消息中设定多种策略来控制整个数据的同步,原有的业务逻辑不需要更改。

(10)支持单步提交和两步提交两种模式。

2.3 云搜索引擎

云搜索服务引擎是基于海量的数据、多源数据(Web URL、企业内部数据、邮件、数据库内容等)而建立起来的快速搜索的面向应用的服务平台,专门提供企业在信息化过程中海量信息的搜索服务[7]。云搜索引擎架构如图4所示。

图4 云搜索引擎架构图

作为企业搜索服务引擎,其主要完成对企业各数据源的管理、分词的建立、索引的建立,并结合企业知识分类体系完成搜索服务,提供应用系统更便捷的接口[8]。作为云搜索服务引擎,其内部系统采用高度虚拟化技术,完成整个集群的管理和维护。

3 结论

通过使用云计算技术,云百科系统的性能得到了极大提高,但其硬件平台搭建成本反而降低。

云百科业务系统主要体现了以下几个特点:

(1)系统效率的提高

采用云计算技术,可以提高并发访问量,同时还可以提高检索速度。由于采用了分布式的文件存储系统,因此检索信息可以由原来直接对一台服务器操作,变成对多台机器的操作,克服了磁盘的访问压力。

(2)系统的动态扩展

在整个系统的架构设计中,通过云计算技术,可以实现以后业务的动态扩展。

(3)硬件设备的利旧

云计算的一大优点就是可以用若干普通服务器来代替小型机,同时能达到用户所需要的性能。相对于购买新的小型机,可以通过使用暂时闲置的服务器来完成系统的功能搭建,在一定程度上节约了成本。

猜你喜欢

百科分布式数据库
乐乐“画”百科
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
数据库
数据库
数据库
数据库
基于DDS的分布式三维协同仿真研究
探索百科
西门子 分布式I/O Simatic ET 200AL