APP下载

文献检索系统的基础架构设计与实现

2019-11-18曹兆龙杨松威

电子技术与软件工程 2019年18期
关键词:基础架构部署检索

文/曹兆龙 杨松威

1 概述

随着计算机技术的快速发展,文献检索已越来越依赖互联网技术,特别是海量的文献需求区甄别、去海选,去匹配,利用计算机去获取相应的信息几乎成了未来的发展趋势,但是利用计算机去获取文献也产生了相应的问题,即如何开发高效的应用系统去实现从海量的文献中快速地找到对应的文献以及如何设计匹配的基础架构平台去满足高效的文献检索系统的稳定运行,本文经过大量的调研和研究,然后依据某单位具体建设的文献检索系统项目,精心的设计了一套典型的能支撑文献检索系统稳定、高效运行的基础架构平台,为未来文献检索系统的建设提供了基本的解决思路。

2 设计范围

本文依据的文献检索系统建设项目的目标是整合该单位所需的文献数据资源,然后开发出一个高效的文献检索系统。本建设项目的应用设计采用了业内先进的分层体系模型进行层次化设计,技术架构由管理层、业务层、应用软件层、系统支撑层、基础架构层组成。本文基础架构的设计范围包括其中的系统支撑层和基础架构层两个部分,系统支撑层主要包括系统软件等,基础架构层设计主要包括,网络、主机、存储、负载均衡等。

3 需求分析

本章对基础架构设计范围内的需求进行了分析。

3.1 基础架构层需求分析

基础架构层主要包括系统软件,存储、负载均衡、存储、安全等,它为上层的应用系统提供计算、存储、网络以及安全环境,通过链路对应用提供通讯服务的支持,通过系统软件为应用系统提供数据和运行环境保障。

3.2 系统支撑层需求分析

系统支撑层提供高度独立的构件,主要提供软件和链路满足操作系统和硬件之间的通信,提供软件支撑基础构件与操作系统的交互,本文设计的系统支撑层主要由J2EE应用服务、数据库服务、检索引擎等构成。

4 逻辑架构的设计

4.1 设计原则

基础架构的设计需要体现经济效果与系统效能的平衡,本文根据实际情况,确认的设计原则如下所示:

(1)可靠性原则,设计中要避免单点故障。

(2)先进成熟性原则,基础架构要适应未来五年的业务需求以及保障产品和技术的成熟性。

(3)开放与可扩展性原则,设计开发性的基础架构,满足未来可扩展的需要。

(4)统一和开发式标准化原则,统一采用业界公认的开发技术标准等。

4.2 逻辑架构的设计

首先依次系统的各类功能进行基础架构的逻辑分区,然后将这些逻辑分区按照数据流向关联到一起,同时综合考虑运维管理、网络安全方面的需求,之后形成完整的系统物理架构,最后再结合系统软件建设出满足系统需要的基础架构。

依次进行的设计大致包括计算和数据存储区的设计,系统软件和工具的设计,网络安全区的设计。

5 详细设计

本章依据基础架构的逻辑架构设计,结合数据流向情况,按照逻辑区域依次完成各区域的设计。

5.1 计算和数据存储区的设计

5.1.1 内网DMZ服务区设计

内网DMZ服务区,首先采用了6台PC服务器进行集群搭建WEB服务,依据是SPECweb2005测试标准。再次采用了2台PC服务器进行集群搭建网页抓取服务器,依据是只需要能正常提供系统网页抓取、网页解析、网页保存等功能就可以。

5.1.2 检索应用服务区设计

检索应用服务区设计,根据系统的基本功能描述,本章将检索应用服务分成3个部分,Web服务、检索应用服务以及数据服务。Web服务,部署Web server,负责对检索应用的请求接入,采用负载均衡集群模式,采用独立部署。检索应用服务提供检索应用组件、处理检索任务、网页抓取、技术术语词典接口等,检索应用服务器处理检索逻辑关系响应,提供各种功能接口,采用双机模式、独立部署,技术术语词典服务器提供技术术语词典的接口服务,采用双机模式,独立部署,网页抓取服务器提供网页抓取、解析、保存等功能,采用双机模式,独立部署。数据服务器提供检索应用数据库,技术术语词典数据库等,检索应用数据库包括检索应用数据、技术术语数据、文献收集库,标引数据、标注数据、中英等词典数据库等,采用集群模式,技术术语词典数据库提供技术术语词典数据,采用双机模式,独立部署。打印控制服务器部署Adobe Present Central Pro软件及集群打印软件,OCR服务器部署OCR软件,报表服务器部署报表工具软件。

5.1.3 数据校验/加载反馈服务区设计

根据系统的基本功能描述,将数据校验/加载反馈服务区主要分成数据处理服务以及数据存储服务两部分,数据处理服务主要实现4个主要功能,数据校验和加载服务器部署J2EE的应用,部署J2EE应用,实现将加工数据的XML文件解析到数据校验周转库中,将校验通过的数据加载到结构和资源数据库中,将加工数据XML文件拷贝到数据文件归档区进行归档,采用集群模式,独立部署。ETL服务器实现将XML文件和数据校验周转库的数据加载到结构化资源数据库中,采用双机模式,独立部署。加工数据文件上传及反馈管理服务器实现客户端数据的上传,接受数据文件处理的反馈信息,通过JAVA应用进行支持,采用集群模式,独立部署,归档区文件管理服务器实现对数据文件的管理。数据存储服务主要实现5个功能,结构化资源数据库需要实现本系统的核心数据库功能之一,其中包括风险、分类、引文、法律状态等数据库,需要集群部署满足其性能要求,数据校验周转库主要是实现XML文摘数据/XML图像描述数据等的管理和存储,数据文件接收数据库的主要功能是实现文件上传、反馈数据、应用数据归档、校验应用数据等,采用集群部署,数据加工缓冲区主要是实现大容量文件的存储和管理,数据文件归档区主要是实现归档文件的存储。

5.1.4 非结构化数据管理服务区设计

图1:计算和存储区基础架构设计图

根据系统的基本功能描述,非结构化数据管理服务主要分成文件处理服务以及数据存储服务两部分,文件处理服务主要实现3个功能,文件管理服务器主要实现对文件的管理,包括加载、更新、删除等,PDF生成服务器部署FDP软件,实现PDF转换的功能,Adobe Reader扩展服务器实现对PDF文件进行标注,由于量大,进行集群部署,数据存储服务主要包括文件管理应用库和文件存储区,文件管理应用库主要实现文件描述及索引,萎蔫标注信息、系统的数据管理等功能,采用集群模式,独立部署,文件存储区主要为了实现10个数据的实现以及实现PDF格式转换,采用存储在NAS存储上面。

5.1.5 检索引擎服务区设计

检索引擎服务主要包括7类服务器的功能,检索代理服务器提供检索代理服务,安装TRS Database Server软件,全文检索服务实现建立全文检索索引,安装TRS Database Server软件,智能处理服务器提供通过策略实现语义检索智能化的实现,安装TRS CKM Server软件,语义索引服务器实现语义索引的建立,安装TRS CKM Server软件,存储器服务器实现存储器的插入、删除、排序等功能,数据同步服务器实现结构化数据库或者XML数据文件的同步,安装TRS Gateway软件,统计监控服务器提供各类数据统计的接口,以上服务均采用双机机器部署已满足其性能需求。

5.1.6 数据存储区设计

依据文献检索系统建设单位的实际情况,本文根据系统的实际情况,采用SAN和NAS进行数据的存储,采用Veritas备份软件进行磁带备份,关于数据存储,其中涉及大量的结构化数据,这些数据一般由大型关系数据库进行管理,对性能的要求很高,参考相关技术参数,采用SAN存储是最适合的选择,SAN本身的性能相对比较高,同时在大量数据进行备份时,备份数据流可以通过SAN网络本身进行备份,不占用业务网络的带宽的,影响很小,另一种是非结构化数据,这不跟数据文件的存储一般主要是为了一次写入,后续基本上是读的操作了,采用价格相对低廉的NAS技术就可以很好的满足了,根据实际需要,设计了基于数据库以及基本文件的两种类型的备份,备份策略为数据库每天增量备份,每周全备,保留一个月,文件系统备份采用半年一次备份,保留一年。

5.1.7 运行维护区的设计

目标是从传统的面向设备的分散式管理转变到向面向系统的网络化管理,通过组织、流程和制度的完善以及相应的技术设施的建设来支撑和保障IT部门的整体服务水平,将相应的流程进行定义,制定流程,确立流程监控程序,对计算,网络、存储、安全进行统一化管理,设计相应的网络监控工具。

结合系统的数据流向,计算和存储区基础架构设计如图1所示。

5.2 系统软件及工具类软件设计

5.2.1 系统软件设计

需要用到操作系统、数据库系统、应用中间件系统及各类工具软件来支撑基础架构平台。

(1)为了系统的稳定运行,经调研和分析,检索应用服务器、检索应用/文件管理应用数据库服务器、数据校验/加载服务器、结构化资源数据库服务器、数据文件周转/数据文件接收应用数据库服务器、文件管理服务器采用 UNIX 操作系统。Web服务器、打印控制服务器、加工文件数据上传及反馈管理服务器、ETL工具服务器、归档区文件管理服务器、PDF文件生成服务器、Reader扩展服务器、检索代理服务器、全文索引服务器、智能处理(语义索引)服务器、数据同步服务器、存储器服务器等采用Linux操作系统。网页抓取服务器、技术术语词典服务器、OCR服务器、系统运维管理平台服务器、数据备份服务器采用Windows Server操作系统。

(2)对于数据库系统而言,选择了目前国内外通用的大型关系型数据库系统,由于性能等要求,数据库全部采用集群模式,集群模式可以实现资源的均衡负载,可以实现高可靠性,避免了单点故障,1台发生问题,不会影响相应的业务,用户感觉不到故障的发生,同时集群环境还能实现可扩展性以及可伸缩性,而且由于两台服务器同时读写同一套数据,所以一个文件查询任务可以分解成多个子查询分布到两台或多台机器上执行,提高了查询的效率。

图2:网络和安全区的基础架构设计图

(3)文献检索系统采用了J2EE技术进行开发,因此应用中间件需要遵循J2EE规范,符合J2EE标准,同时采用支持负载均衡的集群技术,使整个系统在一台或多台服务器宕机的情况下还能够正常运行。

5.2.2 工具类软件部署设计

ETL工具软件的主要目的是实现从XML到周转库和从周转库到结构化资源数据库之间的数据抽取、转换、加载功能。完整的报表工具主要是实现数据报表、OLAP分析、即席查询(Ad-Hoc)、数据挖掘、信息发布等五个方面的功能。网页抓取模块根据检索系统的查询请求,读取配置文件,合成网站下载页面的URL链接,调用URL向网站发出请求,读取网站的返回数据流,保存到抓取结果库中。

5.3 网络和信息安全区的设计

5.3.1 网络核心区的设计

核心层系统数据高速交换的平台,根据系统的需求,采用了4台H3C的9512核心交换机进行级联组网,2台核心H3C的9512通过万兆网络接入两台万兆防火墙上面,再通过万兆防火墙连接到后面的2台核心交换机上,上下两层H3C的9512核心交换机之间通过Trunk链路捆绑的方式实现交换机HA,另外每台核心交换机的组成部件都冗余配置。

5.3.2 网络接入区的设计

接入层采用两台H3C 9512交换机配置的5块10/100/1000M电口模块作为服务器接入层交换机。

5.3.3 DMZ区的设计

DMZ区将Web服务器群和网页抓取服务器通过防火墙逻辑隔离之后组成DMZ区。

5.3.4 IP地址的设计

系统使用相对独立的IP地址段,首先要考虑IP地址规划要适用网络层次结构,需要有效的地理IP地址空间,又要满足未来网络的可扩展性和灵活性,同时还需要满足路由协议的要求,提高路由算法的效率,加快路由变化的收敛速度。根据系统的基本功能需求,规划了相应的网络地址,每台路由器使用一个32位掩码的IP地址,每个点到点的设备连接,使用30位最小的子网,每一个业务区域占用的IP地址统一规划,整个系统网络地址规划为一个A类地址,即10.0.0.0/8,其中10.100.0.0/16用于网络设备互连,10.200.0.0/16用于网络设备管理。

5.3.5 防病毒软件的设计

采用防病毒服务器统一管理和监控的模式,安装2台防病毒服务器,将系统的其他服务器加入到防病毒软件的监控和管理范围内。

5.3.6 信息安全的设计

信息安全的目标是就是针对业务系统建设一个完善的安全体系,本章将从以下几个层面对信息安全进行设计。

(1)物理安全,该部分内容为参考《信息系统安全等级保护基本要求》的三级标准进行建设,这里不做详细的描述。

(2)网络安全,该部分参考《信息系统安全等级保护基本要求》的三级标准进行,根据业务的逻辑关系进行安全区域的划分,采用必须的安全产品和技术并实施有效的安全策略。

(3)主机安全,首先采用操作系统自身的安全机制来实现基础的操作系统安全,比如身份认证技术、访问控制技术、机密性技术、完整性技术等,其次对操作系统制定安全的管理策略兵器严格执行。数据库的安全,首先通过数据库自身的安全机制来实现的,其次是设计了一些数据库安全增强选件来实现。

(4)应用安全,首先是身份认证,是有被确认身份的用户才能进行相关的操作,其次是访问控制,当用户的身份得到确认后,系统后续提供基于角色的访问控制,对访问权限进行分类设计,保障后续的安全审计,安全策略可以根据需要进行实时更新。

(5)数据安全,移动办公用户与系统之间数据安全主要通过SSL VPN技术来实现,操作系统、数据库以及用户身份信息安全性主要通过各自内部提供的安全机制来实现,数据库中数据安全性主要采用数据库自身提供安全机制进行保障。数据的备份和恢复主要通过以下方面来实现,管理途径,通过建立完善的安全备份管理制度来实现,技术途径,首先通过对重要的设备、通讯线路进行冗余设计来实现,其次通过磁带库、光盘库对重要的数据进行备份来实现。

依据业务的数据流程,网络和安全区的基础架构设计如图2所示。

6 结语

本文依据实际建设的文献检索系统建设项目,以应用为导向,在详细分析文献检索系统以及基础架构的需求基础上,经过大量的调研和实际测试工作,圆满的完成了文献检索系统的基础架构平台的设计与实现,后来依据系统的建设计划,系统的基础架构平台也在规定的时间内完成了,获得了客户的一致赞扬。当然由于项目的时间关系,基础架构平台的部分软件功能没有达到用户的期望,但是后续我们将继续优化改进的。总之这次成功设计出的文献检索系统基础架构平台为未来的检索系统建设提供了解决思路,同时通过这次基础架构平台设计,我对IT系统基础架构的认识更进一步了,我有信心在未来IT系统基础架构建设的道路上越来越好。

猜你喜欢

基础架构部署检索
一种基于Kubernetes的Web应用部署与配置系统
晋城:安排部署 统防统治
部署
自由流收费下的联网收费结算中心基础架构设计
智慧高速+互联网环境下信息化基础架构浅析
2019年第4-6期便捷检索目录
部署“萨德”意欲何为?
专利检索中“语义”的表现
国际标准检索
国际标准检索