基于门户统一搜索引擎的水利普查数据应用
2014-02-10骆小龙虞开森余金铭
骆小龙,虞开森,余金铭
(1.浙江省水利信息管理中心,浙江 杭州 310009;
2.浙江大禹信息技术有限公司,浙江 杭州 310002)
基于门户统一搜索引擎的水利普查数据应用
骆小龙1,虞开森1,余金铭2
(1.浙江省水利信息管理中心,浙江 杭州 310009;
2.浙江大禹信息技术有限公司,浙江 杭州 310002)
在简要介绍水利信息门户的基础上,详细阐述门户的统一搜索引擎技术路线、构架和实现原理,提出水利普查数据以资源方式应用于门户,并与其他水利数据资源整合,利用统一搜索引擎在门户客户端检索和发布,实现数据资源在应用层面的融合和共享。
信息门户;搜索引擎;水利普查;数据服务
0 引言
根据国务院决定,按照第一次全国水利普查领导小组办公室和浙江省人民政府的部署,浙江省在2010—2012 年开展了第一次水利普查。普查的主要内容包括:河流湖泊、滩涂围垦、水利工程设施、河湖开发治理与保护、经济社会用水、水土保持、行业能力建设等情况的普查,以及灌区和地下水取水井 2 个专项普查[1]。水利普查通过规范化的数据收集,确保对象不重不漏、指标切合实际[2]。
经过近 3 年时间的努力,浙江省第一次水利普查工作已全面完成,获得了迄今为止最为全面、完整、规范和权威的水利基础数据。但如何安全、方便地使用好这批数据,发挥最大效益,为日常水利管理工作提供支撑和服务,这已经成为水利信息化管理部门迫切需要思考和解决的问题。水利普查数据资源化应用模式是区别于以往系统化应用的另一种数据应用模式,将水利普查数据作为水利行业中众多数据资源的一类,通过数据服务方式,加载于已部署应用的浙江水利信息门户(以下简称门户),可实现水利普查数据在浙江省水利行业安全、方便地应用。
1 门户介绍
门户是一个访问各种信息和应用系统的个性化统一入口[3],它以身份认证平台为基础,以融合通讯技术为依托,以整合电话、短信、VPN、即时消息等通信资源,和政务、防汛、水资源、水利普查等各类业务应用资源为主导,以简化用户日常应用操作,提升用户效率为目标。门户具有以下特点:
1)功能“八大统一”。即统一身份认证、单点登录、后台管理、资源管理、消息管理、访问控制、访问搜索和网络环境。
2)运行安全可靠。开户时,实行实名制注册方式,确保用户为行业内职工;登录时,客户端要求多方校验,确保用户的合法性;传输时,客户端与服务器端的数据交互全程通过 HTTPS 协议实现,保证数据传输的机密性和完整性;存储时,数据加密处理且虚拟化服务,确保用户信息的隐私和数据物理介质的安全性。
3)资源授权使用。门户管理的业务应用资源包括系统和数据资源。通过门户后台按部门、岗位的资源推送,实现资源与用户权限相结合的应用体系。用户登录门户客户端只可访问自己权限范围内拥有的各类业务应用资源。
4)搜索高效便捷。门户拥有独立、完善的统一搜索引擎,可快速、便捷地对水利普查数据等资源实行统一搜索,并以门户客户端为载体,实现搜索信息的集中展现。
2 统一搜索引擎
门户涉及数据资源多,且各数据库体之间异构。为提升数据检索效率,实现跨平台、资源的统一检索和查询,门户构建统一的搜索引擎,将水利普查、水雨情、台风等数据资源汇聚在门户前端。
2.1 技术路线
统一搜索引擎模块采用资源管理、集中索引、分布调用的设计理念,将门户客户端展现与数据服务分离,客户端展现层设计为纯展现容器,容器内容由服务器端返回数据进行填充,内部结构由服务提供者的数据服务接口返回。引擎模块涉及的数据服务接口采用基于 SOAP 协议的 Web Service 技术,利用 Web Service 做中间层组件,实现在各数据库体、应用系统的数据中心与客户端之间数据调用服务,屏蔽各种应用系统对数据库体的直接访问,保证数据的安全性并实现数据共享。接口信息传输采用标准的 JSON 格式,JSON 是一种轻量级的数据交换格式,采用文本格式,易于阅读和编写,同时也易于机器解析和生成,是理想的数据交换语言[4]。引擎模块的设计模式在最大程度上减少了客户端展现与业务的耦合度,实现搜索结果的灵活定制修改。
2.2 引擎架构
统一搜索引擎模块部署中间层搜索数据库,建立数据资源的网格索引;同时考虑分布式计算,将分散的数据资源集中在搜索服务器中进行统一索引的管理和发布;最后通过分布式调用,实现搜索结果在客户端统一展现。通过这种集中式管理、分布式调用展现方式,不仅可以加快搜索效率,也可明显减少资源服务器的压力。总体架构如图1 所示。
图1 统一搜索模块总体架构
2.2.1 应用服务层
应用服务层拥有水利普查数据在内的多个基础数据库,每个数据库及相关应用都作为独立资源,以编码方式管理,以层级形式注册,每个资源都按约定发布标准定义的服务,包括关键字索引和详细信息服务。通过标准化的服务定制,将资源进行集中索引、统一发布搜索,供搜索服务器抓取及门户客户端进行信息展现。
2.2.2 搜索服务层
搜索服务层主要负责汇集水利普查数据等资源,通过建立标准的 WSDL (网络服务描述语言)服务,实现资源统一发布,包括搜索服务器及标准化的搜索服务接口。搜索服务器主要负责资源管理和索引爬虫,资源管理功能将注册已发布的资源进行编码化管理,给资源分配编号、名称等相关属性,配置资源索引抓取的频率,管理是否抓取等;索引爬虫功能根据管理的资源,按它们的属性配置进行资源索引的抓取,同时负责定期重建资源索引。搜索服务接口以 Web Service 提供,供客户端统一调用,实现信息资源的抓取、索引及发布,负责返回标准定义的搜索结果。
2.2.3 人机交互层
人机交互层即门户客户端,负责调用统一的搜索服务, 展示返回的搜索结果及详细信息。具体为以下 3 步:
1)用户输入关键字检索,客户端调用搜索服务,搜索服务负责返回标准定义的搜索结果;
2)用户选择具体记录,客户端调用详细信息接口,接口返回该记录标准定义的详细信息,并在客户端容器内展示;
3)用户选择具体记录“更多信息”,客户端传入相应参数,由该记录对应的专门业务应用系统负责响应,提供独立于门户客户端的信息展示页面。
3 水利普查数据应用
水利普查数据作为门户管理的一类数据资源,与水情、雨情等数据资源相似,无需构建专门的应用系统,借助门户的统一搜索引擎,即可实现在门户中直接检索和查询数据。为符合门户对数据资源的管理和检索要求,需对水利普查数据进行适当处理,以下以水利工程数据为例介绍。
3.1 数据过滤
通过水利普查数据上报系统采集的水利工程数据,包含工程基本情况、特性指标、作用与效益、管理情况等 4 方面的工程属性信息,以及其他一些辅助信息,如填表人、复核人、审查人、填报单位、联系电话、填报时间,等等。考虑到水利工程数据在门户中应用的侧重点为工程属性信息,因此,水利工程数据正式应用前需进行数据过滤,以满足门户和用户对数据的要求。
数据过滤以不影响原来的水利普查数据库为前提,以突显工程属性数据为原则,通过在水利普查数据库构建相应的视图和触发机制,建立针对门户应用的专门普查数据库实例,将水利工程数据自动过滤到普查数据库实例中,为后续水利工程数据动态更新提供自动同步机制,实现数据库级的数据过滤和更新。
3.2 资源注册
完成数据过滤后的水利工程数据,需在搜索服务器中进行相关信息的注册,方可作为一类资源被门户调用。注册信息包括资源编号、名称、度量单位,以及索引服务发布地址、详细信息服务接口地址、其他页面地址、索引服务抓取频率、是否启用状态、资源排序位、注册时间,等等。水利工程含水库、水电站、泵站、海塘、堤防、水闸等 6 类具体工程,以每类工程作为一项具体资源完成注册。注册信息在数据库体中样式如图2 所示。
图2 水利工程数据资源注册
3.3 服务构建
门户之所以能对水利工程数据资源方便地调用,关键在于服务。水利工程数据资源建立的相应服务包含索引、搜索和详细信息等 3 种服务,其中索引服务由搜索服务器调用,搜索和详细信息服务由门户客户端调用。
3.3.1 索引服务
用于搜索服务器从已注册的资源服务器发布的水利工程数据服务中获取关键字索引,并定期重建更新关键字索引。水利工程数据资源发布的索引服务以 JSON 数组形式返回信息定义,返回结果的字段信息如表1 所示。
3.3.2 搜索服务
搜索服务用于人机间信息交互,供门户客户端调用,检索的关键字信息包括工程类别、名称、规模、所在地区、所在县区等。用户在门户客户端搜索区输入关键字后,由搜索服务程序负责检索,并以 JSON 数组形式返回信息,内容包括客户端显示所需要的辅助信息(如系统编码、系统名称、总记录数、每页条数、总页数、详细信息发布地址等)及搜索结果的主体信息。搜索服务返回结果的主体信息如表2 所示。
3.3.3 详细信息服务
用户通过门户客户端的搜索区检索关键信息后,搜索服务器通过搜索服务推送搜索结果返回至门户客户端主界面;用户选择具体记录查看详细信息,通过详细信息服务调用,并以 JSON 数组形式返回结果。结果信息中包含记录编码、更多信息页面地址及详细信息具体内容的数组,返回结果数组表如表3 所示。
表 1 索引服务字段信息表
表 2 搜索服务返回结果主体信息表
表3 详细信息服务返回结果数组表
3.4 资源发布
水利工程数据按照门户统一搜索引擎的格式要求,在完成资源注册和服务构建后便成为门户的资源,通过门户的权限管理体系授权分配给用户。门户利用统一搜索引擎,快速实现对用户输入关键字的模糊匹配,完成水利普查数据库中每座(处)水利工程的遍历,并以列表方式分类、分规模地展示工程记录,供用户浏览、查阅。工程详细信息展示如图3 所示。
图3 工程详细信息
3.5 数据应用
通过第一次水利普查工作形成的水利普查数据类多量大,涉及的普查内容共 8 大类 20 多个子项,涵盖水利行业的方方面面。仅以水利工程为例,全省就有水库 4 334 座;规模以上水电站 1 419 座,规模以下水电站 1 792 座;规模以上水闸 8 581 座,规模以下水闸 4 187 座;堤防 4 125 段,海塘 1 065 段;规模以上泵站 2 854 处,规模以下泵站 45 227 座[5]。水利普查数据库拥有的具体工程记录总数达几十万条。
将如此海量的水利普查数据以资源形式构架于行业内“覆盖广泛、资源可控、使用安全、操作简便”的门户中,既丰富了门户的数据资源,又简化了数据的应用方式。与已有的浙江省水利普查数据成果展示系统、电纸书等应用系统相比,门户对水利普查数据的应用具有以下 3 方面优势:
1)使用便捷。数据可直接在门户中查询展示,而门户每天在用户日常工作中使用。用户查询数据可随手可得,无需调用专门的应用系统。
2)检索高效。利用搜索引擎构建的快速索引服务,可毫秒级检索工程信息,做到一次搜索、一次点击,即可轻松获得具体工程的详细信息。
3)数据融合。水利普查数据与其他水利业务数据资源整合,并相互联动,用户可在同一时刻全方位、多角度地掌握工程的详细信息。
根据门户后台的统计分析,用户利用门户查询水利普查数据的数量和使用频率都远高于专门的水利普查数据管理系统,基本做到人人查询,天天使用。水利普查数据以资源化的应用方式在行业内得到了广泛应用,效果显著。
4 结语
当前,第一次水利普查工作已经结束,但基于水利普查数据的各类应用开发正当时。考虑到水利普查数据的敏感性,在普查数据应用时,既要管牢数据,又要用好数据。
针对第一次水利普查提出的水利普查数据资源化应用设计,可充分利用水利行业内已实名注册、广泛使用的水利信息门户,并借助于门户强大的统一搜索引擎功能,实现水利普查数据在门户客户端的快速检索和展示,做到在应用层面与其他水利数据资源的共享。可以说,以门户为载体,以统一搜索引擎为手段,水利普查数据得到了便捷又安全的应用,在水利行业用户的日常工作中发挥了很好的作用。水利普查数据在门户中的资源化应用模式,为水利行业其它业务数据的发布应用开创了新模式,具有很好的借鉴作用。
[1] 浙江省第一次水利普查领导小组办公室.浙江省第一次水利普查工作方案[EB/OL].[2014-05-10].http://www.zjwater.gov.cn/pages/document/82/document_795.htm.
[2] 杨海坤,陈德清,谭巍.水利普查成果与防洪工程数据库数据对接研究[J].水利信息化,2012 (6): 15-19.
[3] 王文革,周凤珍,智海燕.企业信息门户与统一的用户安全认证体系[J].电力信息化,2007, 5 (6): 50-53.
[4] 龚建华.JSON 格式数据在 Web 开发中的应用[J].办公自动化,2013 (10): 46-48.
[5] 浙江省水利厅,浙江省统计局.浙江省第一次水利普查公报[EB/OL].[2014-06-11].http://www.zjwater.gov.cn/pages/ document/105/document_034.htm.
Application of Water Resources Census Data based on Portal Search Engine
LUO Xiaolong1, YU Kaisen1, YU Jinming2
(1.Zhejiang Provincial Information Management Center of Water Resources, Hangzhou 310009, China;2.Zhejiang Dayu Information Technology Co., Ltd., Hangzhou 310002, China)
Based on a brief introduction of water information gateways, the article elaborates portal search engine technical route, architecture and implementation principle.The water conservancy survey data resources can be applied to the portal by the way of resources and merging with other water resource data.It releases in the portal client retrieval using search engine, and realizes the data resources integration and sharing in the application level.
information portal; search engine; water conservancy survey; data service
TV211
A
1674-9405(2014)05-0016-05
2014-07-11
骆小龙(1976-),男,浙江嵊州人,高级工程师,主要从事水利信息化建设和管理应用研究工作。