APP下载

标准数字化全文检索系统构建探讨

2016-11-17徐航

中国管理信息化 2016年15期
关键词:全文检索检索标准化

徐航

(福建省标准化研究院,福州 350013)

标准数字化全文检索系统构建探讨

徐航

(福建省标准化研究院,福州 350013)

标准数字化全文检索系统是基于DIPS数字文献系统,面向标准的应用、管理和发布的系统。前端采用B/S网络发布结构,提供全文检索服务,检索命中到页,可满足用户在查找标准信息资源时野快、准、全冶的要求,极大地提高标准信息资源的获取效率。

标准特色数据库;全文检索;系统构建

1 前言

随着我国经济的飞速发展和社会的不断进步,产品的质量愈发受到社会各阶层的关注。而提高产品质量的关键在于按照标准进行规范生产,标准对于提高产品质量具有巨大的推动作用。特别是在经济全球化的今天,标准担当着产业主流技术载体的重要角色,成为市场竞争的制高点,可以说标准化工作对于国家、行业、企业的可持续的健康发展都具有战略意义。福建省标准化研究院作为专业研究标准化的单位,在不断提高标准化研究水平的同时,更积极探索标准化与信息化相结合的服务模式,于2009年底建成并上线运营福建省标准信息服务平台,打造“一站式”标准服务,平台运营至今已为众多用户提供了高效、优质、准确的服务,取得了显著成效。平台具有以下特点:①操作简便,功能强大,平台为用户提供多个检索条件以提高检索效率,并实现标准电子文本的在线阅览,打印,下载等功能,为用户提供了一个畅通的标准获取渠道;②更新及时,数据准确。平台设有专人持续跟踪,加工,上传各标准组织的公告,确保标准更新的及时性和状态的准确性;③品种齐全,数据丰富。以平台为依托目前共收录国内外标准题录127万余条和国内外标准电子文本23.5万余件。

2 系统设计与实现

2.1 系统网络架构

系统由两台服务器,一个磁盘阵列,一台高速扫描仪和多台式机构成。其中一台服务器用于部署系统前端的程序,另一台服务器用于安装DIPS数字文献系统;磁盘阵列主要用于存储双层PDF等资源;高速扫描仪主要用于将标准纸质文本扫描成PDF格式的电子文本,台式机用于数字化加工,将图像PDF批量OCR识别后转化成双层PDF。整个系统的网络架构如图1所示。

图1 系统网络架构

2.2 系统数据库设计与实现

该我院选择DIPS数字文献系统作为系统的数据库,DIPS是一款面向图书、文献、档案等领域数字化建设的信息管理软件。DIPS以全文检索技术为基础、基于互联网内容管理为核心,具备创建并管理数据库,采集挖掘、加工整理和发布信息资源等多项功能,能够满足大容量数据全文检索及多用户并发使用的要求,是新一代集数字化加工、数字内容管理和全文检索为一体的信息管理软件。

2.2.1 系统数据库设计

利用DIPS数据文献系统中的管理模块创建标准全文数据库,确定数据库结构,定义了20个字段,包括:“标准号”,“标准序号”,“标准年代号”,“标准中文名称”,“标准英文名称”,“标准状态”,“组织类别”,“发布日期”,“实施日期”,“作废日期”,“代替标准”,“被代替标准”,“文本页数”,“中标分类号”,“ICS分类号”,“引用标准”,“采用标准”,“修改单”,“备注”,“全文”。

2.2.2 数字化加工

通过程序将现行标准PDF文本按标准组织类别批量导出,然后利用软件Adobe Acrobat进行批量OCR识别,将图像PDF转化成双层PDF,OCR识别完成后Adobe Acrobat将弹出错误提示框以显示OCR识别有误的PDF文本,错误原因主要是由于PDF页面尺寸太大超过了Adobe Acrobat可OCR识别的最大范围,加工人员将这些OCR识别有误的标准号提取出来,利用虚拟打印机Adobe PDF将这些PDF文本转化成规范的PDF文本,再进行OCR识别转化成双层PDF。

2.2.3 标准数据入库

通过程序将已数字化加工的标准文本对应的题录信息从福建省标准信息服务平台的数据库中导出到成Excel文件,形成入库文件。通过软件SQL2DIPS4将标准双层PDF文本和文本对应的题录信息批量导入到DIPS数字文献系统中,完成标准数据入库。

目前DIPS数字文献系统的数据库中包括国家标准(GB),行业标准(包括机械行业JB、化工行业HG、农业行业NY、商品检验行业SN、纺织行业FZ、建筑行业JG、建材行业JC等30多个常用行业组织的标准),福建省地方标准(DB35),累计4万余项标准数据。

2.2.4 数据库维护

在使用过程中如果发现数据库中有重复的标准数据,管理员可以通过DIPS提供的去重工具进行去重,在工具中选择好根据“标准号”这个字段进行去重后,数据库中将只保留ID值最大的标准数据(即新上传的数据),其余重复数据将会被删除。

2.3 系统前端实现

系统前端以Visual Studio 2013作为开发工具,以.NET Framework 4.5为框架,采用三层架构模式,以IIS 7.0作为中间件,应用Jquery,Ajax,Xml,Json多项技术,实现以下功能。

2.3.1 注册账号

用户注册时需填写自己的邮箱地址,注册完成后,系统会自动向用户的邮箱发送激活邮件,邮件内容是一个激活链接,用户需要登录自己的邮箱并点击该链接才能激活之前在系统注册的帐号。

2.3.2 登录账号

为了系统的安全性,系统设置登录失败处理功能,限制非法登录次数。在用户输错密码3次后,该账号将被锁定1个小时,防止黑客对账户密码进行暴力猜测。

2.3.3 找回密码

用户可在找回密码页面输入注册时使用的邮箱地址,系统会自动发送密码重置邮件到该邮箱中,用户登录邮箱点击重置邮件中的链接即可重置密码。

2.3.4 检索定位

用户可根据关键字,标准号,标准年代号,中标分类号,ICS分类号,标准状态,标准组织类别这七个条件进行组合检索。如果在某个条件中需要检索多个词,检索词之间可以用逻辑与“*”、逻辑或“+”、逻辑非“!”运算符连接。逻辑与“*”表示标准文中必须含有所有检索词,逻辑或“+”表示标准文中只要含有某个检索词即可,逻辑非“!”表示标准文中不能含有该检索词。

2.3.5在线阅览

用户如需在线阅览标准文本,要先从系统下载并安装Adobe Reader软件和DIPS专用阅览插件,安装成功后用户在线阅览时插件将会直接跳转到关键词所在的页,并且关键词标红显示,极大地提高了用户的检索效率。

2.3.6 跟踪标准

用户在检索过程中可将自己关注的标准添加到用户关注标准库中,从而以后用户可直接通过该库使用这些标准,实现小范围内更加精确地全文检索,用户关注标准库中标准作废前系统会弹窗提醒以及向用户注册邮箱发送标准作废前提醒邮件,从而避免用户使用作废标准造成损失。

2.3.7 后台管理

管理员在后台可以查看用户的姓名,单位,联系方式等资料以及最新登录系统时间,总登录次数等用户使用系统的情况,并且可以设置用户是否有权限在线阅览标准电子文本

3 结语

随着标准数量不断增长以及用户获取标准信息的需求迅速膨胀,当前仅针对标准题录的检索方式已经不能满足用户需求,而标准数字化全文检索系统提供了快捷的数据管理工具和强大的全文检索手段,为标准化资源高效利用建立了一个有效的共享平台,使用户能快速方便地查到需要的标准信息,满足用户高查准率和高查全率的要求,在标准化和信息化相结合方面开创了新的领域,对于标准化工作的开展和推广具有积极的意义。

主要参考文献

[1]陈晓.基于DIPS的高校图书馆特色数据库建设[J].情报探索,2008(7):50-51.

10.3969/j.issn.1673-0194.2016.15.106

G252.7

A

1673-0194(2016)15-0168-03

2016-05-04

猜你喜欢

全文检索检索标准化
标准化简述
2019年第4-6期便捷检索目录
标准化是综合交通运输的保障——解读《交通运输标准化体系》
Oracle数据库全文检索性能研究
专利检索中“语义”的表现
论汽车维修诊断标准化(上)
基于KySou的全文检索系统的分析与优化
交通运输标准化
特色数据库全文检索系统的设计
国际标准检索