APP下载

基于公安业务的全文检索系统的设计与实现

2016-03-05郭松青何鹏

无线互联科技 2015年20期
关键词:全文检索

郭松青 何鹏

摘要:随着计算机技术、网络技术和通信技术的发展和应用,公安信息化也得到了突飞猛进的发展。近年来,各地公安机关建设了大量的服务各警种的信息化系统,随着公安信息化系统的广泛引用,数据量以几何级开始增长。如何在庞大的数据中快速、精确地检索数据,已经成为公安信息化发展的重点,建立基于公安业务的全文检索系统能够有效地满足这个需求。文章首先对全文检索技术进行简要的介绍,对业务需求进行了深入分析,重点进行了全文检索系统的数据分析和功能模块设计。

关键词:全文检索;公安信息化;公安业务

全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。全文检索是以文本数据为主要处理对象,根据数据资料的内容而不是外在特征实现的信息检索手段。全文检索就是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立索引,当用户查询时,检索程序就根据事先建立好的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

1 关键技术

建立一个全文检索系统,首先要将源文档转化为能够进行文本查找的全文数据库,包括全文的分割处理以及检索标识的提取,这称为全文本的前处理工作。众所周知,英文是以词为单位的,单词之间以空格作为自然分界符,而中文是字的序列,词之间没有间隔标记,使得词的界定缺乏自然标准。而“词”又是自然语言处理的一个基本单位,是最小的能够独立活动的有意义的语言成分。显而易见,自动识别词的边界,将书面汉字序列切分成正确的词串的中文分词问题无疑是实现中文信息处理的首要问题。

2 全文检索系统设计

2.1 业务需求分析

全文检索系统依附于具体的公安业务系统,全文检索数据库与业务数据库进行数据对接,同步更新。

目前来说,系统的索引范围按照对象的物理分布不同分为2类:第1类是业务数据库中存在的相关数据记录内容。第2类是系统上传的各类文档附件,包括WORD,EXCEL,PDF,TXT等格式的文档。

全文检索系统实现对现有业务要素高效、准确、全面的查询分析,主要包括几部分:(1)实现对全部业务关注数据的文本抽取、信息聚集、主题描述,能通过关键词检索到相关联的主题信息。如通过人名可以查询到与之相关的人员基础库信息、关联的情报信息、关联的人员相关附件。(2)建立相关业务要素主题库,主题库包含业务要素对应的业务系统内部所有关联信息;搭建全文检索环境,提供对主题库的索引建立、排序等。(3)建立合理的结果排名权值模型,为用户提供精准的数据探查,提供对业务系统内部所有信息的全文检索,在业务系统中快速查找与关键词相关信息项。

2.2 数据库设计

全文检索数据表为Search_Content,主要包括以下几个字段。

ID:数据表的主键,唯一标识该实体。

CONTENT:人员或者情报信息的全项信息,包括人员或者情报信息的所有关联信息,以及人员或者情报信息相关的附件文档内容。

OBJNAME:检索结果的分类,包括人员、情报信息、人员附件、情报信息附件等几项内容,对检索出的结果进行分类展示。

BASEID:关联的业务数据库中的人员表、情报信息表的主键。

BASETABLE:关联的业务数据库表名,包括人员表名、情报信息表名、相关附件文档表名等。

KEYWORDS:关键字的权值,为搜索结果的排名时使用。

3 全文检索功能的实现

全文检索系统覆盖足够全面的数据范围,提供高效快速的全文、智能检索和多样化的查询和检索手段,使用户能快速在海量的汇集数据中找到相关信息,并进行一定的统计、监控、分析等应用。

3.1 信息抽取

为实现全文检索,提高整体的响应速度,系统应采取预先建立全文索引的方式。原则上,数据库表的所有字段都建立索引,做到索引信息与数据库信息完全匹配。系统应具备多数据源的混合抽取能力,并能针对各种不同业务数据源进行不同方式的扫描处理。

3.2 精确查询

采用搜索引擎的架构,面向数据采用预先抽取数据建立全文检索以及字段独立索引,系统的精确查询是基于索引的,它继承了搜索引擎高效、稳定性能的同时,用户的精确查

猜你喜欢

全文检索
实名制校园安保服务平台的设计与实现
Oracle数据库全文检索性能研究
基于KySou的全文检索系统的分析与优化
用JSP调用Lucene包来实现全文检索
古籍电子化与中国古代文史研究