基于企业搜索引擎平台的探究
2018-04-16钟炳志刘琦陈昌平
钟炳志 刘琦 陈昌平
摘 要:伴随着互联网技术的兴起,企业的信息技术建设也发展的朝气蓬勃。有些企业的规模非常庞大,诸如多区域分公司或全球跨国企业等,企业内部的数据是非常庞大的,在如此众多的信息中,如何能快速、有效的获得所需要的信息,是一个非常重要的课题。企业搜索引擎就如日程生活中所使用的那些引擎一样,能很好的解决这个问题。
关键词:一站式搜索引擎;关联性检索;跨地域全网检索;搜索引擎
中图分类号:TP391.3 文献标识码:A 文章编号:1671-2064(2018)05-0045-01
1 引言
依托于互联网技术,企业的信息技术也得到了前所未有的发展。以一个电力系统企业为例,技术资料、工艺参数、销售相关的数据非常之多,它们均以文件、邮件、照片等各种形式被保存在企业的计算机系衡量统中。一旦要被查询,需要企业人员能准确、快速、无误的进行查询并识别出来。这也是一个企业是否高度信息化建设与否的主要指标。
2 企业一站式搜索引擎的开发背景
目前有些企业,虽然经过信息化的管理,也实现了对IRS、知识管理、协同办公等系统进行全过程的搜索,但是,有些仍然存在以下问题:
(1)系统的接入量偏少,只接入了内网办公门户2.0、统一权限、协调办公、知识管理、IRS这几个系统;(2)企业的所有格式的办公文档、图片资料、各类报表、图像和各种格式的音频及视频信息等业务元数据并不能自动录入系统,而是仍然需要手动录入,缺少智能化、自动化的技术手段来支撑;(3)缺少多业务场景,无法进行多元化的业务进行应用;(4)与门户2.0统一权限的集成不能实现;(5)系统的数据,由于更新难度大或者更新不及时,导致数据陈旧,无法满足企业的正常的搜索需求;(6)不支持模糊搜索,需要高精度的搜索关键词,且有可能需要多次搜索,企业无法达到快速查找的效果,搜索难度大。在这样的背景下,企业门户一站式搜索服务的实现就显得非常有意义。
3 企业一站式搜索引擎的工作原理
企业的各种信息数据采集机制按照某种固定的规则进行信息资源的归类,并保存至企业的数据库中。同时,采用数据分类索引机制对数据库中的页面信息进行索引,经过整理形成各种倒排文档,并在系统中建立起相应的索引数据库。在查询界面中,只要根据查询者的查询任务,并接受所提交的访问相应的索引数据库,结果搜索引擎的查询,最终将负荷要求的全部结果按照某种规则排列出,便于查询者的确认。
4 企业一站式搜索引擎设计的方案
(1)面向业务场景的搜索:针对企业的典型业务模型设计等进行搜索结果的全景视图展现,集成基建管控系统、政工管理系统、科技管理系统、纪检监察系统、国际合作系统、规划计划管理系统、工会班组系统、标准化管理系统8个业务系统进行接入,全面扩大了接入的范围,实现了企业的业务全覆盖、信息数据与模型设计自动关联以及全景视图的展示。(2)关联性检索:陈旧的检索工具会直接影响到搜索的质量,以及检索内容的妥当性,因此,对企业的元数据进行归类,构建各信息点的关系图谱,包括业务的模型,关系图谱模型,数据提取规则,识别命名实体、建立涵盖新增加各业务系统所涉及的业务规则库,将非结构化文档中的命名实体提取出来,作为该文档元数据的一部分,从而提高搜索的质量。(3)跨地域全网检索:企业的数据往往仅仅被保存在本地,无法进行系统内的跨地域的检索,这就使得有些数据不能共享使用。为了解决这一问题,通过对索引文件的数据增加的同步与合并,将索引生效,并将其应运到全网系统中的索引,以此实现跨地域的全网检索。这在同一集团不同区域的子企业之间业务的关联上起到了非常重要的作用。
5 企业一站式搜索引擎的技术架构
基于企业自主可管控的软件基础设施,将搜索的引擎,数据分析、全景视图的应运和展示等主要构建进行系统的管理,通过这些各组件的协作统一对外提供基于非结构化数据的一站式搜索服务,支撑带权限的跨地域检索功能,实现各数据的动态关联检索,为了更好的支撑一站式的引擎搜索,将围绕着基础数据的集成、数据库的权限控制、搜索过程等内容进行方案设计的展开。具体包括以下:
(1)数据级权限设计方案。企业用户者通过被授权的身份进入系统,在搜索引擎的检索栏中输入相关的搜索条件,由于系统会识别用户的权限,因此,搜索的过程会根据用户的权限信息向搜索引擎发出搜索请求,用以提高检索的效率。(2)语义搜索方案。首先,通过企业对网页、电子文件、文本、音频、视频等多媒体资料等的数据采集,进行数据的编排和整理;其次,对采集的数据根据其特征或者表述内容进行初步的处理,并采用关联图谱或者全视角景模型,为用户检索提供更多全面的信息支撑。(3)对应企业用户输入的请求,当企业用户通过引擎搜索窗口输入关健词或则短句时,相关被查询信息,以及用户权限等的信息一同被带入搜索引擎中进行查询。(4)搜索引擎根据用户权限的设定,将符合该权限的索引结果展现出来,查询的结果可能会有很多内容,一般会按照与查询关健词接近程度高低进行排列,除了相关的文字或图片信息,被编排的关联业务图谱等也一同被可视化体现出来。
6 企业搜索引擎关联用户角色的定义
(1)普通的用户,这也是最常见的角色,它是指系统普通的使用用户,一般是通过企业搜索引擎查询相关的信息,促进工作上的完善。(2)相关业务的管理员,这类人员一般都要肩负着业务分析、系统基础配置、权限同步、数据集成等的工作职责。一般都属于得通信公司人员。(3)审计管理员,这类人员主要负责系统的日志管理、审核创建普通用户是否通过等职责。(4)系統运营维护人员,主要负责系统的运行和维护,可以查看系统的日志,以及对系统进行故障恢复等。
7 应当注意的应运安全问题
(1)用户的身份认证。考虑到信息的保密性、以及对引擎使用者信息的追踪和把握,对登陆验证设置独立的个人账号和密码,且为了提高密码的精度,使用数字和字母互组合的方式进行。当密码连续三次登陆验证错误是,账号将被锁定,最终只能通过企业系统的维护人员或者事先预留的身份验证等方式进行解锁。另外,通过配置方式启用禁止同一账号同时在不同的IP上登陆。(2)授权。基于不同的账号,进行适当的资源配置,当访问到某些关键核心信息是,需要进行授权认证。(3)异常时的管理。当界面显示页面出错的异常信息时,应该被记入日志,以便系统维护人员的确认和问题的排查。
8 企业搜索引擎未来发展的一些建议
(1)从用户输入的关键词或短句中能快速匹配到相关信息,提高索引的效率以及内容的有效性。很多用户都有这样的体会,企业搜索引擎中输入关键词后,显示出来的结果非常多,但是,与自己实际所需要的内容相符合的信息,却就没有那么多了,这就需要用户进行新的的再次筛选,甚至需要花费大量的时间逐条确认。如果搜索引擎能获得用户没有在查询条件中表达出来的真正用途,那么最终显示出来的查询结果将会删减很多,用户最终确认也变得简单。这就需要使用智能跟踪用户的索引行为,通过用户的多次交互查询,让搜索引擎真正意义上明白那些索引的结果和查询者的需求有关。(2)信息过滤技术利用信息智能代理,使用自动获得的用户模型进行信息搜集,从所有信息中自动过滤,将用户感兴趣的、或对用户有实质帮助的内容保留下来,达到个性化的服务。(3)面对系统规模的日益扩大,采用分布式体系结构,提高系统的性能和使用感官。当前的企业搜索引擎一般有集中式体系结构和分布式体系结构这两种。这两种方法面对不同的系统规模时,也是各有千秋。一般来说,当系统的规模扩大时,会采用分布式体系结构,即,搜索引擎一旦被下达任务后,将在多台的机器上进行并行索引,以提高检索的速度。增加用户的使用感官。(4)重视信息的交叉检索的研究。被保存至企业信息数据库中的信息形式是多种多样的额,甚至是多种语言的。因此,搜索引擎如果能够将用户的搜索关键词转换成其他形式的各种语言,再由搜索引擎下达搜索任务,这样,就更能全面的将所有有用的信息全部展现出来。但是,这个技术要实现它,存在的难处是语言之间的准确表达以及精准位的定义。不过,随着现在网络技术的迅猛发展,相信智能的检索机制很快就能攻克各种技术难题,让企业体验到不同的搜索方式。