APP下载

基于搜索引擎的电力调度知识管理系统设计

2021-06-14骆国铭周俊宇吴海江

电子设计工程 2021年10期
关键词:搜索引擎文档检索

骆国铭,周俊宇,吴海江

(广东电网公司佛山供电局,广东佛山 528000)

信息技术的持续发展提高了企业信息化水平,公司内部文档资料多,增长速度快,包括在电力调度机构中的标准、规程、文件、计划总结、专业报表等,都是通过多方式在不同介质中存在的。因为种类比较多,并且格式比较复杂,数量大,所以无法充分使用其蕴含的丰富知识[1]。企业网页数量、网站数量增长速度比较快,员工在对信息查找的时候要对不同大量区域性站点进行访问,并且有时候还要对站点进行深层次访问,从而寻找信息,所以信息查找比较困难,降低了工作效率。搜索引擎技术发展比较快,包括百度、Google 等,备受人们的喜欢,使人们能够及时得到信息。但是此搜索引擎无法对企业信息进行搜索,对企业工作来说要搜索企业内部页面,并且搜索专用文件系统、制定硬件目录,以此能够精准地得到企业内部专门信息。知识管理理论研究和使用技术都有了进一步的发展,主要问题就是如何能够在海量非结构化文档中精准快速地寻找用户需要的内容[2]。以此,文中以电力企业为例,分析基于搜索引擎的电力调度知识管理系统。

1 知识搜索引擎工作原理

1.1 知识搜索引擎结构

知识搜索引擎利用知识资源的整合和先进智能查询技术分析用户输入的问题语句,从而得到答案。此过程能够实现存储隐性知识的线性化,对知识进行传播、挖掘、共享、利用与评价。搜索引擎指的是信息收集程序、索引器、检索器、查询接口与索引器等[3],图1 为搜索引擎的结构。

图1 搜索引擎的结构

1.2 向量空间检索算法

向量空间模型VSM 为目前信息检索常用的数学模型,此模型在SMRT1 系统环境中的检索质量良好。为了方便对问题进行描述,要使知识片断和一般知识定义成为文档,作为D。知识中具备代表性质的基本语言单位为索引项,作为T。使用L(i,k)表示索引项Tk在文档中的局部权重,索引项Tk全局权重表示为G(i),那么索引项权重表示为[4]:

Wik指的是索引项Tk对于文档的重要程度,还可以表示为:

式(1)中,tfik为索引项频率,是Tk在文档Di中的频率,此值越大,表示索引项越重要;N为所有文档数量;dfk为索引项文档频率,此值越大表示文档相似度越低。若一个文档中存在索引项Tk,那么idfk=log(N);若所有文档出现索引项Tk,那么idfk=log(1)=0。

在对用户是否需要某知识进行判断时,也就是对知识向量和用户查询相似度进行衡量。利用查询向量与知识向量的检索,对两者相似度值进行计算,以值的大小实现结果排序,使用两个向量夹角余弦对相似度进行计算[5]:

2 电力调度知识管理系统

2.1 知识维度管理的过程

知识维度管理过程术语定义如下:

1)公共知识维度:具备权威性、受大多数认同的知识维度;

2)个人知识维度:在公共知识维度中无法满足知识人的需求,由知识人创造的知识维度。

将知识维度划分成为个人知识维度与公共知识维度,知识人能够自由选择使用的维度,从而实现大众化的知识管理;还能够使知识人自由创建满足自身思维需求的个人知识维度,充分展现个性化特点[6]。

知识维度是知识共享的主要基础,只有实现良性循环与有效流通,才能够精准实现知识共享。图2为知识维度循环流程,知识人对公共知识维度进行选择,使公共知识流通到个人知识维度中。针对个人知识维度流通的公共知识,能够通过统计分析技术升级为公共知识维度。利用知识维度推荐实现个人知识维度流通,根据相似度进行挖掘,并且推荐知识人感兴趣的其他个人知识维度[7]。

图2 知识维度循环流程

2.2 电力调度知识管理系统的结构

在搜索引擎中实现电力调度专业搜索服务平台的创建,所创建知识库与搜索引擎结果和获取方式密切相关。另外,对经常访问的站点进行集成[8],图3为系统的结构。

图3 系统的结构

在信息展示的过程中,资讯集成模块能够对用户所关心的信息进行展现,缩短不同网站的登录时间。知识分类模块能够对用户信息进行分类,使查询与使用更加的方便。利用Web2.0 模块实现知识门户信息的制定,将个性化信息呈现给用户,展示途径的多样化和强大的搜索服务,能够提供给用户高效、便捷的工作方式[9]。

2.3 检索范围

根据搜索引擎实现搜索功能的创建,包括网络爬虫、索引器和检索器等。

外网检索是指在网络允许的安全背景下,将搜索服务提供给外网,搜索Internet 的电力网站;

本地搜索是指对本地信息资源进行搜索,比如保存在服务器硬盘中的文件,能够实现文件管理系统的集成和使用,对内部网站提供搜索功能;

内网搜索是搜索电力行业网站,以IP 地址指定搜索范围[10]。

2.4 知识平台

知识平台使用文本挖掘、智能搜索等技术,能够快速、智能、精准地检索企业文档、报表,挖掘企业外部科技情报、生产经营和行业新闻等信息。根据企业需求将搜索和挖掘结果朝着用户所需要的知识进行转变,解决电力企业中的知识匮乏问题[11]。

2.4.1 知识分类

分类包括系统分类与用户自定义分类,用户定义订阅系统中的定值。假如没有用户订阅,系统默认分类;用户自定义分类指的是用户根据自身需求对分类定义,不会影响到其他用户的使用。无论是系统或者用户的自定义分类,都能够对分类进行添加、删除与修改。

2.4.2 知识提取

用户利用搜索引擎得到分类内容,将关键字提交给搜索引擎进行查询,在得到需求内容后将其定义成为特别类别,便于今后使用[12]。

2.5 知识共享

知识共享是指通过各渠道实现系统的交流,从而扩大知识的使用价值,使个人隐性知识能够线性化,创建可编码、可转移的知识。在管理预案过程中,预案交流和知识共享所对应,包括讨论定案、预案评价、讨论回复等流程。另外,通过课件库、预案库、讨论库的结合对知识进行交流预估和共享。通过系统预案交流机制,调度员能够通过预案评价、讨论、修订等方式进行交流,从而最大化地推广个人知识[13]。

2.6 系统知识数据源规划

电网调度知识管理信息系统所使用的数据源较为复杂,包括能量管理系统、电能量自动计量系统、市场交易考核系统、省间联络线考核系统、总调电量上传系统等信息,各个系统由不同公司所开发,数据库具有不同的结构格式,要求系统和其他系统之间数据相互连接和使用,统一规划数据,实现系统和其他系统数据库相互连接[14],表1 为知识数据源的分布。

表1 知识数据源的分布

为了实现上述信息资源的共享,并且将其作为基础构成调度运行日志和报表,管理调度日志,上传总调电量,系统实现知识数据的系统性规划,利用数据库管理系统客户端软件的安装,通过SQL 命令从数据库中得到需要的数据,图4 为系统数据流的规划结构。

图4 系统数据流的规划结构

2.7 知识管理模块

知识管理模块是系统进入到各专业功能模块的入口,主要包括运行、调度方式、继电保护、自动化、综合专业设备参数管理、市场交易等应用。此模块属于信息维护类,业务比较复杂,通过C/S 模式实现。进入到系统之后要通过口令和权限进行限制,不同用户利用不同权限、用户名,能够看到不同的操作内容。各个模块通过调度管理信息系统维护窗口对信息修改、输入、删除、查询、报表等进行更新和维护[15],图5 为知识调度专业业务的流程。

图5 知识调度专业业务的流程

2.8 系统安全机制

基于B/S 与C/S 混合模式的应用系统中系统安全性为重要目标,不仅要保证各种合法用户通过网络使用信息,还要保证系统不受非法用户入侵。应用系统安全机制主要包括统一身份验证机制、授权访问控制、数据通信安全机制等。应用系统安全和系统设计、实施密切相关。

系统创建模块表,对全部模块统一管理。所添加的功能模块都要通过管理员在应用程序服务器中登记注册,保证组件在运行环境中的安全,避免假冒模块攻击。

访问控制为限制信息资源使用,决定主体是否被授权执行客体的操作。系统使用不同用户与用户组授权不同权限的方法实现访问控制,降低授权管理复杂性。首先,系统将用户划分成与专业体系结构相同的组,之后使各功能模块根据用户专业需求构成不同方案,并且创建方案表统一管理,最后对不同需求用户与组授予不同的访问权限,使每个用户或者组都能够在各自权限范围中工作,实现数据知识访问[16]。

3 结束语

文中基于巨大网络信息,以寻找满足用户需求的文档为主要研究内容,利用搜索引擎技术为企业用户从浩瀚Web 信息资源中寻找满足自己需求的信息,但是输出结果信息量比较大,其中包括大量无用数据。通过筛选信息,使搜索引擎检索质量得到提高。基于搜索引擎原理,实现电力调度知识管理系统的设计[17-18],能够为企业提供方便且快捷的信息检索服务,使用户能够轻松得到有价值数据,将信息资源上升成为专业知识,使其能够充分使用。

猜你喜欢

搜索引擎文档检索
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于RI码计算的Word复制文档鉴别
专利检索中“语义”的表现
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
基于Lucene搜索引擎的研究
国际标准检索
国际标准检索