基于电网本体知识库的智能搜索研究与实现
2016-07-05叶健辉于永超
曹 宇,叶健辉,于永超
(1.南瑞集团北京科东公司,北京 100192;2. 国网湖南省电力公司,长沙 410000)
基于电网本体知识库的智能搜索研究与实现
曹宇1,叶健辉2,于永超1
(1.南瑞集团北京科东公司,北京100192;2. 国网湖南省电力公司,长沙410000)
摘要:针对电网调度数据类型多样,结构复杂,管理困难的问题,以构建电网本体知识库为基础,将电网设备、调度运行数据、电网专业术语进行统一知识建模,研究电网调度运行结构化与非结构化数据的存储、解析,及其数据间相互关联,归属及同义关系。根据电网本体推理规则找出本体之间潜在的关联关系。基于电网本体知识库、对结构化与非结构化采用倒排索引解析技术,最终研究电网调度数据的智能检索技术,在快速检索到相关数据的同时,找出数据间内在联系。最后以查询运行数据与分析电网事故为例,讨论了该技术的应用场景,以及未来对电网调度运行智能分析提供技术支撑。
关键词:本体知识库;推理规则;非结构化;倒排索引
随着国内电力系统的发展,特别是智能电网建设的全面开展,电网运行管理系统在各级调控中心的应用越发广泛。电网结构日益复杂、同时面临的问题也层出不穷,如电网数据量的飞速增长,而传统固化的业务查询方式难以响应灵活的数据查询需求。常出现一个急需的业务数据查询,因为系统有的查询不能支持,所以必须等待应用升级或功能完善,影响了决策的及时性,也严重束缚了业务人员对信息的主动查询的需求,影响了业务人员主动灵活分析数据获取价值信息的工作。
为了应对日益增长的电网业务数据分析需求,使电网系统的相关计算、分析、决策管理更加智能化。要求相关电网工作人员能够快速的获得所需的知识和信息,并能准确的分析出信息之间潜在的关系,系统急需研制一种更便捷、更准确、更智能的数据检索技术。这些都需要借助于人工智能、快速检索相关技术的研究与支持。
在人工智能领域,本体知识库既要描述知识的特点、位置、说明等信息,最重要的是要记录本体间的关系。近十年来人工智能技术在知识表达,特别是描述本体及本体间的关系提供了新的技术、理论基础。
在电网调度领域归纳分析知识本体,需要对电网数据进行抽象分析,这部分数据除了包括传统意义上的电网调度运行、管理等结构化数据外,也包括各类电子文档、文章、通知等非结构化数据。电网数据存在结构复杂、存储分散、多类型异构的特点,传统的关键词搜索、模糊匹配的方法已经很难满足现在电网对数据深层次分析的需求,也无法将电网调度知识体系进行统一管理分析,更加准确、智能的得出想要的分析结论。通过人工智能技术,将电网专业知识、设备信息、运行数据、管理信息进行本体建模,基于电网本体知识库运用解析结构化与非结构化数据,倒排索引的技术,实现智能化的信息快速检索,是目前信息搜索领域的发展方向。
本文在互联网领域搜索引擎以及电力搜索引擎研究进展上[1-2],基于智能电网D5000调度管理类应用(OMS),立足于电网调度业务,研究人工智能领域的本体知识库构建技术,通过分析结构化与非结构化数据存储、解析,建立电网调度领域本体知识库,包括电网调度运行数据、设备管理、技术规范、电网模型、参数、流程数据,以及描述电网本体间的关系,研究智能化的数据检索技术,辅助分布式部署的省、地调管理系统(省地一体化OMS)智能化管理,满足调度数据的互联互通,提升智能电网调度运行数据检索的便捷性、准确性,从而提高电网运行数据管理的智能化水平。研究“有思想的”智能检索技术,并通过电网事故分析案例说明了基于电网本体知识库构建的智能检索技术在电网调度领域的应用。
1电网调度本体知识库
1.1调度本体知识库概念
知识是人类在实践中所积累的认识和经验的总和,是人类进行智能活动的基础。知识库不仅仅贮存知识,还包括知识处理方式。知识库形成一个知识域,知识域中除了事实、规则和概念之外还包含推理、归纳、演绎等知识处理方法, 逻辑查询语言、语义查询优化和人机交互界面等[3]。本体知识库包含有明确定义的事实、断言和通过规则推理表达的某些明显的关系[4]。
本体(Ontology)这个术语来自于哲学,它是研究世界上的各种实体以及他们是怎么关联的科学。本体是一个可以共享的概念化范围,描述了某个领域及其相互关联的视图,本体是共享概念模型的明确的形式化规范说明[5]。本体描述了给定领域的知识结构,内在关系。
智能电网的调度知识表达了各个调度数据间的内在联系,依据其建立的本体知识库作为描述调度领域数据含义及关系的基础。从理论上来讲,在电网调度领域中,本体对象可以使具体的电网设备、文档资料,也可以描述抽象的专业知识概念、定义。基于调度本体知识库对调度本体进行分析,研究问题的语义抽象处理,描述调度本体的及其内在关系,构建调度本体知识库,目的是为电网运行数据检索进行推理和知识积累。调度本体知识库包括知识本体定义、调度本体间的关系两部分,其中调度知识本体定义即调度领域分析方向和研究问题的抽象描述,是调度本体知识库的基础。调度知识本体的关系,用于描述本体间的关联关系。
调度本体知识库作用在于:①明确调度本体的定义,从而避免知识库中来自不同数据源的信息的语义异构;②实现知识本体推理。本体可以体现出类似人类思维的逻辑性。用其对用户提交的查询式进行语义扩展, 可以推理出其所需的却未能表达出的信息需求。
1.2调度本体知识库构建
本文采集并抽取现阶段电网调度运行中存在的各类数据,包括结构化和非结构化数据,其中结构化数据包括电网设备、调度运行、管理流程;非结构化数据包括调度生产过程中生成的报告、公文、图像以及采集的视频录音等内容。结合电网调度概念和专业术语生成调度本体知识库,如图1所示。
图1 调度本体知识库数据来源
电网调度本体描述语言采用OWL,OWL( Web 本体语言)是W3C发布的推荐标准。OWL可被用来明确表示词汇表中术语的含义以及术语间的关系。用于那些处理信息的内容,而不是仅向人类呈现信息的应用。OWL通过提供更多具有形式语义的词汇使之在Web内容的机器可理解性方面要强于XML,RDF 和RDF Schema( RDF- S)等所能达到的程度[6]。
OWL本体可以描述电网调度领域专业数据、设备及之间的关系。
这段本体描述表示“变压器”这个概念是“变电站”概念的子类。
可以描述本体的属性,属性本身是二元关系。
支持本体与属性值定义。
这段本体描述的是变压器的属性,表示变压器是变电站内的设备,同时描述了变压器有“额定容量”属性,又进一步列举出变电站本体,这样能根据变电站找出变压器属性,也可以找到所属变电站,通过一个本体可以查找出据有关系的其他本体及属性,并且支持迭代查询。
1.3调度本体知识库推理
完成构建电网调度本体知识库后,面临的首要问题是基于知识库如何查询本体,查询本体间的关系,得到查询结果,满足使用者的需求。本文研究通过解析OWL本体描述,结合调度业务,利用推理规则的实现手段,分析查询关键字,再利用这些关键字在本体知识库中进行本体查询及推理,以满足深层次的检索需求。其中电网调度知识库提供的推理服务主要是关系推理,属性查询推理两种[7]。
本体推理结果用Q表示,本体属性描述P表示,O表示本体,R表示关系,C表示推理条件,W表示属性的权重(重要属性,一般属性等)。
(1)本体间关系推理,形如Q=(O,R,C),执行推理后可得到关于这个本体O包含指定关系R的所有本体及其描述信息,如果不存在具有该关系的本体,则返回为空。例如推理条件定义为“电压等级=‘220’”条件(“变压器”,“继承”,“电压等级=‘220’”)得到结果的是所有变电站本体“小营变”以及包括该本体的属性信息。如将条件改为“电压等级=‘500’”则符合条件的本体为空。
(2)本体属性查询推理,形如P=((O1…On),W),包括本体定位查询Q=(O1…On),(O1…On)为具有继承关系的本体,按照本体继承关系从高到低依次排列形成唯一本体查询路径,如(“变电站”,“小营变”,“变压器”,“1号主变”),从而快速定位本体及其描述。执行本体属性查询推理P后可得到本体O按照权重W过滤后的属性,包含属性值。例如(“变电站”,“小营变”,“变压器”,“1号主变”,“一般属性”)可以获得小营变1号主变的所有属性,额定容量,电压等级。
基于调度本体知识库以及推理规则可以分析使用者需求,需要检索的信息在本体知识库中的存储、关联关系。
2智能检索技术
本文研究的快速检索技术采用的是Lucene搜索引擎,Lucene是一个基于Java的全文检索工具包,提供扩展添加索引管理和全文检索功能,轻量级,性能较好。
2.1基于电网专业词库切词
基于Lucene搜索引擎采用IKAnalyzer对查询条件与非结构化文档的内容切词,IKAnalyzer特有的“正向迭代最细粒度切分算法“具有60万字/s的高速处理能力,而且对中文支持较好,支持用户词典扩展定义。结合电网调度本体知识库,将电网本体及属性导出到词典中,作为IKAnalyzer切词的依据。
2.2结构化数据的查询
电网设备数据、调度运行数据及其统计分析数据主要以结构化方式进行存储,依赖于数据库,因此查询的重点是将电网本体与属性按照SQL92标准生成可以执行的SQL语句,包含数据库、模式、表、字段等属性。
在通过调度本体知识库生成索引文件时对每个本体提供数据类型属性,包括结构化数据与非结构化数据描述,对于结构化数据提供其扩展属性,主要包括有(数据源,模式,表/视图,字段名,条件,结果,结果别名)。根据输入的查询关键字在索引文件中进行查询,按照出现次数作为权重,排列出符合条件的所有结果。在查询结果中的结构化数据按照其扩展属性组织成可执行的标准SQL语句,如输入查询条件“小营变1号主变额定容量”,通过IKAnalyzer将查询条件切割成“小营变”、“1号主变”、“额定容量”几个电网领域知识本体,然后从索引文件中查询出对应的索引元数据的扩展属性。
小营变:[ip,datasource,psidp,idpps,变电站管理表,调度命名,小营变,ID,厂站ID]
1号变:[ip,datasource,psidp,idpps,变压器参数表,调度命名,1号主变,,]
额定容量:[ip,datasource,psidp,idpps,变电站参数表, 额定容量,,,]查询过程如下:
(1)查询“小营变”对应的厂站ID:
SELECT ID AS厂站ID FROM变电站管理表 WHERE 调度命名=‘小营变’
(2)查询“额定容量”,由于额定容量是“1号变”的属性,这两个索引条件合并生成SQL语句:
SELECT额定容量 FROM变电站参数表WHERE调度命名=‘1号主变’AND 厂站ID=厂站ID
分别执行两个查询过程获得查询结果。
2.3非结构化数据查询
针对电力调度领域非结构化数据搜索而言,现有做法是根据非结构化数据格式、类型采用各种解析器对各种不同类型的文档进行解析,通过Lucene生成索引。比如对于WORD文档,提供的WORD解析器会做一些预处理的工作,如过滤文档中的文档格式、样式等等。WORD解析器的输出的是文档文本内容,接着通过Lucene的分词器(IKAnalyzer)从读取出的文本内容中提取出索引项以及相关信息,比如索引项的出现频率、文档位置。接着Lucene的分词器把这些信息写到索引文件中,如图2所示。
图2 非结构化数据索引文件生成
例如电网调度运行文件、规程规范、文档资料,网页新闻等非结构化数据,提供相应的文档解析器,处理word、html、pdf、excel、txt等将解析完的数据按照调度专业词库进行切词,生成索引文件。
Lucene的搜索过程是将分散在不同的对象中的各种信息分析、处理、写入,其中核心是建立索引机制。索引是在搜索时使用到的一种特殊的数据结构。当文档的数量相当庞大,并且这些文档中的信息相对稳定时,建立索引可以大大提高搜索时的效率。在使用索引进行查找时,首先对需要索引的文档进行预处理,建立关于这些文档的索引结构。
本文研究的智能检索技术的搜索准确、快速必须依赖于建立合理的索引机制。基于调度本体知识库以及电网本体的推理规则,找出本体及其关联的知识本体,对本体及其属性描述生成本体描述文件,描述文件中的每一个本体对应索引文件中的唯一元数据,都具备两个基本属性及ID与描述,同时配有辅助属性如关键字、数据类型、存储位置、修改时间,扩展属性等。通过Lucene将本体描述文件生成索引供Lucene查询使用。
Lucene索引机制是倒排索引,结构区别于传统的索引结构,这种结构在应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引。基于调度本体知识库的索引生成方式如图3所示。
图3 调度本体倒排索引生成
为了提高检索效率,可以将索引文件按照本体分类进行建立,如电网设备类、运行信息类、生成管理类等。然后将各个索引文件进行合并,利用 Lucene在创建索引的过程中可以充分利用机器的硬件资源来提高索引的效率。Lucene在内存中开辟一块缓冲区,采用二级缓存的机制来提高读写效率,通过使用IndexWriter方法调整缓冲区的大小以及往机器磁盘上写索引文件的频率与控制索引文件的合并。
3电网本体知识库与检索应用
现阶段智能电网调度支持系统存在数据量庞大,类型多样,关联关系复杂的实际情况,这些都对系统的建设,人员技能的要求都提出更高的要求,因此使用基于电网调度本体知识库的智能检索技术对提升调度管理系统(OMS)的智能性,降低使用人员的技能门槛,具有深远的意义[8]。
(1)智能检索技术在电网调度运行数据查询分析上的应用。调度数据种类多样,涵盖了现阶段电网调度运行中能够采集及统计得到的所有的数据,如图4所示,包括运行数据、统计数据。查询关键字通过本体知识库进行推理找到相应的本体及与其存在关系的本体,然后用结构化或非结构化检索技术对数据进行查询与展示。
图4 智能检索发电量结果
(2)在电网调度管理上的提升,智能检索技术在电网调度运行中的应用以电网事故分析为例。电网运行稳定、安全是调度运行管理重要的指标之一,因此调度人员要对电网故障、事故有提前的预判能力,提前做好事故预案、分析以及事故后总结的工作。但电网运行情况复杂,调度人员很难掌握所有的情况,因此需要一种便捷的手段查询所有的电网事故和历史情况分析,包括事故产生原因,事故后果、处理要点等[9]。
通过分析历史电网事故、故障将事故按照原因进行分类,例如输入“气象灾害 电网事故”,通过对“气象灾害”与“电网事故”两个本体的分析推理,找到有关联的一系列知识本体,“降水”、“雷击”……“线路跳闸”、“线路覆冰”等,这些作为进阶查询条件,在结构化数据与非结构化数据中进行进一步检索,如在结构化数据中根据“降水”的结构化数据属性找到气象数据,预警数据,对应的OMS中调度日志由降水导致的事故记录以及相应的处理流程,如图5所示。
图5 电网事故检索过程
根据查询结果使用者可以全面的了解一段时间内的事故发生情况,发生原因,处理过程,分析措施和建议,从各种潜在数据中找到必然联系,为日后预防此类电网事故的发生提供技术支持,提高电网运行稳定性,增强业务人员管理水平。
4结语
基于电网调度本体知识库的智能检索技术,将电网调度领域专业术语、运行管理数据进行知识梳理,维护调度本体以及关联关系形成专业电网调度本体知识库。通过调度本体知识库生成检索索引,对电网调度中的结构化、非结构化数据进行数据分析、检索,实现电网调度领域内数据的相关性分析,提高调度数据检索准确性、智能性。为调度中心所有工作人员提供了具备全局性、透明性和高效性的调度数据智能检索功能,提高系统的智能化水平,降低使用者的技能门槛。实现调度运行信息全景管理、调度精细化决策、运行数据智能分析、资源优化配置,提升调度驾驭电网能力、科学决策管理能力和灵活高效调控能力,为智能电网调度管理系统(OMS)深化应用提供技术支撑。
参考文献:
[1]张莲梅, 陈世鸿, 陈红梅, 等. 基于分布式电力资源库的搜索引擎框架[J]. 高电压技术, 2005,31(8):66-68.
ZHANG Lian-mei, CHEN Shi-hong, CHEN Hong-mei, et al. Framework of searching engine based on distributed electrical resource database[J]. High Voltage Engineering, 2005,31(8):66-68.
[2]赵海波,黄勇理,陈胜,等. 基于电厂运行数据库的专业智能搜索引擎[J]. 电力自动化设备, 2003,23(8):25-28.
ZHAO Hai-bo, HUANG Yong-li, CHEN Sheng, et al.
Professional intelligent search engine based on running database of power plant[J]. 电力自动化设备, 2003,23(8):25-28.
[3]吴顺祥,吉国力. 数据库系统与知识库系统的对比分析[J]. 计算机工程与应用, 1999(35) : 83-85.
WU Shun-xiang, JI Guo-li. Comparative analysis of database system and knowledge-base system[J]. Computer Engineering and Application, 1999(35) : 83-85.
[4]杨勇, 邹时林, 蔡源. 知识库系统的原理[J]. 华东地质学院学报, 2001, 24(4):334-337.
YANG Yong, ZHOU Shi-lin, CAI Yuan. Principle of knowledge-base system[J]. Journal of East China Geological Institute, 2001, 24(4) :334-337.
[5]何新贵. 知识处理与专家系统[M]. 北京:国防工业出版社, 1990.
HE Xin-gui. Knowledge processing and expert system[M]. National Defence Industry Press, 1990.
[6]W3C. Web Ontology Language(OWL) [ EB/OL]. [ 2007-10-08] .http://www.w3.org/2004/OWL/.
[7]李春. 基于本体的文本信息检索技术研究与实现[D]. 南京:南京航空航天大学, 2009.
LI Chun. Research and implementation of text information retrieval based on Ontology[D]. Nanjing University of Aeronautics and Astronautics, 2009.
[8]钱智勇. 基于本体的专题域知识库系统设计与实现——以张謇研究专题知识库系统实现为例[J]. 情报理论与实践, 2006(4):58-60.
QIAO Zhi-yong. Special domain ontology knowledge base system design and implementation——on zhang jian research subject knowledge database system implementation[J]. Information Studies:Theory & Application, 2006(4):58-60.
[9]徐瑞卿, 周渝慧. 电力系统应急管理探讨[A]. 第八届中国管理科学学术年会论文集[C], 2006.
XU Rui-qing, ZHOU Yu-hui. Study on emergency management of power system[A]. The Eighth Session of The China Management Science Annual Meeting Proceedings[C], 2006.
(本文编辑:严加)
Research and Implementation of Intelligent Search Based on Power Grid Ontology-Based Knowledge Base
CAO Yu1, YE Jian-hui2, YU Yong-chao1
(1. NARI Group Corporation Beijing KeDong Company, Beijing 100192, China;2. State Grid Hunan Electric Power Company, Changsha 410000, China)
Abstract:In view of the type diversity, structure complexity and management difficulty of power grid dispatching data, this paper builds unified model on grid equipment, dispatching operation data and power grid term by constructing ontology-based knowledge base. Further, we research the storage and analysis of structured and unstructured data and correlation, subordination and synonymy among the data in dispatching operating system. The potential correlation among ontology is derived from power grid ontology inference rules. Then the intelligent retrieval technology in power grid dispatching data is researched based on the ontology-based knowledge base, structured and unstructured data and inverted index analysis techniques, which can search the relevant data very fast and find out the internal relationship among data at the same time. Finally, taking querying operating data and analyzing power grid accident as an example, we discuss the application scenarios of this technology, aiming to provide future technology support to intelligent analysis of power grid dispatching operation.
Key words:ontology-based knowledge base; inference rule; unstructured; inverted index
作者简介:曹宇(1983),男,硕士,工程师,主要研究方向为数据挖掘,人工智能等。
中图分类号:TM769
文献标志码:B
文章编号:2095-1256(2016)01-0001-06
收稿日期:2015-11-01