电力中文文本数据挖掘技术及其在可靠性中的应用研究
2018-12-28胡楠胡畔刘鹏宇吴赫夏雨
胡楠 胡畔 刘鹏宇 吴赫 夏雨
摘 要:在科学技术的推动下,智能电网已经建成,这样就可通过先进的信息技术对电网进行控制,但同时也会产生内容极其繁杂且数量较多的电力数据,因此需要通过挖掘技术从中提炼出有意义的数据,并进行分类处理,以此作为衡量设备是否可靠的重要指标。本文就以文本缺陷数据为例,对如何应用挖掘技术进行了详细探讨。
关键词:电网企业;文本数据挖掘技术;可靠性
引言
在电力系统运行的各个阶段均会产生大量的数据信息,并且数据更新速度极快,通过这些数据能够反映设备的状态及可靠性,但为了达到这一目的,必须充分挖掘有价值的数据,并且需要将文本类型的数据作为挖掘的重点。此外,以往在搜索时主要运用的是引擎及查询技术,但这种方法已经无法满足当前的数据处理要求,因此必须应用文本挖掘技术,并构建语义框架。本文就对此问题进行了具体分析。
一、电网内文本类型
智能电网在运行过程中会产生数量极其庞大的数据信息,并储存于数据库中。具体来说,电网内的文本类型主要包括以下几种。第一是资产配置信息,主要与电力设备有关,其中涉及设备参数、名称、购置厂家等。第二是票据,可分为工作和操作两种类型的票据,但两者具有许多类似之处,因此通常情况下可划分为同一类别。工作票指的是在检修设备的过程中上级所下发的指令及具体的操作步骤,检修人员在操作过程中必须将此作为基本依据。同时,运行人员也必须遵守该票据中的基本规则。操作票归运行人员所有,其主要指的是在调整设备的运行方式时所应遵循的基本依据,并且可发挥许可证的作用[1]。第三是日志,其主要指的是在巡视与检修设备后必须进行记录,并且还需要对故障的特点及维修过程详细记录。日志通常以文本的形式存在,主要包括时间、设备状态、故障原因等多个方面的信息。第四是语音记录,目的在于提高调度效率,主要是通过人机接口实现的。第五是长文档报告,主要指的是工程师在设计与运维期间需要对设备的状态进行评价,并以长文档的形式记录,同时还要需要分析故障原因并给出建议。长文档中所记录的公式通常较为复杂,如果要进行深层次文本理解具有较大的难度,因此还需要在分类与检索的基础上持续进行研究。第六是权威标准,其主要指的是企业及权威机构所制定的标准,通常情况下文本篇幅较长,并且包括表格、图像等多种类型的数据信息[2]。
二、可靠性应用
(一)概述
电网企业中的设备所处的运行环境较为复杂,进而导致设备在运行过程中故障较为常见,因此需要对运维管理的整个过程进行记录,信息记录包括多种形式,其中设备故障、及缺陷主要是采用中文形式进行记录的,这样就可了解每个设备以往在运行过程中的状态。而要想从繁杂的数据信息中挖掘出能够体现设备可靠性的数据,还需要应用相关的信息挖掘技术。结合企业当前的情况来看,在统计数据时以人工处理为主,需要花费大量的时间及人力资源,并且难以保障统计结果的准确性,因此当前最重要的是针对缺陷文本研究出相应的挖掘技术。另外,中文文本数据的挖掘难度较高,原因在于其在应用过程中需要与相关领域内的专业知识进行匹配,并且由于中文与英文的差异性,导致国外的研究成果无法应用于中文文本的处理中[3],因此目前国内有许多学者就针对不同的文本类型进行了优化,在处理过程中工作票和操作票较为简单,但缺陷类型的文本极其复杂,因此需要重点针对此种类型的文本研究出相关的挖掘技术。
(二)电力语义框架
一个文本并不仅针对一种缺陷,而是对设备多个部件的缺陷进行描述,因此首先需要进行分类处理,否则就会严重影响统计结果的精确性,在具体操作的过程中可将设备的可靠性作为任务,并通过语义框架进行处理,其作用在于能够使语义的呈现更加完整,主要以数据结构的形式存在。此外,还可运用语义槽,其构成部分是彼此之间具有一定关联性的信息,通常情况下四个槽体可组成一个框架,并且可根据槽体的类型对电力词性进行准确定义[4]。在这样的状况下,多个不同的缺陷就可分别以相应的语义框架的形式呈现,进而对不同类型的缺陷加以区分。
(三)文本挖掘模型
为了促使缺陷信息的挖掘更加充分,需要构建挖掘模型,模型结构如图1所示,该模型共分为三个层次,第一是预处理层,其作用在于处理缺陷和构建字典。在构建字典的过程中以人工处理为主,其与缺陷处理的结果及效率密切相关。此外,该层级还可完成中文分词任务并顺利提取不同词汇的特征。第二是处理层,其具有三项功能。首先是槽填充,该处理环节处于词汇的提取之后,主要指的是将文本与数字两种类型的符号准确填入相对应的槽中。其次是构建语义框架,在此之前首先需要明确不同语义之间的关联性,进而与相应类型的槽进行匹配。为了避免出现槽缺失的问题,必须确保每个框架至少包含两个槽,但同时也不能多于四个。最后是词串合并,其指的是同一框架中的不同槽可以合并,最后统一录入字典中。第三是统计应用层,其主要发挥的是统计可靠性的功能,可将某地区特定时间段内某种设备的缺陷类型进行汇总与分析,并计算出相应的统计结果,该结果可作为衡量设备性能的可靠性指标,之后在设計与制造设备的过程中就可以此为依据,并且在对设备进行运行及维护时也可参考这些指标。
三、结语
总而言之,电网数据库中的信息类型较多,导致在提炼有效信息时具有一定的难度,尤其是文本数据,因此当前需要加大研究力度,明确不同文本的类型及特征,促使语义分析更加深入,同时还需要通过构建挖掘模型加以处理。此外,字典的构建尽管需要花费大量的时间,但是一旦建成,则可长期使用,并且通过字典提取数据的方式在使用过程中较为简便,因此本文所提出的方法具有较强的可行性。
参考文献:
[1]邱健,王慧芳,应高亮.文本信息挖掘技术及其在断路器全寿命状态评价中的应用[J].电力系统自动化,2015,40(6):112-117.
[2]蔡荣言.数据挖掘技术在电力企业中的应用研究[J].管理方略,2015,12(18):128-129.
[3]饶友平.数据挖掘技术在电力行业的应用[J].电工研究,2014,(15):137-140.
[4]梁宇.数据挖掘技术及其在电力决策支持系统中的应用[J].上海电力学院学报,2014,31(17):151-155.