面向智能电网的文本分类研究综述
2020-02-02杨波王琼杨仕博
杨波 王琼 杨仕博
(1.国网甘肃省电力公司信息通信公司 甘肃省兰州市 730050 2.甘肃同兴智能科技发展有限责任公司 甘肃省兰州市 730030)
智能电网是以新能源战略与国家地毯经济为发展要义提出的“电网2.0”,旨在基于集成且高速双向通信网络,并通过各类传感测量设备、技术、方法、系统支持建成的电力资源优化配置管理平台[1]。自2009年国家电网发布智能电网计划以来,我国的智能电网发展已开启人工智能风口下的高速发展。随之而来的数据规模井喷式增长对智能电网环境下的电力信息快速挖掘利用、科学精准管理提出了高要求。
电网企业作为信息资源密集型企业,其企业数据虽具备规模大、类型复杂、价值密度低、变化快的大数据典型特征,但电网企业积累了大量文本数据及其参考价值高的特点为开展智能化电网信息管理提供了数据来源可靠性与体量充分性,并具有良好的应用前景。
此外,目前先进的自然语言处理、深度学习技术以及电力行业成熟的评估、指导、管理标准为实现电力文本数据挖掘与管理提供了自动化电网数据管理,同时就运行监测、业务评估、人员培训、企业管理给出关键性解决方案。虽然,文本分类技术暂时未在我国电力行业中获得广泛性推广应用,但其在传媒[2]、医疗[3]、行政[4]事务中的成熟应用为该技术在电力行业的发展提供了重要参考意义。
本文拟对相关研究进行概述,分析电力文本分类的技术特点、常见应用、现存问题,并基于此,预测智能电网环境下的电力文本分类发展趋势。
1 电力文本分类技术概述
1.1 文本分类技术
作为自然语言处理以及数据挖掘中的重要子任务之一,文本分类(Text classification 或Text Categorization)是按照一定的分类标准或需求对大量的文本通过高效自动分类技术实现的,突破基于经验的传统手工限制的针对海量电力文本的标准化快速管理,即将一篇包含信息的文本映射到某一类或某几类主题的过程。而主题的设置常根据业务需求、应用场景进行预设。目前,文本分类的主要研究内容之一是探索高性能的分类模型。而在电力方面,文本分类的研究则主要在于以业务为导向的技术应用和模型优化的理论探索。但是,面向智能电网的文本分类研究依旧遵循一般性文本分类处理流程,主要涉及文本数据预处理,特征提取以及特征表示,分类器训练等[5]。电力文本分类系统如图1所示。
1.2 电力文本分类难点
在调研了大量电力业务以及文本后,从数据和方法两方面入手,我们发现电力文本分类主要存在以下几个难点。
图1:电力文本分类系统
1.2.1 数据缺乏
各类文本分类器的训练大多依赖于大量的训练数据。然而,由于电力工业也安全时国家安全的重要组成部分,电力企业对于文本数据的管理制度以及保密要求非常严格。这为电力文本分类技术研究带来了巨大的挑战以及更高的要求。
1.2.2 电力文本特点
和一般性文本相比,电力文本具有其独有的文本特点。
专业性,电力文本涉及大量专业性词汇,如果不进行模型训练或是词典扩充,那么大量的专业性词汇是无法被识别并被表示为文本特征的。
语言学弱显性,电力行业高效快速的行业特征,使得在文本书写阶段,更多考虑内容传达,而相对忽略语言学规则,因此在某些情况下,无法采用一些基于语法或是上下文的分类方法进行处理。
电力文本形式多样性。电力文本常为了实现快速的信息传递,在一篇文本中出现结构化数据与非结构化数据混合问题。这种无确定形式表达且缺乏机器可理解语言的问题为自动化文本特征抽取与分类提出了更高的要求。
电力文本内容缺陷性。电力设备的日志在电力文本中的占比较大。然而这类文本由于本身由设备或者系统自动生成等原因造成缺陷性文本数目庞大。比如文本中常常缺失设备编号、位置信息、时间等各类问题。在文本分类过程中,这类数据是必须处理的。因此,专门针对电力缺陷文本的处理也是一项非常有意义的课题。
设备运行负载及成本。文本分类技术在电力行业的应用必须按照电网工业生产和安全标准提出的要求。如何使用少量的计算资源、设备资源和存储资源,在最短的时间内实现快速准确的自动化文本分类是自然语言处理在电力场景下应用的重要课题之一。
2 电力文本分类关键技术
2.1 电力文本的中文分词
图2:Bi-LSTM 结构图
图3:TextRNN 流程
中文分词[6]作为人机自然语言交互的基础性工作,是将一个由汉字序列组成的电力文本从语言理解的角度切分成单独的词块。由于中文文本没有词界限,因此比起英文来说,分词的工作就显得尤为重要。而分词效果的好坏会直接影响到包括磁性、句法树在内的后续工作。常用的中文分词手段主要有基于词典的分词算法、基于统计的机器学习分词算法、基于深度学习的分词器以及混合方法的分词手段。
早期基于词典的分词算法主要依赖已建成的充分完善的词典进行词语匹配,若匹配一致,则识别文本中出现的词语。常见的具体方法由正向最大匹配、逆向最大匹配以及双向匹配。这种分词方法的分词速度最快,但无法完全满足电力文本的分词处理需求。
基于传统机器学习的方法是目前较为常用的,在Stanford[7]等众多广普性分词工具中获得了大量的应用。常用的机器学习模型则包括隐马尔科夫模型、条件随机场模型、支持向量机模型等。这些方法的思路是通过对训练数据的标注,从词频和时间序列两个角度进行分词,从一定程度上解决歧义词以及未收入词的识别[8]。
近年来,随着深度学习的理论探索,基于深度学习和机器学习的混合模型受到了越来越多的应用,如基于双向LSTM 和CRF 的分词器[9]取得了良好的效果,且已被验证该模型同样适用于中文分词任务。
而由于电力文本存在专业性强、语言学特征弱显性等领域性文本常见问题,以及电网运行安全性、高效性、可用性的业务要求,主要提倡采用基于机器学习或者深度学习的分词模型和词典结合的形式。
2.2 电力文本的特征工程
实现对电力文本的特征提取及表示,实现特征到类别的映射是文本分类的关键性模块。特征抽取的四类主要方法分别是基于词袋模型的特征表示,以循环神经网络和卷积神经网络为代表的基于字符的特征抽取,以Word2Vec 嵌入、神经网络嵌入和图嵌入为代表的基于embedding 的特征表示,以及基于BagOfWord 的特征抽取方法。
基于词袋的特征表示方法主要采用TF-IDF,通过统计一个词语在文本中的出现次数,即词频,判评估一个词的重要程度。这种方法简单直观,但无法处理词义融合问题,如在电网中,某些情况下,“设备”和“计算机”这类意同词不同的情况。
基于embedding 的特征表示的主要原理是将现有的特征表示营收达到一个新的向量空间中。其训练方法分为无监督和有监督。其中Mikolov 提出word2vec[10]方法是一种可不依赖手工提取特征的无监督方法。常用的TextCNN 和TextRNN 会根据任务需要进行选取。其中TextCNN 是通过卷积神经网络(CNN)提取文本中n-gram 信息,引入对词性的考虑,实现对文本关键局部信息的捕捉。TextRNN 则主要通过双向长短期记忆神经网络(Bi-LSTM)实现双向n-gram 信息捕捉,解决TextCNN 无法关注长序列的信息的问题。Bi-LSTM 结构图如图2所示,TextRNN 流程如图3所示。
针对智慧电网中出现的电力文本特征抽取,除了从模型本身的性能考虑,还需要考虑电网业务需求,电力行业特殊性,电力运行安全性可靠性,设备运行压力,运行时间综合考虑,进行选取调整,并做改进优化。
3 文本分类技术在智能电网中的研究现状及挑战
3.1 电力文本分类研究现状
目前,文本分类技术的应用研究主要集中于电力设备缺陷,电力检修,基建施工,客服工单,电力审计,电力调度,电企舆情等方面。
其中,针对电力设备缺陷的文本分类关键技术研究是重要的课题之一。浙江大学通过引入BiLSTM-Attention 神经网络的方法实现对电力设备缺陷文本的自动精准高效分类[11]。张晗等人则重点针对输变电设备缺陷文本采用4 层神经网络的形式进行分类[12]。
除此之外,文本分类技术在客服工单上的应用也很广泛。廖胜兰等人根据电力业务定义里35 中业务类别标签,构建了包含9577条用户问询语句的数据集[13]。天津信通公司则从层次语义理解的角度入手,以准确定位客服工单内容中的客户需求为任务导向,采用深度学习的方法实现了对工单文本中词和字符的建模[14]。顾斌等人则通过词典扩充的方法结合word2vec 以客服工单中的情感倾向为分类依据展开研究[15]。
而针对电力审计领域的文本具有行业特征明显、文本特征相似度高、分类边界模糊的特性,陈平等人提出了增强领域特征的电力审计文本分类方法。通过此方法,垂直领域的文本细粒度分类性能也获得了显著提升[16]。
甘肃信通公司还展开了文本分类技术在电企舆情方面的研究[17],通过搭建的基于文本分类技术的企业舆情主题识别实验平台帮助电力企业进一步加强舆情管控。
也有越来越多的工作以构建客服人机对话系统,客服问询知识图谱为最终任务,前期采用文本分类技术帮助实现知识图谱或是构建电力设备缺陷用户画像。
3.2 电力文本分类挑战
3.2.1 基于电力文本词典构建
针对电力领域的本体词典构建具有重要科研意义。它的构建将不止服务于文本分类任务,而是帮助各类自然语言处理技术引入到对电力文本的应用和研究中。当然此类词典的构建工作量庞大,涉及内容多,专业要求高。业务部门繁多,工种繁多,电企内部体系复杂以及电企所处地理位置的习惯性表达等原因造成的内容表述方式多样化也为词典的构建带来了巨大的挑战。
3.2.2 基于数据融合的知识图谱构建
近年来,知识图谱技术已引入到医疗、传媒等各个领域,也带来了良好的效果。随着电网2.0 概念的落实,智能电网背景下的知识图谱的构建势在必行。然而,电力知识图谱的构建还处在初步尝试阶段,常见的是针对某一业务的图谱构建,如设备故障、智能客服故障问询。事实上,在电网体系中,多平台,多系统,多类型表达的现状对知识图谱的构建提出了更高的基于数据融合的要求。这项工作的展开需要文本分类技术的支撑。
因此,在电网文本问题解决过程中,与自然语言处理相关的各项子任务并非独立存在的且完全割裂的,而是相互提供技术支持。
4 结语
近年来,随着自然语言处理技术的发展为电力文本自动化分类与标准化管理的实现提供了技术条件。以语义理解为基础,以专业知识为前期支撑,文本分类技术将为我国智能电网的发展提供支持。数据集的构建,针对电力领域的定制化文本分类技术将成为自然语言处理技术在电网行业应用的重要课题之一。