APP下载

基于自然语言处理和Office COM组件的电量智能统计分析系统

2018-01-03李新利李昕其李卫东

计算机应用与软件 2017年12期
关键词:原始数据电量用电

李新利 李昕其 马 凯 李卫东 于 磊

1(华北电力大学控制与计算机工程学院 北京 102206) 2(国网辽宁省电力有限公司盘锦供电公司 辽宁 盘锦 124010) 3(国网河南省电力公司济源供电公司 河南 济源 459000)

基于自然语言处理和OfficeCOM组件的电量智能统计分析系统

李新利1李昕其2马 凯1李卫东3于 磊1

1(华北电力大学控制与计算机工程学院 北京 102206)2(国网辽宁省电力有限公司盘锦供电公司 辽宁 盘锦 124010)3(国网河南省电力公司济源供电公司 河南 济源 459000)

传统电量统计分析采用简单Excel功能,凭经验进行,不仅影响所分析的数据和分析质量,而且使供电企业难以进行正确决策。基于自然语言处理和Office COM组件,提出并设计研制一种电量智能统计分析系统。系统基于自然语言处理技术,分析定位各项重要指标数据,建立大用户生产系统和电量消耗模型。同时采用COM组件技术,快速提取指定Excel报表中的大量数据。对月度统计数据进行分析比对,生成相应表格、图像及分析文字,自动输出符合电力公司要求的报告文档。实际应用表明,该系统提高了电力公司对社会用电量分析的速度和质量,为电力生产经营提供了有力的数据支撑。

自然语言 Office COM组件 电量统计 智能 数据处理

0 引 言

随着社会经济发展,电力能源的使用越来越市场化,电力市场不断壮大,必然会要求供电企业对自身发展进行准确定位。通过对用户用电量分析和预测,不仅可使供电企业及时了解和保证社会用电,而且有助于供电企业进行正确决策,提高自身发展[1]。因此电量的分析预测是供电企业可靠发展的关键所在,对电力企业实施项目投资、生产经营管理等有着重大的意义。

目前供电公司对售电量、全社会用电量和工业用电量等的统计分析,仅依靠人工对照历史数据,凭借经验进行分析,缺乏现代科学手段,严重影响了所分析的数据和分析质量。因此研究开发电量智能统计分析系统,通过建立大用户生产系统和电量消耗模型,对月度统计数据进行分析比对,输出分析结果,并结合自然语言处理技术,提高对文字信息的分析统计效果,切实提高统计工作的质量和水平,为企业生产经营提供有力的数据支撑。

1 电量智能统计分析系统特点

电量智能统计分析系统不仅可以挖掘电力市场运行数据,而且能统计分析电力市场运行规律,形成相应的电力月报或月度分析报告,便于预测未来发展趋势。对应某供电公司,其社会用电统计月报和电力公司生产经营情况月度统计分析报告,是对某一地区一个月里生产用电、生活用电、其他各公司用电和电力公司经营情况的详细统计与分析报告。对于记录社会用电状况,分析各产业的用电需求,改善电力公司的经营情况等,具有巨大的分析和指导意义。

通常某一地区的用电统计和电力公司经营情况统计的原始数据中,不仅有大量的数字信息,还包含十分丰富的文字信息。这些文字信息一般包括数据表名称、表头信息、日期、地名、产业名城、企业名称、某些现象的原因总结等内容。传统的报表自动化分析方法无法有效地理解和分析这些文字信息,造成信息遗漏、原始数据格式要求固定、自动生成的内容死板、自动化程度低等问题。随着自然语言处理技术的发展和深度学习技术的应用,中文语义分析的准确度有了很大发展[2-7]。本文基于自然语言处理方法,结合Office COM组件,提出并设计研制了电量的智能统计与分析系统。该智能系统具有如下特点:

1) 自然语言处理:对原始数据表中的表头、地名、企业名称、原因总结等文本内容进行自然语言处理,提取关键信息,并与模板库中的文本进行语义匹配。

2) 数据分析:基于所提取的原始数据和文字匹配情况,对重点数据进行二次计算和分析,实现重要数据的筛选、分类、排序及函数运算等功能。

3) 数据挖掘:统计系统不仅能查询单个表中数据,还能查询多个表的关联数据,具备数据挖掘功能,满足统计要求。

4) 数据显示:统计系统可实现数据的表格、变化趋势、棒图、混合型图表等多种显示。

5) 分析文档生成:根据对数据和文本的处理分析、信息挖掘,匹配相应的模板,自动生成图文并茂的doc格式的电力月报和经营情况分析报告。

2 软件设计思想

为了解决传统自动化报表分析软件无法高效理解和处理文本信息的缺陷,本文基于自然语言处理技术的分词、同义词查找、命名实体识别、情感分析等方法,结合Office COM组件接口实现对Excel和Word文件的协同操作,实现了软件对文本信息的识别和处理。并充分利用了原始数据中的数字和文本信息,提高了软件的智能程度。

由于处理自然语言需要容量巨大的词库和优异的计算性能,电量智能统计分析系统将需要分析的文本内容上传到网络服务器中,通过调用服务器提供的API接口,对文本信息进行各种分析处理。同时,软件中保留了单机的报表分析处理程序。当无法连接网络服务、自然语言处理出错、或选择不使用自然语言处理功能时,则该系统按照定义的模板和算法库中的流程,直接查找各关键字段,获取并分析数据,具有灵活处理功能。

3 自然语言处理

用电原始数据的数据表中,通常存在如下三种类型的文本数据:

1) 字段文本:用来表示数据表中一列数据的统称。例如:“本月用电量”、“地区”、“累计用电量”等。

2) 属性文本或实体文本:数据表中某一行的属性或某一个实体的名称的文本。例如:“第一产业”、“xxx集团”、“全省合计”等。

3) 原因分析文本:收集和统计分析得出的对用电情况的现实原因表述。例如,“受石油加工业拉动,8-11月份增速较快”,或“受xxx集团装置故障检修影响”等文本描述。

对于三种类型的文本数据,电量统计系统中采用了不同的自然语言处理方法进行处理。

3.1 字段文本与实体文本的处理

在用电情况原始数据中,经常会出现一些符合人类思维的描述,尤其是在字段文本信息中,常使用不同的词来表示同一个意思。例如:当月用电量和本月量、增长率和增速、影响变化和影响变化率等文本描述。这种描述具有模糊性和联想性,人类易于分辨,但计算机却很难识别。基于自然语言处理技术,电量智能统计分析系统将这些文本信息进行分词后,采用同义词扩展查找和语义联想查找,识别出与模板库中的文本信息具有相同或高相似度的文本描述,进而对这个文本描述对应的数据执行合适的统计分析算法。字段文本和实体文本的处理基本流程如图1所示。

图1 字段文本与实体文本处理流程

电量智能统计系统要处理的Excel格式原始数据表,也会出现使用同一个词表示两种语义的情况。在处理这类情况时,可根据文本在表格中位置来区分具体的语义。例如,“增量”这个词,在“本月用电量”右边或下方的单元格中出现,则表示“本月用电量的同比增量”;在“累计”的右边或下方的单元格中出现,则表示“1月至今累计用电量的同比增量”。这种情况下,在识别语义或查找关键字时,本文提出不仅识别语义,还要判断文本间的位置关系,按照从左至右、从上至下的位置从属关系来进一步判断原始数据文本与模板文本的匹配。

3.2 原因分析文本的处理

原因分析文本的描述中包含大量信息,既有增长、下降等情感信息,又有“石油加工业”、“xxx集团”等行业和企业名称信息,以及可能存在时间和地点等信息。本文在所生成的电力月报和经营情况分析报告中,对这些信息按照人的思维逻辑进行分类显示。采用将有利因素分为一类,不利因素分为另一类。同时在表述原因时,需要自动附加相关的数据和数据分析。例如,谈及石油加工业时,需要查找原始数据中石油加工业的总体用电数据和该产业下的各大企业的用电数据,并显示二次计算和分析结果。在涉及“xxx集团”时,需要从原始数据表中查找这个集团的用电数据,并将用电情况的分析结果文本附加在原因分析之后。为了实现这些功能,本文采用了情感分析和命名实体识别技术。通过分析原因的情感,将原因分为褒义、中义、贬义三类,在生成报告时,分别显示这三类原因,并且根据人的习惯,使用不同的词汇表述这些原因。采用命名实体识别技术,可提取原因中的行业名称、企业名称、地名这些信息,并进行原始数据的多表联查,提取所有的相关数据。原因分析的文本信息基本处理流程如图2所示。

图2 原因分析的文本处理流程

4 数据处理和文件操作

供电公司原始数据表格一般均为Excel格式,因此本文的电量智能统计分析系统采用Office COM组件接口[8-12],实现对Excel数据表的数据读取、查找、绘图、多列排序、筛选、写入数据等操作。同时生成Word文件、Excel副本文件,以及实现对Word文件的文字、表格、图表等内容的各种操作。基于这些操作,软件可以协同处理Excel文件和Word文件,根据模板库中定义的格式,生成排版规范且美观的Word报告[13-14]。

软件的统计算法库中,定义了多种处理分析数据的统计算法,并根据供电公司对电量统计报告的实际需求,定义了数种典型的数据处理流程和报告类型。软件会根据工作人员的设置,对报告中不同类型的部分采用不同的处理流程,生成条理清晰、结构合理、数据丰富的统计报告。典型的数据处理流程如图3所示。

图3 典型数据统计处理流程

供电公司原始数据经过电量智能统计分析系统处理与操作后,生成的典型报表如图4所示。

图4 自动生成报表的典型样式

5 结 语

本文基于自然语言处理技术,结合Office COM组件,研究并开发了电量智能统计分析系统。通过自然语言处理,加强了软件对文本信息的识别处理能力,可以处理汉语中多词同义的情况,并提取文本中的关键信息和命名实体,提高软件的适用性和自动化程度,丰富自动化报表分析软件的功能。采用Office COM组件编程接口开发,可以自动分析处理包含用电情况原始数据的Excel文件,生成反映社会中各产业各地区的用电情况月报和供电公司经营情况的经营分析报告的Word文件,充分利用了Excel和Word软件提供的数据和文字处理功能。该智能系统的使用减少了工作人员对数据表格的繁琐操作、文本录入及录入错误,提高了数据处理和书写报告的质量和效率。该系统已经在某市供电公司中投入使用,其处理速度和生成的报告质量获得一致肯定。

[1] 刘迪.电力市场电量分析及预测研究[J].科技创新与应用,2014(35):162-162.

[2] 邸鹏,段利国.基于复杂句式的文本情感倾向性分析[J].计算机应用与软件,2015,32(11):57-61.

[3] 李妍,刘茂福,姬东鸿.基于支持向量机的中文文本蕴涵识别研究[J].计算机应用与软件,2014,31(4):51-55.

[4] 于昕,郭浩,李海芳,等.基于自然语言处理的图像情感语义检索研究[J].计算机应用与软件,2014,31(6):37-41.

[5] 车海燕,冯铁,张家晨,等.面向中文自然语言文档的自动知识抽取方法[J].计算机研究与发展,2013,50(4):834-842.

[6] 侯超.基于自然语言处理的策略生成系统的设计与实现[D].西安电子科技大学,2013.

[7] 张雷.基于自然语言处理及语音识别方法的电信业务软件设计[D].电子科技大学,2014.

[8] 赵小娟.基于.NET的企业铁路运输调度系统报表系统设计[D].兰州交通大学,2012.

[9] 王丹.基于.NET的金融企业办公自动化系统的设计与实现[D].吉林大学,2015.

[10] 方钟辉.基于ASP.NET的医院办公自动化系统设计与实现[D].大连理工大学,2014.

[11] 王春蓉.基于ASP.NET的中小企业办公自动化管理系统的设计与实现[D].江西财经大学,2016.

[12] 李佳.基于PLM的某电子企业的数据整合研究与应用[D].复旦大学,2012.

[13] 王正敏,张太红,李永可,等.FreeMarker模板引擎在线动态生成Excel和Word文档技术[J].计算机与现代化,2016(4):109-113.

[14] 陈健.浅析利用Excel与Word生成固定格式文档的方法[J].电脑知识与技术,2013(25):5721-5724.

SMARTSTATISTICALANALYSISSYSTEMOFELECTRICITYBASEDONNATURALLANGUAGEPROCESSINGANDOFFICECOMCOMPONENTS

Li Xinli1Li Xinqi2Ma Kai1Li Weidong3Yu Lei1

1(SchoolofControlandComputerEngineering,NorthChinaPowerElectricUniversity,Beijing102206,China)2(PanjinPowerSupplyCompany,StateGridLiaoningElectricPowerCo.,Ltd.,Panjin124010,Liaoning,China)3(JiyuanPowerSupplyCompany,StateGridHenanElectricPowerCompany,Jiyuan459000,Henan,China)

The simple Excel function is usually used in the traditional statistical analysis of electricity, with manual experience. It not only affects the quality of data and analysis, but also makes it difficult for power supply enterprises to make the right decisions. Based on the natural language processing and Office COM components, a smart statistical analysis system of electricity system is proposed and designed. The important indicators of data are analysed and located based on natural language processing technology. The model is established between large-user production systems and power consumption. At the same time, the COM component technology is used to extract quickly a large amount of data in the specified Excel report. The monthly statistical data are analysed and comprised, and appropriate forms, images and analysis of the text are generated. The report documents are automatically generated, which meet power company requirements. The practical application shows that the system improves the speed and quality of electricity consumption analysis, and provides powerful data support for power production and operation.

Natural language Office COM components Electricity statistical Smart Data processing

2017-02-16。中央高校基本科研业务费专项资助(2016MS48)。李新利,副教授,主研领域:模式识别,图像处理。李昕其,助理工程师。马凯,硕士生。李卫东,助理工程师。于磊,工程师。

TP3

A

10.3969/j.issn.1000-386x.2017.12.020

猜你喜欢

原始数据电量用电
储存聊天记录用掉两个半三峡水电站电量
物联网智能燃气表电量自补给装置
受特定变化趋势限制的传感器数据处理方法研究
对输配电及用电工程的自动化运行的几点思考
用电安全要注意
用电监察面临的问题及反窃电对策
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
对物理实验测量仪器读数的思考
节假日来电量预测及来电量波动应对策略