APP下载

基于自然语言处理和互信息的电力物联网技术协同创新研究

2021-06-04王其清李存斌高昇宇

关键词:互信息术语耦合

王其清, 李存斌, 高昇宇

(1.华北电力大学 新能源电力与低碳发展研究重点实验室, 北京 102206;2.国网江苏省电力有限公司南京供电分公司, 江苏 南京 210008)

0 引 言

2019年以来,中央多次强调加快推进“新基建”建设,利用信息技术对传统基础设施的改造升级,涉及物联网、充电桩、数据中心、5 G、人工智能、工业互联网等领域,其中电力物联网建设已成为国家电网公司“数字新基建”十大重点建设任务之一。

电力物联网是建设能源互联网的重要支撑,对促进国家能源结构变革、实现源网荷储的智能协调优化、提升用户用能体验至关重要[1]。然而电力物联网建设处于起步阶段,有必要对相关技术的创新发展进行研究,寻找电力物联网关键技术突破点并探索高效的创新路径。傅质馨等[2]认为电力物联网关键技术包括新型设备研发、平台互操作技术、海量数据处理技术、网络安全和新一代人工智能技术。王毅等探讨了5 G通信技术与电力物联网的深度融合及应用场景[3]。郑晓庆等[4]提出一种适用于电力物联网的无限通信接入技术,实现通信底层技术与电力业务的融合。这些文献从技术应用场景的角度分析了许多关键技术在电力系统的应用,但随着现代信息技术的飞速发展,信息技术的种类、应用场景都在发生变化,此外电力物联网的物理信息融合特征导致其覆盖的技术领域更广,因此需要从协同创新的角度研究电力物联网技术发展。

基于信息学理论的三螺旋、四螺旋理论是协同创新研究的重要方法[5],但这些方法大多结合文献或专利在多主体的共现统计分布进行分析,难以深入研究文献所涉及的关键技术及其演化机理。专利、科技文献是技术创新成果的重要载体,越来越多的学者选择采用文本挖掘的方式探索大量科技文献中的技术创新发展与演化趋势[6]。比如,周莉等[7]基于CiteSpace、Matlab等软件对1960~2016年音乐科技产业专利数据进行挖掘分析,解析出音乐科技产业发展四个阶段,为文化领域发展提供了借鉴;Zhang和Liu[8]基于文本挖掘和主成分分析对科技专利进行挖掘,分析高科技项目前景风险,改进了传统专利地图方法。电力物联网创新技术协同研究需要细化电力系统、物联网关键技术与对应领域,分析它们之间的耦合域及协同演化趋势。自然语言处理(NLP)技术随着人工智能的发展而迅速兴起,是重要的文本挖掘方法,该技术已经在自然语言机器翻译、问答系统、情感分析等多个领域得到了广泛应用[9,10]。在科技创新领域,包含NLP在内的前沿计算机技术以被应用于创新政策主题挖掘[11]、产业政策量化分析[12]、专利技术预测[13]等。

本文以NLP技术为核心,首先将电力和物联网技术领域细分为源、网、荷、储、感知、网络、计算、应用8个子领域,并从Web of Science搜索获取所有相关文献,运用NLP算法深入挖掘文献数据,识别命名实体、提取关键术语对、统计并生成电力物联网技术耦合矩阵;然后基于互信息理论分析电力系统和物联网创新技术领域的协同关系,验证所提方法的有效性;最后根据研究结果总结电力物联网创新技术协同发展趋势并给出相关建议。

1 电力物联网技术协同创新分析模型构建

基于NLP和互信息的电力物联网创新技术协同分析流程如图1所示。主要包括了电力物联网技术领域划分与文献数据收集、基于NLP的电力物联网技术耦合矩阵构建和基于互信息的技术协同创新演化分析等步骤。

图1 基于自然语言处理和互信息的电力物联网技术协同创新分析框架Fig. 1 Framework for coordination analysis of PIoT technologies using NLP and mutual information

1.1 基于自然语言处理的电力物联网创新技术耦合矩阵构建

具体来说,从电力系统和物联网两个方面进行研究,电力系统技术领域划分Ai(i=1,2,…,m),物联网技术领域划分Bj(j=1,2,…,n),记所有领域集合为Dom=A∪B,每个技术领域划分包含了若干隶属于该领域的名词术语tr。为克服传统文献计量方法缺乏对具体技术深入分析的问题,引入文本挖掘方法对文献进行细致分析并抽取相关技术领域术语,并利用实体识别抽取、词频统计、句内共现和语义距离等技术精确分析统计电力物联网技术子领域内包含术语的情况。本文基于NLP技术,利用基于关键词的启发式实体识别方法提取技术术语,在句级层面采用句内文本挖掘方法挑选与关键词术语距离相近的其他重要术语构成术语对,根据语义相似性消解共同指代词构建电力物联网术语对-领域矩阵,研究电力物联网技术协同关系。电力物联网术语与领域耦合矩阵构建算法流程如下:

Step 1:k=1,初始化词频阈值λ=1,术语对-领域共现矩阵Coocur=(cij)p×(m+n),对应总术语集T0={},文献总数量为D,每篇文献dk可被划分为技术子领域Domt(t=1,2,3,…,m+n);

Step 2:取出第k篇文献dk(k=1,2,…,D)的摘要、关键词和标题文本并预处理,对于每一个句子采用训练好的实体识别模型抽取技术术语,两两组合形成术语对{tr,ts};

根据术语共现矩阵C′oocur,判断术语是否属于A′或B′可得到电力物联网技术领域共现矩阵H=(hij)m×n,其中

(1)

电力物联网技术耦合矩阵构建算法由Python语言编程实现,其中文本预处理包括标题摘要提取、分句、分词、词性标注等,采用Python包nltk[14]完成,而电力物联网创新技术实体识别、提取、术语对筛选等工作由SpaCy[15]软件包完成,该工具选取包含关键词的句子构成训练集,采用BILUO标记方案对实体进行标记[16],利用基于贪婪解析和模仿学习的组合线性模型训练得到电力物联网创新技术实体识别模型[17,18]。

1.2 基于互信息理论的技术协同分析

创新技术协同涉及二维技术子领域的协作关系,基于信息熵的互信息理论能够量化创新系统内主体的不确定度与交互作用,从而达到研究电力物联网创新技术协同的目的[5]。二维随机变量X,Y的互信息计算公式为

I(X,Y)=H(X)+H(Y)-H(X,Y)

(2)

式中:H(X)和H(Y)表示信息熵,按式(3)计算;H(X,Y)为二维信息熵,按公式(4)计算。

(3)

(4)

式中:p(x)和p(x,y)表示概率分布,实际研究中一般用频率替代。二维信息熵可以分解为两个变量的信息熵之和减去二维平均互信息量,因此I(X,Y)可以被看作是子系统间信息传输的转接量,代表创新主体交互作用强度。

图2表示电力物联网术语和技术领域的概率关系,(ti,tj)表示从文献数据中抽取得到的重要实体术语对,每个实体对对应一个技术领域。Dk表示电力物联网技术子领域,基于自然语言处理提取所得术语和领域之间具有多对多映射关系,因而可以得到技术术语和电力物联网技术子领域的耦合关系矩阵。

图2 电力物联网术语和领域的概率关系Fig. 2 Probabilistic relationships between PIoT terminology and domains

基于矩阵Coocur、C′oocur和公式(5)可计算得到两个电力物联网子领域的共现概率:

(5)

式中:p(ds,dt)表示领域ds和dt术语共现概率;count({ds,dt})表示领域共现次数,由同时在这两个领域出现的术语频率计算得到;2Dom表示电力物联网术语子领域术语集的幂集。

2 基于自然语言处理和互信息的电力物联网创新技术协同分析

2.1 数据收集与处理

以Web of Science(WoS)核心合集数据库作为数据来源,使用关键词搜索获得1985~2019年电力物联网所有子技术领域文献资料,检索式见附录表A1。文献数据由59 252篇会议和35 782篇论文构成,每条数据包括标题、摘要、关键词、发表期刊、年份等字段,由于部分子领域2010以前的文献较少,因此采用2010~2019年的文献数据作为研究语料。表1列举了电力系统和物联网技术领域划分和相应的文献检索命中数量,其中电力系统被划分为“源-网-荷-储”4个子技术领域,物联网按照感知层、网络传输层、平台计算层和应用服务层进行领域划分。

表1 电力物联网领域WoS文献检索情况Tab.1 WoS literature retrieval in field of PIoT

2.2 电力物联网技术耦合矩阵构建

根据2.1节所述电力物联网技术耦合矩阵构建算法,采用Python编程对WoS数据集中标题、摘要和关键词进行处理,包括分词、词性标注、实体识别、共指消解等,最后根据重要术语对的共现情况,得到电力物联网技术术语-领域矩阵如表2所示。该矩阵由术语对-领域矩阵计算得到,表示在不同领域中包含术语的数量。可以看出在电力系统中,源端领域包含术语最多,而在物联网中,网络层和应用层包含术语最多。

表2 电力物联网术语-领域共现数量Tab.2 Co-occurrence number between PIoT terminology and domains

本文将电力物联网划分为8个子领域,两两组合可研究领域间的协同关系,其中电力系统和物联网各自子领域的术语共现情况见表3和表4,二者子领域之间的术语共现情况见表5。对比分析8个电力物联网子领域间术语共现情况可得出如下结论:

表3 电力系统子领域术语共现数量Tab.3 Number of term co-occurrence in power system sub-domains

表4 物联网子领域术语共现数量Tab.4 Number of term co-occurrence in IoT sub-domains

表5 电力系统与物联网子领域间术语共现数量Tab.5 Number of term co-occurrence between power system and IoT sub-domains

(1)表3和4中术语共现数量明显大于表5,说明基于NLP的电力物联网领域矩阵构建算法的有效性。从表3中还可以看出,电力源端与其他子领域的术语共现数量要比网-储、网-荷、荷-储更多,其中源-储端共现术语最多,说明随着新能源电力系统的发展,源-储互动将更加紧密,因为储能技术发展是平抑新能源发电随机波动特征的有力手段[19]。

(2)由表4可知物联网子领域文献分布不均匀,网络传输和应用服务技术领域文献较多,这导致了二者在表4中共现术语数量最多,其次为感知层与网络层。

(3)表5显示过去十年内电力系统与物联网子领域的术语共现数量逐渐增加,尤其是物联网网络层、应用层与电力源端、网端、荷端的耦合加深,物联网感知层在电力网端、荷端广泛应用,表明物联网技术与电力系统的联系日益紧密,物联网传感、网络传输等技术在电力数据采集处理、电力运行控制优化、负荷监测等都起到了重要作用。

2.3 电力物联网创新技术演化分析

选取出现频次大于10的术语对构建图3所示网络图,其中节点为电力物联网术语,边为对应术语在同一篇文献摘要中共现次数,节点按照领域被聚类为8个簇,可以看出其中物联网应用层、物联网网络层和电力源荷端技术领域研究文献较多,术语大多呈伞簇状,围绕物联网、射频识别(RFID)、机器到机器(M2M)、无线传感器网络(WSN)等中间核心术语分布。从各领域联系来看,电力系统各子领域均与物联网应用层联系紧密,而其中电力源储端与物联网应用层的共现次数更多,说明物联网技术在发电、储能子领域中应用较多,尤其是当今可再生能源大力发展的背景之下。

图3 电力物联网术语共现网络分析Fig. 3 Co-occurrence network analysis of PIoT terms

为了研究电力物联网术语在研究文献中的演化趋势,逐年计算电力物联网术语在共现网络中的中介中心性、度分布,按照节点重要性大小排序,选取重要术语根据其历年在文献数据集中与关键术语共现的次数特征进行分类,可得到突现型、渐缓型、波动型和增长型四类。突现型术语往往在最近几年热度持续上升,而渐缓型术语频率则平稳增长或下降,相比之下,增长型术语频率则一直保持较稳定的增长趋势,波动型术语整体上可能有所增长,但趋势不稳定。图4展示了这4类代表性术语的共现次数在近十年电力物联网WoS文献数据中的演化过程。图4(a)显示了近5年在电力物联网中逐渐得到应用的新兴技术,包括5 G、无人机、机器学习、设备到设备(D2D)等技术,其中5 G技术得到了最广泛的关注[3];图4(b)显示的几种技术一直是电力物联网领域的研究热点,刻画出电力物联网智能化、数字化特点,虽然近两年研究热度趋缓,但在文献中出现频率仍然较高;图4(c)中术语研究热度波动性较大,说明相关技术研究可能面临瓶颈(如电池储能)或者已经得到广泛而成功的应用(如RFID技术);图4(c)和(b)类似,由于术语概念比图4(a)、(c)更加笼统,所以共现次数较高,可见储能、微电网、物联网等技术的研究热度在未来电力物联网研究中将持续上升。因此,电力物联网建设需要各种技术的协调共生,而协同发展的关键在于利用5 G、机器学习、传感网络等物联网技术,赋能智能电网、微电网发展,克服新能源电力系统源-网-荷-储协同互动中存在的问题,比如光伏发电、储能、电能质量控制等。

图4 电力物联网部分关键技术术语演化Fig. 4 Evolution of critical technical terms of PIoT

2.4 电力物联网创新技术领域协同分析

互信息理论能够衡量不同主体间协作密切程度,根据电力物联网术语矩阵按照公式(2)~(5)可得不同技术子领域间关于技术术语的共现次数,从而研究领域间的协同作用。图3中物联网应用层包含的术语与其他领域联系密切,因此首先计算7个子领域和物联网应用层的二维互信息量并得到图5。

图5 物联网应用层与其他电力技术子领域二维互信息量Fig. 5 Mutual information between application layer of IoT and other technical sub-domains of power systems

从图5中可以看出,不同耦合域互信息量差距不大,呈先上升后下降的趋势,但是下降的程度有所区别:2014年之前电力系统荷端-应用层互信息量大于源端-应用层且为所有耦合域中最大,而在2014之后却相反,源端-应用层互信息量跃升为第一,说明物联网技术更多地被应用到了电力系统源端。

表6为电力系统与物联网领域二维信息量平均值,源端和储端物联网总信息量超过了1 000 mbit,比网端和荷端物联网总信息量更大,因此物联网技术与电力系统源、储端耦合更加密切。考虑到新能源发电和储能在新一代电力系统中的大力发展,使用物联网技术对负荷和风光发电进行监测传感,对于含大规模新能源电力系统稳定运行具有重要意义。

表6 电力系统与物联网各子领域平均互信息量

随着智能电网、微电网和综合能源系统的发展,电力系统源-网-荷-储子系统距离被拉近,子系统间互动频繁、相辅相成,比如源网端协调能够发挥电网调节作用将分散式和集中式的能源供应进行优化组合,降低接纳新能源电力给电网安全稳定运行带来的不利影响。物联网作为连接源-网-荷-储各端的纽带,在增强电力物联网各子系统互动,促进电力系统运行、优化、调度和控制的智能化起到了重要作用。源-网、网-荷、荷-储的互动随能量信息流而产生,属于基本的耦合模式,而微电网和区域能源系统的存在使得源-荷、源-储和网-储等跨越其他子系统的互动成为可能,并且有利于整个电力系统清洁高效运转。图6显示了这几个子系统的协同关系,可以看出源-储互信息量最大,且大于表6中所有平均互信息量值,说明电力物联网源-储端协同程度比源端物联网协同程度更密切。结合图5可知,储端与源端的紧密耦合不仅是为了克服新能源发电给电力系统带来的不确定性,储能技术的突破也是电动汽车、新能源消纳等环保领域进一步发展的突破口。

图6 源-荷-储协同互信息量Fig. 6 Mutual information among source-charge-storage collaboration

3 结 论

本文基于自然语言处理和互信息理论对电力物联网近10年核心研究文献进行了技术术语提取、术语-领域耦合矩阵构建以及创新技术协同分析,主要得出如下结论:

(1)源-储、源端-应用层技术协同作用强度比同类其他子领域高,新能源发电、储能以及物联网应用是电力物联网建设的关键突破点;

(2)电力物联网创新技术按照演化特征可分为突现型、渐缓型、波动型和增长型4类,5 G、无人机、机器学习、D2D等突现型技术引导着未来的发展趋势;

(3)基于自然语言处理和互信息的电力物联网创新技术协同分析方法能够解决传统基于文献统计分析方法无法深入探索创新技术与领域协同关系的不足。

因此,电力物联网建设在技术创新方面应当攻关新能源发电、储能以及新兴物联网技术(如雾边计算),在技术发展路径方面应当研究5 G、机器学习等新兴技术在电力源-网-荷-储互动中的应用,同时探索觉察领域边界交叉创新技术,夯实渐缓型、波动型技术,密切追踪增长型技术,大力发展突现型技术。

猜你喜欢

互信息术语耦合
基于增强注意力的耦合协同过滤推荐方法
擎动湾区制高点,耦合前海价值圈!
复杂线束在双BCI耦合下的终端响应机理
贸易术语修改适用问题探讨
基于磁耦合的高效水下非接触式通信方法研究
基于改进互信息和邻接熵的微博新词发现方法
基于互信息和小波变换的图像配准的研究
基于互信息的图像分割算法研究与设计
基于改进SIFT与互信息的异源图像匹配