智慧水电及AI大数据应用

2019-04-06黄宗碧

水电与抽水蓄能 2019年6期

关键词：智慧

黄宗碧

（武汉泰坦信息科技有限公司，湖北省武汉市 430077）

0 引言

“从完全不同的线索出发，用不同的方法也可以得到同样的数据——所有这些方法都支持同一个观点，这个论据是很重要的，因为它说明了（自然规律）本质上的一致性。”[1]这是爱因斯坦早在1938年即向世人宣告的具有认识论高度的观点。也是近一百年来大量科学研究中所一贯秉持的主流观点。放眼当今的神州大地，千百条江河不舍昼夜的奔流，全球最大规模的发、变、输、配电系统将其中所蕴含的巨大能量源源不断地转化为电能，供给亿万用户，其间所产生的海量生产数据、监测数据、计量数据、检修实验数据、管理维护数据以及相关的水情、气象、地质、航运、渔业、环保、经济数据一起，正标识着当今的生产力水平和社会生产基本规律。而其中的“智慧化”进程，则正诠释了现代科技对于自然规律的更深层次的认知水平，以及更高层面的运用水平。

“智能水电 ”已经不仅仅只是作为一个新概念被探讨和构想，而是和 “智慧电网”“智慧用电”一起成为标定我们所处时代节点的“技术标签”，成为新时期电力建设的实际模板，成为更高效、更经济、更环保、更安全的生产组织形式的基础架构，以及更新、更快、更好、更利于持续发展的技术创新源泉。

本文作为本刊《人工智能技术在水电状态监测中的需求及应用》[8]一文的续篇，将进一步介绍具体的“智慧水电”AI大数据应用及其优点，并将展开阐述其中的关键性问题，包括：复杂监测系统互联所导致的多源数据融合问题，利用智慧平台实现开放式智慧监测系统，以及中国特色网络环境中的AI大数据脱敏应用，并介绍相应已经获得应用效果的实例。

1 “智慧化”的AI大数据内涵

《自然》杂志在150周年纪念文章中提到：“在过去的150年里，关于什么是数据、哪些数据是可靠的以及谁拥有这些数据的观念发生了巨大的转变。数据曾经被认为是具有稳定的固有价值，其重要性由少数专业解释人员决定，但现在，数据的价值已经是可重复利用的。而且，通过数据创造更大价值的限制，似乎只取决于数据在多大程度上被跨环境调动起来，并与其他领域的人分享的勇气！随着数据在数量、种类和价值上的增长，数据已经开始驱动发现的过程。”[2]在智慧水电领域，人工智能技术使得数据在各类智能应用中获得了高增值表现，正成长为可以具体支撑相关技术进步的“实体”资源。AI大数据应用也成长为智慧平台上的具体服务形式。

表1为实际某水电厂尝试AI大数据分析的主机数据构成，以及某检修公司的电网设备数据构成。

表1 数据资源实例：主机数据及电网设备数据Table 1 Data resource ： main-generator data and power grid equipment data

续表

由表1可以看出，同级别电厂、电力公司的数据基础已经普遍具备，甚至某些初步数据分析也已经完成，但显然还没有达到“智慧化”的应用水平。这其中的核心问题是：智能数据分析和传统数据工程的区别是什么？人工智能技术相对传统统计分析技术的提升到底是什么？

人工智能学习算法可以用如下通用形式刻画：

其中，X为原始数据空间，Y为分析目标空间，F=X→Y为输入、输出间的映射关系，S（F（X），Y）为监督函数（因其差别可以分为监督学习Supervised Learning、无监督学习Unsupervised Learning、半监督学习Semi-Supervised Learning）[5]，ϕi(X)为学习参数矩阵，为学习评价结果，为学习评价函数。

由此可以清晰看出，学习算法具备根据不同输入集训练出不同针对性分析成果的独特能力，正是这一本质上的优点使得传统的数据工程技术和统计分析技术迎来了颠覆性的发展乃至革命。数据工程的核心任务是数据层的提取、变换及载入；而AI数据技术的核心任务是价值层的发现、获取及凝练。传统统计分析的典型模式是建立确定性的模型、实现确定性的算法，获得具有确定性效果的分析结果；而AI数据技术的典型模式是建立通用型的模型、架构进化型的算法，获得具有持续改进性效果的分析结果。

从更深的分析层次而言，AI大数据分析比传统数据分析多了一个至关重要的层次——认知层次。这个层次以学习的态度试图回答“数据所反映的内在本质规律是什么？”——这将对我们正确理解、使用数据起到决定性的作用。可以说，认知层的探索性实现完全颠覆了数据的价值体系和使用方式，是目前正在进行中的一场关于数据分析技术的革命。

图1 AI大数据分析与传统数据分析的差异Figure 1 Differences between AI big data analysis and traditional data analysis

例如图2所示，这是一台水电机组的健康状态分析结果。数据经过基于AI学习算法的“健康状态模型”[8]进行计算。计算结果以红色数据点表示，健康样本以绿色曲线表示。横轴表示样本空间，纵轴表示健康状态的优劣（下方为优）。从这个结果我们可以明确地认识到如下内在规律：

（1）这台机组的健康状态在整个样本空间中体现为比较复杂的非线性形式，不适合以某个单一数值标准（如报警限）来简单评价机组状态。

（2）该机组的健康状态存在一个明显的过渡区（弯折区，对应“亚健康”状态），此时可以明确改变机组运行方式以避免进入危险区，而无需盲目报警。

（3）最右侧危险区的状态变化最剧烈，有发生偶然性破坏或失效的可能。应当从调度方式中予以避免。

（4）左侧健康区占据了样本空间的绝大部分，说明该机组的健康工况范围大，适合主力发电运行。

（5）健康区状态变化平稳，接近线性，可以利用线性回归模型进行状态预测。

图2 机组健康状态分析实例Figure 2 An example of unit health status analysis

这些客观的规律性认识已经深入到机组的内在运行机理，包括了报警/预警模式优化，运行方式优化，调度方式优化，运行成本预测，服役寿命预测，检修成本预测等诸多成果。这种深刻性和实用性是传统数据分析手段所难以达到的。

进一步，将AI学习算法基于宏观数据视角和微观数据视角分别应用后，可以产生如下丰富的AI大数据应用成果，归纳总结如表2所示。

表2 AI大数据应用效果Table 2 Application effects of AI big data

所以，AI大数据应用的实质就是：由AI自主完成数据分析，自动以展示界面形式形成分析结果，并主动将结果推送给人使用，从而帮助人达到更高的认知水平，实现“智慧型”工作。

2 智慧平台中的多源数据融合

在“智慧电厂”“智慧电网”和“智慧用电”等智慧平台的建设过程中，存在一个共同性的难题，即多个复杂数据系统的互联，以及由此带来的多源数据融合问题。

随着电网及电力技术的发展，自动化测控大系统的智能提升，网络信息化不断引入，电力企业也步入了一个新的历史阶段——不再局限于离散设备的智能化或者自动化，而是覆盖了调度、发电、输电、配电、变电、用电等所有相关环节的完整体系。新技术、新电压等级的应用，在提升电力企业自动化、智能化水平的同时，电力设备的组件数量、子系统和其下分支数目也在迅猛增加，系统间的交联方式更显复杂，离线数据（如仪表观测、监盘、表观缺陷等）数目庞大、难以处理等新问题也已经出现。在不远的将来，多个、多种或多级监测系统的数据以及人工数据、实验数据、厂家数据的互联使用将成为必然。然而，这些非同源数据是无法简单统一使用的。

以前文[8]得出的故障率参数为例，故障率实际是与采样方式及数据量有关的：

在互联的不同系统中，由于采样方式及数据量均不相同，所以非同源数据间的对比、运算、对应实际上都不再可行，不加区分地使用非同源数据将导致完全错误的结果。这种情况其实已经在现实中屡屡表现出来：在一个复杂系统中，总有一些仪器的误报率远高于系统的平均水平。

要解决这一根深蒂固的难题，我们需要从更深刻的角度来考察量测数据。量测，一方面意味着测量值的获取，另一方面也意味着这种获取可以在多大程度上被我们信赖。或者用数学语言来表述：每一个测量数据都对应着一个“置信度”，或者称为测量不确定度。这种不确定度既是独立的，又是密切与测量结果相联系的，它既是表明测量结果分散性的一个参数，也是对导致出现这种分散性的“潜在自然规律”的客观描摹。在对测量的严格完整的表示中，应该同时包括测量结果与测量不确定度。所以，解决多源数据融合问题的首要关键就是引入数据置信度，将单纯的数据一元运算扩展为（数据，置信度）二元组的相关计算。

一个系统的数据置信度，或者叫测量不确定度可以由式（3）描述：

其中，（θ1，θ2）为置信区间。ϕ(θ)为概率分布。当计算结果涉及多个来源测量数据时，可以按各量的方差和协方差算得合成置信度。它是测量结果标准偏差的估计值[9]，实际上描述了多源变量的联合概率分布特性，也表征了计算结果的分散性起因。置信度的合成方法，明示了低维数据和高维数据的不同处理方法，内含了依据多维数据所做评定的可靠程度。因此不仅不会产生大量冲突性误报，反而可以清晰展示出不可信数据所暴露出的系统隐患或测量缺陷。

例如，图3为某电厂3个子系统数据的综合处理，清晰显示了多源数据联合分布概率的异常变化，即置信度异常变化。这种异常并不体现在具体数值的异常上（因而并未被监控系统发现），而是体现在异常的数据分布规律上（出现了7次大的异常）。特别严重的是，异常发生期间，数据平台的监视、决策、管理、预判都是根据这些不可信数据做出的，这实际给系统安全稳定运行带来了极大的隐患。

其次，在低维扩展到高维的情况下，还有一个特别需要注意的问题是：随着多源数据融合技术的发展，越来越多的低维数据分析手段被“不自觉地”扩展到了高维，而这实际上是有巨大数学风险的。纯以数学上的严格正确性而论，很简单地从二维到三维的扩展都不一定必然成立，一个著名的反例是：二维面积的“有限可加性”并不能导出三维体积的“有限可加性”。

事实上，这就是著名的希尔伯特第三问题[10]所阐明的内容。因此，AI大数据应用必须要基于严格的数学方法，而不是近似的工程处理手段。这也是人工智能技术区别于数据工程技术的显著特点。

图3 多源数据置信度变化实例Figure 3 Example of multi-source data confidence change

正如DeepMind在论文中所明确指出的：“（人工学习网络）能够模拟各种各样的问题的解决方案，包括有监督的和无监督的；但随着它们的大小和表达能力的增加，模型的方差也会增加。……通常的解决方案是寻找大量的训练数据，希望这些数据足够接近所测试领域的数据分布——然而，这些数据不一定容易获得。”[3]只有直面数据分布的差异化问题，才能充分、正确、合理地使用智慧平台上的海量多源数据。

3 开放式智慧监测系统

图4是某水电机组的AI大数据能效分析实例，黄色表示输入能量状态，绿色表示输出电能状态。由此可以清楚判断，在图线的中部区域，对应着机组的最佳效率运行区，此时较少的输入依然获得了几乎最大额度的输出。这种能效规律的全面获取是以往通过机组实验途径无法实现的。

图4 AI大数据能效分析实例Figure 4 An example of energy efficiency analysis of AI big data

但特别有趣的是，上例所利用的原始数据中并没有完整的效率测量数据。AI大数据分析技术可以使用和机组能效相关性最强的“间接数据”进行计算，从而扩展出原本系统并不具备的相关监测与分析能力。这就是“智慧水电”中的开放式监测的典型应用场景。

再举一个数学上更为严格的例子，根据平均遍历定理[11]，有：

其条件为：

即，经历足够长的时间之后，状态量关于状态空间的平均收敛与关于时间的平均收敛相等。简单表述，就是可以通过状态量分析设备的服役寿命（时间）。因此，我们并不需要为全寿命监测再投入一整套软硬件系统，而是通过AI大数据分析就可以严格、准确、高效地在智慧平台上实现此种功能。

“新一代机器学习技术（如AlphaGo）不是通过一套预先编写的指令进行训练，而是通过练习和反馈。事实证明，这与人类儿童学习技能的方式有着惊人的相似之处。”[4]基于智慧平台的开放式智慧监测系统，具备运行过程中的性能扩展、提升、学习进步的能力，从而使得针对“跑、冒、滴、漏”等无从规划的监测对象有了切实合用的技术手段，也使得“电磁泄漏监测”等全新技术手段得以展示其广谱、灵敏、高效的优点。

“如果科学仅仅是在关联数据，并不告诉我们物理世界实际是什么样的，那么就很难看到花费在这个事业上面的所有时间、精力和人力是值得的。它的成就就会显得过于贫乏，不足以证明有必要做出如此大的投入。”[1]通过开放式智慧监测系统，就可以借助人工智能手段，真正从机理层面观察、了解、认知、把握物理世界的客观规律。

4 AI大数据脱敏应用

“在物理上准确地表征一个事件发生的地点与时间比历史更为重要，因为这些数据是定量描述的根本。”[1]反而言之，如果我们隐藏掉这些关键的时空信息，只留下通用规律的数据表述。那么，这个数据其实就已经实现“脱敏”，可以安全、广泛、充分地发挥其内在价值了。

例如图5展示了采用AI大数据技术对合格的三相电量调节数据进行的规律“发掘”，由图可见，在不同工作区域，系统采用了较大差别的控制策略，自然也就获得了完全不同的控制效果。既然所有的生产指标都是合格的，就可以根据能耗、效益指标来选择最优运行方式。重要的是，这种规律性成果即使是分享给其他单位，依然不会泄露用户的敏感信息，却还是可以起到帮助兄弟单位优化其效益的显著效果。

本文所选取的所有实例，均以脱敏方式展示出来。这些分析成果并不需要标注时间、地点等用户信息，也不需要提供测点名称、具体量值、计量单位、坐标比例等原始数据。在AI大数据应用中，应用的核心价值是数据的内在规律，而不是数据的秘密属性。同理，在AI大数据分享中，广大用户分享的也是这种共性的规律及知识价值，而不是分享机密。

图5 数据规律实例Figure 5 Examples of data rules

在这种本质安全的脱敏技术支撑之上，多个AI服务可以同时并列运行于“容器云”中，互不冲突。各种AI服务也能以“试用”“租用”“自有”等多种形式快速推广，大大提升了项目落地的速度和应用效果。另外，用户也可以只在当前最优先发展的层级展开自建工作，而将其他层级的工作以服务方式购置。甚至，用户可以打造完全属于自己的“虚拟云应用”，却没有传统的机房运维、平台运维、应用运维负担，从而创建出真正便捷高效的“绿色”智慧平台。这一点，对于拥有全球最大规模专业“内网”资源的中国电力企业而言，是极其难得的时代机遇和得天独厚的环境条件。

图6 AI大数据应用推广方式Figure 6 Application and promotion of AI big data

如此，借助国家电网、南方电网已经建成的“内网”和正在推进的“内网云平台”，世界最大规模的电力系统完全有能力建立起具有世界一流价值的数据应用体系，以及人工智能应用体系。例如眼下，正在飞速打造的“雄安泛在电力物联网综合示范区”已经展现出智慧电力的曙光。

5 结束语

1984年普朗克奖章获得者，物理学家 Res Jost曾最先描述过：每一科学分支都遵循一种“三阶段发展模式”[12]，我们可以用来借鉴思考“智慧水电”的建设工作：

第一阶段为定性阶段，主要是收集和描述事实，以及提出普遍的分类原理和解释。这就是大数据平台建设之前的水电及电力自动化系统运行状态写照。

第二阶段为定量阶段，主要是进行定量的测量，并用方程来表述定律。这就是大数据平台建设之后，利用数据建模、回归分析、统计计算来描述水电及电力自动化系统运行状态的实际情况。

第三阶段则又是定性的，这时将在更深刻的层面上理解定量理论的内涵，并且上升到用定理而不是方程来描述所得到的自然现象的规律。这就是将人工智能技术应用于水电及电力大数据平台后将要取得的新的进展——“规律发现”及“知识发现”！这不仅仅只是技术手段的提升、发展和延伸，更多的是相关科学内容的认知水平将在一个前所未有的更高层面上被展现出来。

人工智能，将不仅仅作为工具，还将成为人类的科学及专业认知能力的一个有机组成部分，进而确立为社会及科技进步的强大基础推动力。科技部高新司司长秦勇说，新一代人工智能重大科技项目选择大数据智能、跨媒体智能、群体智能、混合增强智能和自主智能系统五个主力方向，从基础理论、支撑体系、关键技术、创新应用四个层面进行系统性、前瞻性任务布局。以“智慧电厂”“智慧电网”和“智慧用电”全面布局来整体提升电力自动化水平的技术浪潮正在到来，以“内网云平台”“定制云服务”“跨部门数据应用”为新增长点的业务模式正在迅速普及。

《自然》杂志写到：“中国不仅拥有世界上最多的人口，而且有望成为世界最大的经济体——它还希望在人工智能方面引领世界。”[6-7]作为中国电力事业建设者、奋斗者中的一员，我们“不忘初心、砥砺前行”！