基于电力大数据分析模型的防返贫预警监测应用
2022-01-06李丽英罗志坤唐敬军廖丽萍李爱元付强
李丽英,罗志坤,唐敬军,廖丽萍,李爱元,付强
(1.国网湖南省电力有限公司株洲供电分公司,湖南 株洲 412000;2.国网湖南省电力有限公司,湖南 长沙 410004;3.国网湖南省电力有限公司信息通信公司,湖南 长沙 410004)
0 引言
2021 年,脱贫攻坚战取得了全面胜利,中国完成了消除绝对贫困的艰巨任务[1]。脱贫摘帽不是终点,让脱贫基础更加稳固、成效更可持续,实现全面脱贫与乡村振兴有效衔接,要加快建立防止返贫监测和帮扶机制[2],就需要对易返贫致贫人口加强监测。
对于部分已脱贫但质量不高、不稳的脱贫户,构建和完善科学合理的预警与监测机制,衔接推进和进一步巩固扩大脱贫攻坚成果尤为重要,现阶段脱贫人口返贫预警监测系统大致分四个步骤[2]:建立返贫档案数据、进行返贫信息判断、启动帮扶机制、返贫风险解除。
目前初步形成了先创建返贫预警制度,在返贫事件发生前就做到筛查与及时帮扶,利用大数据技术手段,分析脱贫户返贫的概率、及时发出预警。同时组织基层干部定期跟踪回访,形成事前预防、事中帮扶、事后跟踪监测的“闭环” 防返贫预警监测机制[3]。国内利用大数据监测技术实现防返贫监测方案主要是两种:一种是充分利用全国扶贫办开发信息系统、各省(市县) 精准脱贫大数据管理平台、各种移动应用软件对居民信息进行收集,对监测对象生产状况、收入来源、政策落实、教育学费、看病报销、受灾支出等加强监测;二是疾病依旧是致贫、返贫的主要原因[4]。针对此现象有学者如张瑜、魏晓光、赵颖等人针对医疗大数据构建防返贫体系[5]。通过医疗大数据将政府、医院、个人与保险公司联系起来,为防返贫提供决策分析。
通过国内外现状调查研究,发现上述两种返贫预警监测系统都存在数据收集不连续、覆盖不全面等问题。而电力大数据特性恰恰可以弥补上述不足,所以本文首次提出了基于电力大数据分析模型构建防返贫预警监测应用。
电力大数据具有连续性好、实时性强、准确度高、覆盖面广等特点[6-7],本文利用电力大数据特点,充分发挥电力数据这一“富矿”,首次基于电力大数据分析模型构建防返贫预警监测应用,筛选疑似返贫致贫用户信息,实现防返贫监测预警,为脱贫户返贫风险监测和帮扶长效机制建立提供决策依据。
1 基于用户用电行为数据分析模型
返贫预警监测应用阿里云大数据开发平台[8-11],涉及乡村振兴局、电力公司营销业务系统等数据,与政府需求对接,获取当地脱贫户、脱贫县市区、脱贫行政村、各村常住人口等档案。对脱贫户、脱贫县市区、脱贫行政村各村常住人口开展调研,分析其用电行为,研究构建返贫预警监测,形成模型数据需求清单。确认扶贫档案管理、电力返贫监测看板、构建分析模型、构建扶贫画像、预警模型管理、预警信息推送等六项功能需求。
1.1 数据需求与溯源
对接乡村振兴局数据,对脱贫对象进行梳理与溯源。包括姓名、身份证号、家庭住址(省、市、区县、镇、村)、家庭人数、类别、户主身份证号码、电能表户号等。数据通过专线进行推送,中台提供接口。涉及到数据需求梳理与溯源的有数据档案库数据应用、涉贫用电量分析数据应用、返贫预警分析数据应用、档案信息统计查询数据应用、预警数据及推送数据应用。
从内、外部业务系统采集数据,基于数据中台,提取出防返贫预警监测应用需求的数据。采集数据档案库数据、全省涉贫用电量数据、脱贫户用电缴费数据等资料数据。
1.2 数据预处理
按照系统总体架构要求,根据数据应用需求,由中台实现数据的接入,包括电力数据的接入频度、数据的业务规则、数据类型、数据存量、数据增量等信息为输入,完成数据接入技术路线。数据中台以统一数据模型为标准,汇聚海量数据,提炼共性的数据服务能力,构建场景化数据产品,为前端应用提供数据共享服务和产品,防返贫监测应用遵循阿里云中台架构[10],即一切数据由数据中台接入。来源内部系统的营销数据包含用电量、客户基础信息等,这部分数据已存储在数据中台的仓库。涉及的数据应用有数据档案库数据、涉贫用电量分析数据、返贫预警分析数据、档案信息统计查询数据、预警数据及推送数据。
脱贫户数据通过政务专线或离线的导入方式接入数据中台以进行匹配,形成档案库数据应用;每月从中台营销系统与脱贫户数据结合用电情况,以省、市、区县为基础建立涉贫月度用电分析数据、脱贫户用电数据,包括用电量情况、缴费情况、停电时长、同比环比增量、趋势变化等。基于数据档案库、用电分析等数据建立数据模型,制定预警规则,形成月度返贫预警分析数据应用。将不同预警规则生成对应的预警数据进行记录,形成预警数据及推送应用数据,同时推送至政府政务平台。
分析乡村振兴局与中台营销数据差异,整合转换数据档案库数据。根据模型数据对营销系统用电量、缴费金额、缴费次数等数据进行整合转换,形成涉贫用电分析数据应用、脱贫户用电分析数据应用等。基于防返贫预警数据及推送数据应用,进行数据整合转换。制定数据档案库数据应用、涉贫用电分析数据应用、脱贫户用电分析数据应用、预警数据及推送数据应用整体数据清洗策略,形成标准化的数据格式用于数据展示及结构化处理。
结合应用场景需求,制定相应的数据安全规则,并根据规则进行数据脱敏、变形等低级数据安全处理[12],对全局传输的数据进行加密处理[13],保障数据的安全。结合低收入群体监测系统项目数据应用场景需求,为保障脱贫户数据、电力营销数据传输及展示的数据安全,对涉密字段如身份证、联系方式、电力明细数据等制定相应的数据安全规则,并根据规则进行数据脱敏、变形等低级数据安全处理,将数据档案库数据的人员信息进行脱敏处理;将涉贫用电分析数据的用电详情进行脱敏处理;脱贫户用电分析数据中用电详情进行脱敏处理;将防返贫预警数据及推送数据应用的敏感数据进行脱敏处理。
1.3 分析模型构建
1.3.1 分析模型设计
防返贫预警监测系统数据应用分析主题场景,结合需求分析结构,借助统计分析、数据挖掘等方法构建维度模型和指标模型,对业务需求进行抽象化表达,构建适用于本分析主题的算法模型。对脱贫户数据建模,涉及到模型设计的脱贫户用电分析数据应用、预警数据及推送数据应用。
1.3.2 构建脱贫户用电分析数据模型
如需持续跟踪脱贫户的经济、生活状况,用电行为数据是一个重要且实用的指标,判断一个脱贫户的用电水平与全省脱贫户未脱贫之前的日均电量以及脱贫后日均电量的差距、脱贫户一年之中欠费次数、缴费金额以及欠费停电时长可以反映出脱贫户的生活状况。
1) 设置脱贫户当年日平均用电量为M,脱贫之前日均电量为Np,全省脱贫户后10%、后20%的当年日均电量临界值分别为N1、N2,设置差距分别为E1、E2、E3,脱贫户去年日平均用电量为Q。
若E1<0,说明该脱贫户脱贫后的用电量比未脱贫之前的全省日均电量低,判定为脱贫户用电量异常。
若E2<0 且E1>0,说明该脱贫户脱贫后的用电量已经快接近湖南省脱贫户未脱贫之前的日均电量,判定为脱贫户用电量异常。
若E2≥0、E3<0 且M 2) 设置脱贫户当年欠费次数为M,欠费次数阈值Mth;月平均缴费金额为N元,平均缴费金额阈值Nth元。 若M >Mth且N 3) 设置脱贫户欠费停电时间为M,脱贫户缴费后复电时间为N,停电间隔S,阈值为Sth。 若S≥Sth,说明该用户欠费停电时长已超过阈值才恢复用电的情况,判定为脱贫户欠费停电复电异常。 基于上述脱贫户日均电量、停电缴费次数及金额、欠费停电时长三个维度电力大数据分析模型建立分级分类预警规则,依据“分类监测、分级预警” 的原则,确定监测内容、预警类型、预警频度及要求。根据三个维度分析模型设计5 条贫困户返贫预警规则。 ①规则一:欠费停电时间长。脱贫户欠费停电后,间隔阈值或阈值以上才恢复用电的情况,则判定为红色预警。 ②规则二:欠费次数多。根据脱贫户一年之中欠费次数和缴费金额来判断,欠费次数大于阈值同时缴费金额小于阈值时,则判定为红色预警。 ③规则三:日均电量处于全省后10%~20%区间,根据脱贫户当年累计日平均用电量处于湖南省脱贫户后10%~20%区间时,则判定为蓝色预警。 ④规则四:日均电量处于湖南省后10%区间。根据脱贫户当年累计日平均用电量处于湖南省脱贫户后10%区间,且大于贫困户日均电量时,则判断为黄色预警。 ⑤规则五:日均电量低于全省贫困户日均电量。根据脱贫户当年日平均用电量与全省贫困户日均电量的进行比较。如果当年日平均用电量小于湖南省贫困户日均电量,则判定为红色预警。 通过规则体系开展贫困户用电数据监测和分析,对潜在返贫风险的用电户,根据不同的用电异常程度分“红、黄、蓝” 三级预警,红色为最严重等级,黄色次之,蓝色则只代表需引起关注,通过数据中台与政府打通的专线通道,将预警数据脱敏后推送给当地政务云平台,为返贫监测提供持续且稳定的数据支撑。 提取2018 年底脱贫的贫困户2017 年的年日均用电量进行抽样数据验证,计算贫困户日平均用电量;提取株洲市2021 年1 月至5 月脱贫户,依据日均电量异常预警模型产生的预警户进行抽样调研,验证全省日均用电量后10%的脱贫户、湖南省日均用电量后20%的脱贫户模型阈值;提取株洲市脱贫户2021 年欠费停电时长数据作为样本数据,分析欠费停电时长的预警阈值;选取株洲茶陵县双泉村106户脱贫户作为调研对象,实地了解脱贫户的欠费次数以及缴费情况等信息,确定预警模型阈值。 ①选取2017 年株洲市的贫困户(选取日均用电量波动值小于1 kW·h 的用户) 作为样本数据。选取株洲市2017 年的年日均用电量波动值小于1 kW·h的贫困户作为样本数据,共计5 411 条,求取平均值为0.694 06,因此设定全省贫困户日均电量的阈值为0.7。 ②选取株洲市的脱贫户进行2021 年脱贫户10%、20%的临界值进行计算,株洲市脱贫户总数48 722 户,剔除0 电量用户计算见表1、表2。 表1 2021 年1—5 月湖南省脱贫户后10%临界户日均电量 表2 2021 年1—5 月湖南省脱贫户后20%临界户日均电量 ③欠费停电时长阈值计算。欠费停电时长设置阈值为48 h,从当前欠费停电时长来看,90%的脱贫用户欠费停电时长不超过1 h,考虑到人员临时外出情况,选取48 h 作为模型阈值。 ④欠费次数预警模型验证分析。根据株洲市贫困村实地考察调研,走访脱贫户以及多地扶贫办驻村工作人员的经验,了解欠费停电情况,脱贫户如因欠费停电无法缴纳电费的用户基本属于零散用工方式的劳动力人员,采用外出打散工几天获取报酬,一次缴纳电费10~50 元不等,每月一般出去工作3 次。因此欠费次数阈值为3 次,缴费金额阈值为20 元。 基于业务需求,根据脱贫户用电分析数据应用模型,监测出“红”、“黄”、“蓝” 三级预警数据,通过对三级预警数据的比对、核查,推算分析模型的准确性,并在不通过改变模型参数和模型结构的同时,通过多次随机提取样本数据计算出阈值,提升模型的精度、执行速度等,不断优化预警规则,保障监测模型的稳定性及监测数据的准确性[14]。 基于电力大数据分析模型构建的防返贫预警应用,对所供电范围内的脱贫户日均用电量所在区间、年累计缴费次数以及停电时长进行统计分析,对潜在返贫风险的脱贫户进行“红” “黄” “蓝”三级预警,总共向政府 “政务云平台” 输出预警信息3 118 条,其中红色预警数1 158 条。选取红色预警结果中326 户脱贫户作为验证对象,通过电话访问、实地走访考察等多种方式,调研其用户电量低、缴费次数多、单次缴费金额低的原因。其中用户电量低于贫困户日均电量0.7 的306户中,留守老人、外出务工、无人居住占比近65% (如图1 所示)。将306 户用电量划分七个用电量段(表3),分析其在各个电量段的占比,日均电量在0.1 kWh以下占比最高是脱贫户外出务工基本未用电原因外,其他电量段留守老人占比最高。 图1 脱贫户日均电量低于贫困户日均电量占比 表3 脱贫户日均电量低于贫困户日均电量统计户 另20 户为缴费次数多、单次缴费金额低导致红色预警,分析其社会原因,其中12 户因临时务工占比60%,另4 户为留守老人每次停电后再去缴费占比20% (如图2 所示)。 图2 脱贫户缴费次数多、缴费金额低占比 通过上述数据分析,经核实发现具有返贫风险的脱贫户3 户。其中一户预警原因为系统监测发现该户多次缴费且每次缴费低于20 元,核查该户主系突发情况至残导致返贫;另两户预警原因为日均电量低于湖南省贫困户日均电量,核查原因为主要劳动力之一生病致收入骤减。对此,政府将以上3户具有返贫风险的脱贫户纳入重点监测帮扶范围,提前采取针对性的帮扶措施,及时消除返贫风险,助力政府扶贫监管由全面普查转为重点核查,大大提升了监测效率。 本文研究基于电力大数据分析模型的防返贫预警监测应用,在国内目前已部署于湖南地区,并已拟定陆续向全国推广,防返贫预警监测应用具有低成本、高效率、易操作、可复制等优点,可为各地区的脱贫户、脱贫县市区、脱贫行政村防返贫提供分析与预警功能,为核实和消除返贫风险提供线索,为巩固拓展脱贫攻坚成果、建立长效帮扶机制提供决策依据,有助于有序推进与乡村振兴的有效衔接。1.4 基于数据分析模型构建防返贫预警规则
1.5 防返贫预警规则阈值计算
1.6 分析模型优化
2 防返贫预警数据结果验证分析
3 结论