APP下载

应用于电力客服中心的地址实体提取方法

2021-01-12

探索科学(学术版) 2020年8期
关键词:街道

国网客服中心南方分中心 江苏 南京 210000

1 前言

电力客服中心承载着受理电力用户故障报修、业务咨询、服务申请、投诉举报、意见建议等工作。经统计,目前电力服务行业中,客户能够直接提供户号的比例在50%左右,有近50%的客户无法提供户号信息,客服专员只能通过地址等信息进行再次查询,而地址是查询停电信息、历史报修记录、派发供电单位等主要依据。同时,在服务问题分析定位中,需要对某类问题高发的区域进行提取,那么同样要对地址进行统计。实际应用中,为了便于地址之间做匹配,需要将客户地址中的“村、小区、街道、路、单位/公司名称”等实体信息提取出来,从而提升匹配的成功率。在这一背景下,我们研究了一种地址实体提取的方法。

2 地址实体提取方法简介

地址信息的提取不光在电力客服中心有着重要的应用,在其他行业也有着相关应用。随着电子地图的发展,地址在人们生活中的作用越来越重要,将大量的中文地址转化为地理坐标,并定位到地图上,从而实现空间与非空间数据的整合[1]。在地址分析方面,也涌现出了很多方法,比如在《基于规则的中文地址要素解析方法》论文中,通过构建各类地址要素特征词库,利用地名词典和特征词库来解析地址[2]。《基于自动机分词的中文地址地理编码技术研究与实现》中提出了利用中文地址的自动机的中文分词算法等等[3]。以上方法的分词准确率还有待进一步提升。本文的优势在于在结合电力行业客户地址特点的基础上,形成本行业内特有的地址库和“切点库”从而有利于提升地址实体提取的准确性。

3 本文方法

(1)规律总结。对电力服务中客户提供的地址进行了特点总结,共总结出“X省”+“X市”+“X区/县”+“X乡/镇”+“X村”、“X省”+“X市”+“X区/县”+“X街道/社区”+“X路”+“X小区”+“X号/幢/#/-X(门牌号)”等17种地址模式。

地址特点总结(举例)现场地址 地址特点陕西省渭南市临渭区三张镇张毛村 标准的“X省”+“X市”+“X区/县”+“X乡/镇”+“X村”陕西省咸阳市秦都区人民西路49号芙蓉佳苑小区8-2-201标准的“X省”+“X市”+“X区/县”+“X乡/镇”+“X村”陕西省延安市黄陵县腰坪乡建庄村 标准的“X省”+“X市”+“X区/县”+“X乡/镇”+“X村”陕西省西安市蓝田县三里镇杨坡头村二组标准的“X省”+“X市”+“X区/县”+“X乡/镇”+“X村+X组”陕西省西安市高陵县耿镇苏家村 标准的“X省”+“X市”+“X区/县”+“X乡/镇”+“X村”陕西省安康市汉滨区老城街道鼓楼社区兴安东路北医大小区3号楼-2-303标准的“X省”+“X市”+“X区/县”+“X街道/社区”+“X路”+“X小区”+“X号/幢/#/-X(门牌号)”陕西省西安市未央区凤城三路东段888号颐和郡小区6-1-1801标准的“X省”+“X市”+“X区/县”+“X路”+“X号”+“X小区”+“X号/幢/#/-X(门牌号)”

(2)具体方法。鉴于电力客服中心的客户地址具备一定的结构性,区别于传统的完全基于地址库匹配方式的地址分词算法,本文采用前三级地址用地址库+后级地址进行“切点”分词的方法,进行地址中的实体信息提取。

前三级地址采用地址库匹配方法主要原因为,前三级地址涉及省、市、县/区,该部分信息在国家统计局官网中即可获取,容易组成地址地名库进行匹配,匹配成功率高。后级地址采用逐词搜索办法,主要原因是客户提供信息差异化较大,地址地名库不够完善,匹配率低,因此通过将地址中“切点”找出进行分词的方法进行实体信息提取。常规切点主要指的是“镇/乡、组、街、路、大道、弄、小区、村”等信息。

利用VBA编写代码,前三级地址与地址库逐级匹配,后几级主要通过关键词进行截取,从而提取出“小区、村、街道”等末级信息。

3 实际应用

(1)停电信息检索。将客户地址信息中的“村、小区、街道、路”等信息提取出来,后台系统自动实现与停电信息中停电影响范围中的地理信息对比,从而实现停电信息的自动化检索,为节省人力提供了有效支撑。

(2)频繁停电区域定位。通过对反映频繁停电问题的客户地址进行提取,最终定位频繁区域,为电网质量改善提供了支撑。

以上方法对电力客服中心工单地址实体信息的有效提取率达到90%以上,有效支撑了业务受理和数据分析工作。

猜你喜欢

街道
适合骑行的“慢行街道”正如何改变着城市
热闹的街道
风居住的街道
街道生活
街道维修工(外四首)
打造街道人大工作新常态
春·街道
风居住的街道
热闹的街道
这些欧洲街道最值得一去