APP下载

基于文本挖掘的客户投诉工单处理系统设计与应用

2022-07-08孔令琪陈新民

江苏通信 2022年3期
关键词:工单结构化分类

王 腾 袁 萍 王 璞 孔令琪 陈新民

1.中国电信股份有限公司江苏分公司;2.浙江省公众信息产业有限公司

0 引言

为加快推进网络强国、数字中国的建设,践行“以客户为中心”的服务理念,全面实施云改数转战略,通过对客户投诉行为的分析提炼,了解客户的负面感知,精准预警客服热点问题,精确修复客户不满意因素,全力提升客户满意度,已经成为运营商客户服务的一项重要工作。

投诉是服务问题的重要反馈窗口,一般由话务员通过语音应答进行处理,而语音记录具有占用大量存储空间、难以通过语义识别进行批量归类与分析的问题,导致实际应用中不能通过全量工单分析来精准预警客服热点问题。随着语音识别技术在客户服务领域的广泛应用,投诉处理录音转换成了文本形式的投诉办结单,解决了工单存储问题,但工单的归类仍然停留在由话务员一单一单地进行人工处理的阶段,具有以下三大不足:(1)受话务员业务能力、理解能力、责任心等主客观因素影响,归类准确度难以保证;(2)话务员手工点选办结原因,每单平均额外耗时约69.8 秒,降低了工单处理效率;(3)语音转换成的文本,在实际生产工作中没有得到充分使用,一定程度上浪费资源。

本研究旨在探讨建立一套系统,利用文本挖掘技术和机器学习等人工智能的方法,挖掘客户投诉热点,对产品、套餐和营销活动进行服务预警,对客户不满意因素进行精准派单修复。

1 系统流程与功能设计

系统设计的关键点就是要通过文本挖掘技术对投诉办结单的语意进行精确识别、精确归类并最终应用于解决客户服务中的热点问题。

首先,要对投诉办结单进行智能分词,并结合专有名词、社会用语形成通用的热点词库,再通过模型训练将热点词库转换成规范的投诉工单六级分类,之后,根据生产应用过程中的实际情况,通过设定预判规则,分析形成投诉热点问题,最终将这些热点问题进行预警、派单与统计。系统总体设计如图1 所示。

图1 系统流程总体设计图

1.1 投诉热词采集

电信运营商在运营过程中会产生大量的数据,这些数据以结构化的形式存储在各类运营系统的数据库中。电信投诉工单中也包含着大量的信息,这些信息多为用户语言表述,以语音转文本的非结构化形式记录在投诉处理系统中。要对投诉工单进行准确分类与应用,就要结合结构化数据对非结构化文本进行文本挖掘。文本挖掘的过程,首先要对文本进行分词,再利用模型反复训练,形成有效的热词库。

一是对知识库系统、BSS 销售品系统、VSOP 增值业务系统等电信运营系统中的专有名词进行提取,主要包括产品名称、套餐名称、营销活动名称等,如5G 畅享融合399 元套餐、橙分期5G 终端让利/200 元/24 个月-202009 等。

二是从百度、搜狐、谷歌等搜索引擎中捕获出适用于电信行业常用的服务、行为、心理等社会用语,如AI、5G、区块链、机器人、工业物联网、云服务器、产业智能化、电信诈骗、AI 反诈、AI 换声等。

电信专有名词和社会用语都属于结构化词汇,形式与内容一定时期内都相对固定。

三是对历史投诉工单进行智能分词。客户的自然表述是非结构化的,其中有方言、有俗称、有俚语,甚至还有情绪化表达,这就需要从文本中将词汇分离出来,再进行反复机器训练使其成为结构化热词。

为了适应不同的词语性质在算法中占有的权重不同,将对词库进行结构化分类,分为三主四辅。主运营词库:电信专有名词、同义词、停用词。扩充词库:销售品名词、地点名词、机构名词、人员名词。

1.2 投诉分类与打标

投诉的分类有两种,一种是按投诉现象进行分类,根据客户描述的现象分类后派往相关单位进行处理;一种是按投诉原因进行分类,这是对处理好的投诉找出具体原因后进行的分类,更有利于促进源头整改。我们要探讨的就是这种分类。

目前,中国电信的投诉原因分类是六级2104 条。其中,第一级投诉分类有移动业务、宽带业务、固话业务、智慧家庭、物联网、翼支付、互联网及增值业务、电子渠道、ICT、用户权益与关怀、信息安全及专项、5G 业务、其他。以第一级分类的5G 业务为例,第二级分类有个人移动业务、家庭业务、政企业务。以第二级分类的个人移动业务为例,第三级分类有网络质量、业务开通/退订、基本费用争议、增值业务费用争议、规则政策类、流量服务、营业厅/代理商渠道服务、终端。部分三级分类之后还有四级、五级、六级分类,不一一详述。

1.3 投诉热点分析、预警与派单

根据投诉管控的需要,在系统中建立多维度的分析、预警和派单功能。从时间维度可分为日、周、月、季、年等任意周期;从业务角度可按照统一的投诉目录,在移动业务、宽带业务、固化业务、增值业务等一级目录下,细分到第6 级共2104 个业务小类,为了便于聚类分析,日常多用第三级目录进行监控展示和预警;从地域和单位角度,既可以按照责任单位分类(分公司、省直属单位/专业公司、省公司、集团公司等),也可以按照用户归属地分类(全省各地市),必要时还可细分到区县;从投诉关键指标角度可分为省内投诉、集团投诉、省管局申诉、工信部申诉、有效申诉、5G 申诉等。全省相关部门和单位均可按需自主多维度查看和查询有关数据及其对应的投申诉清单。

系统会根据设定的预警条件按绿、橙、红三个级别进行预警,并可通过发送短信派单到相关人员,提示需重点关注,及时采取有效措施解决问题。

2 基于文本挖掘的工单处理模型设计

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。首先利用切分技术,抽取文本特征,将文本数据转化为能描述文本内容的结构化数据,然后利用基于leader-follower 算法的文本增量聚类技术、基于逻辑回归的文本分类技术和关联分析等数据挖掘技术,形成结构化文本,并根据该结构发现新的概念。

(1)文本挖掘的流程

系统建设过程中的文本挖掘过程由投诉分类、模型训练和生产应用三个阶段构成,如图2 所示。

图2 文本挖掘流程图

(2)投诉分类梳理过程

电信运营商依托完善的客户投诉处理流程积累了大量的数据,并对非结构化的数据进行了结构化数据标注。依托着电信集团的投诉原因分类,快速便捷地完成算法分类标签的设计以及人工分类样本的提供。结合指定规则进行样本的初步处理,去除无意义的或分类有误的数据,形成可以供算法学习的训练样本集。

(3)模型训练的流程

首先,进行数据的准备,以投诉六级分类为基础选取过去半年内有用户相关投诉的891 个分类作为投诉模型的标签。模型训练样本选用六级分类下的83599 条投诉工单中的80%作为训练集。

其次,进行文本的预处理。中国电信的投诉原因分类涉及2104 个小类,业务覆盖十分全面,在这些分类中有投诉的热点分类,也有投诉量发生比较少的分类,从图3 可知,选取的三个分类的训练样本的数量呈现出明显的分化。

图3 样本不平衡示例

类不平衡的情况易造成模型无法正确地判别产生投诉量比较少的分类。本课题中,数据选择过程会采用smote 算法这种过采样技术来处理训练样本在训练集中的类别分布不均的情况,解决不同投诉分类学习样本差距过大的问题。根据预定的分词过滤逻辑进行文本分词处理,对文本进行过滤停用词,计算同义词,提取电信专有名词等一系列操作。

最后,采用贝叶斯加权平均算法建立模型,对处理过的内容进行算法的自动计算,特征向量的提取。计算出词频(TF)、逆向文档频率(IDF)以及分词对各个分类的贡献度TF-IDF 值。以5G 业务为例,其模型分类规则如图4 所示。

图4 模型分类规则示例

模型训练结束后,采用逻辑回归的思想进行分类模型的预测,使用训练集中的未参与训练的20%的数据进行模型的检测,以评估模型训练质量。

3 基于文本挖掘的工单处理模型实现

系统中算法的实际应用场景主要包括模型的使用、模型准确度测试以及模型的运营和优化。

模型经过初始的评估达到上线标准后,还要经过实际应用场景的测试。算法模型在客户投诉处理的闭环流程中每日为1300 多个投诉工单进行分类自动标注,一线话务员可以对标注错误的投诉分类进行人工修改,从而达到了为一线话务员减负、提升运营效能的目标。同时这些新的业务数据为算法的自动学习提供了新的学习语料,为算法模型提供了基础的优化运营。

良好的技术应用离不开完善的运营策略,系统在算法模型的优化运营上做了相关的研究。算法模型运营初期,算法的准确率维持在50%左右,经过一系列的运营优化过后达到了80%以上的标注准确率,在每日出现频次超过10 次的分类条件下,准确率达到了每日保持在90%以上的效果。模型的优化过程如表1 所示。

表1 模型优化流程图

4 结束语

本系统通过文本挖掘模型,实现了客户投诉工单中的非结构化数据文本的自动分类,并应用于投诉热点分析、预警与派单。为进一步提升模型准确率,还可以从样本、工具和算法3 个方面对模型进行不断优化,运营商也可以建立一套有效的运营机制,加强工单错误分类的人工分析力度,不断调整,实现更高水平的人工智能,更好地服务客户。

猜你喜欢

工单结构化分类
客服工单监控技术的开发与研究
高职院校计算机类专业“工单制”教学的研究与探索
分类算一算
基于RPA技术的机器人在配网调度工单发布工作中的应用
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
基于分布式数据库Cedar的高效工单管理系统设计与实现
教你一招:数的分类