基于NLP的文本挖掘技术在提升电信客户满意度中的应用
2023-05-24关志广程乔
关志广 程乔
摘要:为了充分挖掘非结构化数据蕴含的信息价值,文章介绍了基于自然语言处理的文本挖掘技术,从原理到实践进行了探究。以电信运营商移动网络客户的体验与口碑为导向,利用文本挖掘技术在互联网舆情分析和客服部门投诉工单分析等方面进行探索,给出了基于非结构化文本数据的信息分类与呈现的方法,从而更好地聚焦客户需求和网络问题,支撑网络维护与优化工作,提升客户满意度。
关键词:文本挖掘;自然语言处理;结构化数据;舆情;投诉
中图分类号:TP391文献标志码:A
0 引言
对电信企业而言,客户网络体验好坏是影响网络口碑的重要因素,如何高效改善客户网络感知是当前迫在眉睫的问题。在相关的工作经历中发现,客户通过客服系统反馈的投诉工单以及在社交媒体发表的言论是其反映网络问题的主要渠道,较为真实、可靠地反映了客户对网络的真实体验。但其中更多的是以非结构化数据的形式存在,难以有效地利用起来。此类数据日积月累,形成了一个潜在的体量庞大的信息资源。因此,深入探索文本挖掘技术,在客服投诉工单与互联网舆情等方面进行辅助分析,将有助于发挥更多的数据价值,以指导客户满意度提升工作,维护企业良好的网络口碑。
1 文本挖掘技术
文本挖掘技术包括了自然语言处理(Natural Language Processing,NLP)、信息抽取、数据挖掘等技术[1],可以对非结构化数據进行处理,从中抽取潜在的、客户感兴趣的重要信息,是一个将非结构化数据转化为构化数据的过程。
一般而言,要实现文本挖掘的分类应用主要有以下几个过程:首先,根据人工识别设定的标签体系对样本进行分类标注,构建模型训练集;其次,运用文本分类工具进行文本分词及预处理,抽取文本特征,将文本数据转化为能描述文本内容的结构化数据;再次,基于朴素贝叶斯算法自动计算特征向量和分类贡献度(TF-IDF值),输出形成分类规则表构建模型[2];最后,利用分类、聚类和关联分析等数据挖掘技术根据该结构发现新的概念,获取相应的关系。
目前有多种开源文本分类工具,比如,TextGrocery,OpenNLP,Weka,GATE等。TextGrocery是一个基于Lib Linear和Jieba分词的短文本分类工具,其特点是高效易用,同时支持中文和英文语料。本文在Python环境下使用TextGrocery对文本进行模型训练,基于训练好且准确性高的模型对工单的投诉内容进行智能分类。
1.1 自然语言处理
2 应用案例
2.1 客服投诉工单文本挖掘
基于NLP的文本挖掘技术可以构建非结构化数据的文本分类模型,实现对海量的客户投诉工单文本的自动分类,并将分类结果结合投诉位置信息形成对应类型的客户投诉位置地理化打点图,方便网络优化工程师聚焦处理某类网络问题所引起的大量客户投诉。
在训练文本分类模型之前,需要人工对典型性的归属于网络侧的投诉工单回复文本打上分类标签形成模型的训练集,其标签为弱覆盖、干扰、故障告警、高负荷四大类。利用Grocery工具基于训练集进行建模和训练,通过对数据集的处理和模型参数调优,使得输出模型的准确性在80%以上。使用训练好的模型对待分类的工单文本进行分类分析,获得了网络问题分类结果,再通过地理化的问题打点,很容易看到大量的客户投诉实际只聚集在为数不多的区域——比如龙胤凤凰城住宅小区,这便是关注和处理的重点。对归属于网络弱覆盖问题且投诉量较多的龙胤凤凰城住宅小区优先开通新基站后,结合MR数据分析得知,相关区域的网络弱覆盖率得到改善,客户网络体验得到进一步提升。实现文本分类应用的Python核心代码及模型输出的网络问题分类结果如图1所示。
2.2 互联网舆情文本挖掘
利用网络爬虫提取网络媒体如论坛、贴吧、微博等互联网上的舆情数据,通过文本挖掘技术对舆情数据进行智能分类与分析,得到与电信企业相关的舆情动态。将舆情分析的结果关联网络性能指标与业务感知数据,按优先级、影响程度等指导移动网络优化工作。
互联网舆情数据采集主要通过部署爬虫收集器获得[3]。以“广西大学吧”贴吧舆情数据爬取为例进行说明:入口地址为http://tieba.baidu.com/f?kw=广西大学&ie=utf-8&pn=0,该页面包含发帖客户ID、发帖时间、发帖内容、回复人数等信息,分页采用50个帖一页的传统分页,具有典型性。HTML文档属于描述性结构,对爬取到的HTML文档提取有效信息可以通过网页源代码标签解析来限定期望提取的内容。
笔者前期已经从大量与网络相关的历史投诉信息中,分析整理网络感知体验差的关键词并构建关键词库。部分负面舆情关键词和语义分类如表1所示。
基于定义构建的舆情关键词,使用文本挖掘技术建立分类应用模型,对舆情数据进行语义关键词提取并依此归类整理、可视化输出,以进一步筛选提炼与疑似网络类舆情相关的内容[4]。通过对集中度高、重要性高的网络舆情内容分析得知,广西大学宿舍区域存在较多的与上网类相关的负面舆情信息,如表2所示。
结合所涉及的电信运营商移动网络基站话统数据分析,核实了基站负荷过高导致的视频卡顿率、游戏卡顿率恶化的情况,与舆情所反映的情况相符。对相关基站小区进行设备扩容以及多载波间负荷均衡优化后,网络负荷得到缓解,业务卡顿现象改善明显。
3 结语
本文的研究表明,基于自然语言处理的文本挖掘技术可以充分挖掘出电信企业客服投诉工单,网络舆情之中非结构化数据蕴含的信息,并且利用这些信息进行分类探究,可以更好地了解客户需求,指导相关网络感知提升工作的开展,助力提升客户满意度。
通过文中的应用案例可以看到新技术带来的优势,人工智能必然会渗透到各领域的实际生产中,带来不可估量的价值。然而,在此种分类应用的研究和使用中,我们也发现了一些问题和不足,例如,模型准确率有待提高、功能相对单一等。后续可以在分类算法的优化方面下功夫,引入聚类、情感识别等方面的改进,不断提高数据向价值的转换效率。
参考文献
[1]张乐,唐亮.人工智能时代语言学家面临的机遇和挑战[J].电脑知识与技术,2020(24):195-197.
[2]刘怀亮,杜坤,秦春秀.基于知网语义相似度的中文文本分类研究[J].现代图书情报技术,2015(2):39-45.
[3]肖良玉.爬虫技术在互联网领域的应用[J].数码世界,2017(12):548-549.
[4]史瑞芳.网页正文信息抽取新方法[J].通信世界,2015(19):210-211.
(编辑 傅金睿)