基于机器学习模型的客服短文本分类技术研究
2023-10-20朱倩倩董秀萍
李 艳,朱倩倩,董秀萍
(1.兰考三农职业学院信息工程系,开封 475300;2.郑州科技学院信息工程学院,郑州 450000;3.开封大学电子电气工程学院,开封 475000)
0 引言
传统的人工客服全天候为市民提供问题咨询、登记、建议和转发处理等热线服务。随着信息技术的飞速发展,市民咨询、求助的数据也在急速增长[1],人工客服如何快速、准确分类用户反馈的需求,并转发相应的部门是一个等待解决的问题。为了提高客服人员的工作效率,要求对客服人员登记的信息进行分类,方便下一步转发处理,势必需要融入各种新技术。
目前随着机器学习算法研究的逐渐深入,文本分类的方法也在不断优化,并且应用于电力领域[2]、石油化工行业[3]等。
本文以某公司登记的用户问题为研究数据,对比多种机器学习分类模型,以帮助客服自动分类用户反映的问题,准确进行文本分类和识别。
1 基于机器学习模型的文本分类方法
短文本分类[4]是自然语言处理(NLP)中的基础任务,原理是将文本内容根据一定的标准划分为一个或多个类别的过程,本文是根据已有类别标签的用户问题文本集合,训练学习得到该文本特征和类别标签之间的关系模型,然后利用这种关系模型对用户反映新问题进行分类。现针对本文实验过程中使用的算法,如线性支持向量机、KNN、朴素贝叶斯和随机森林做详细介绍。
1.1 线性支持向量机
支持向量机(support vector machine)[5-6]是短文本分类中最常见的一种模型,同时也可以做回归。支持向量机通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,故在解决小样本、非线性实际问题时具有一定优势。该模型在特征空间上找出最优间隔分离超平面,最终转化为一个凸二次规划问题的求解。
1.2 朴素贝叶斯
朴素贝叶斯分类法是Lewis[7]提出的一种用于文本分类任务的算法,主要分训练阶段和测试阶段,在训练阶段,根据训练数据计算先验概率(似然度);在测试阶段,根据输入的特征计算后验概率;而学习的过程就是不断提高似然度的过程。朴素贝叶斯的优点是具有较高的独立性,分类所需要估计的参数少,对于缺失数据不敏感。
1.3 随机森林
随机森林的算法原理是以若干个决策树[8]为基分类器创建了一个森林,并使它拥有某种方式随机性,最终的结果由每个决策树结果投票得到。所构建的“森林”大部分时候都是用“Bagging”方法训练的[9]。Bagging算法对特征选择与特征降维具有较好分类效果,它采用随机、有放回的选择训练数据,并组合学习构造的分类器,进而增加整体的效果。
简而言之:随机森林建立了多个决策树,并将它们合并在一起以获得更准确和稳定的预测。随机森林的一大优势在于该模型既可用于分类,也可用于回归问题。
1.4 KNN算法
K 近邻法(K-Nearest Neighbor)是假设一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别,则该样本也属于这个类别,进而以其实现预测分类[10]。
2 实验结果与分析
2.1 实验数据
本实验的数据集为某公司客服在2012—2018 年收集的用户登记的问题信息,共有371120 条数据。每一个信息包含78 个属性,总体拥有78 个大类信息和249 个小类信息。借助第三方工具统计所得的数据信息如图1所示。
图1 数据集
根据研究需求,本文只选用了每条信息中的大类属性、小类属性、投诉内容三条属性信息。并且将数据划分为训练集和测试集,其中70%的数据作为训练集,30%的数据作为测试集,类别属性作为标签。
2.2 文本向量化
2.2.1 数据预处理
为进一步提升分类效果,训练模型前本文需要对原始数据进行预处理,主要包含:分词、去停用词等。
(1)分词。文本类型为英文的句子容易分割单词,而中文需要借助一些工具来完成分词处理,本文借助jieba来进行分词。
(2)去停用词。根据研究需求制作特定的停用词词典,并将其导入进行数据清洗,剔除语气词、介词和助词。
2.2.2 特征提取
在本文研究中主要使用TF-IDF 和HashVectorizer两种文本向量化方法。
(1)TF-IDF 算法[11]是评估一个特征字或者单词对一个语料库中一份文本的重要程度。某个特征字或词的权重与它在文件中出现的频率成正比,但与它出现在语料库的次数成反比。
词频(term frequency,TF)表示语料库中某个单词在当前文本出现的频率,词频的高低代表特征词的重要程度,其计算公式如(1)所示:
其中:ni,j表示单词ti在文本dj中出现的次数,表示所有词在文档dj中出现的总次数。
逆文档频率(inverse document frequency,IDF)主要指的是特征词语的逆向文件频率,一些特征词对主题没有太大作用,所以在设计权重时不能只考虑TF,而是将最能预测主题的特征词赋予较大权重。IDF 权重越大,说明该特征词的重要程度也就越高。其计算公式如(2)所示:
其中:D表示训练集总文本数,|Di|表示含有特征词的总文本数。
TF-IDF 算法是TF 算法与IDF 算法相乘,其权重计算公式如(3)所示:
(2)HashVectorizer 是一种快速且空间利用率高的特征向量化方法,即将任意特征转换为向量或矩阵中的索引。它通过对特征应用散列函数并直接使用特征的散列值作为索引来工作。具体思路:对应任意一个特征名,利用Hash 函数找到与其对应在哈希表的位置,然后将特征名对应的词频统计值累加到该哈希表位置。HashVectorizer 与TF-IDF 相比节省内存,也更快,故适用于处理大规模的文本数据。
2.3 实验结果及分析
2.3.1 模型评估
本文用的模型评估方法为精确率(Pression)和召回率(Recall)。精确率(Pression)指正确模型预测为正的占全部预测为正的比例;召回率(Recall)又称查全率,表示分类结果是正确的时候由算法预测正确的是多少。
2.3.2 实验结果分析
(1)根据不同年份的大小类数据对比不同机器模型的分类效果
基于TF-IDF 的特征提取方法,本实验分别在2012—2018 年的大类和2012—2018 年的小类数据集上验证多种分类模型的分类效果,结果如图2和图3所示。
图2 基于不同模型在小类数据上评估的结果
图3 基于不同模型在大类数据的评估结果
由图2和图3可以看出,基于TF-IDF的特征提取方法,分别用每年的大类数据和小类数据去评估多种机器模型,在大类的效果要优于小类的评估结果。从分类结果可以看到,效果并不理想,那么除了分类算法的选择外,对结果影响最大的可能是特征的选择,即向量化方法的选择。
(2)将向量化的方法换为哈希向量算法(HashingVectorizer), 选用梯度下降算法(SGDClassifier),所得结果如图4所示。
图4 基于SGDClassifier在大小类数据的分类评估
图4 对比图3 和图2,利用哈希向量进行提取特征,效果优于利用TF-IDF 提取特征。以上都是基于每年的数据分开进行评估,为进一步评估当前模型,取全部数据在此模型测试,数据量小的类别,几乎很难达到60%的Precision,经过分析得出是由于数据不平衡所致。
为验证上面的分析,本文将数据量中的小类别按照一定规则进行切分处理,将符合数量条件的小类组成一个新数据集进行测试,分出的数据集之中,数据量小于100 条、小于200条、小于300 条的小类数据集,以及数量小于1000的小类数据集,未达到60%的Precision。
(3)基于HashVectorizer,在不同模型上对2014—2018 年的全部数据进行测试,得到的结果见表1。
表1 不同模型的评估
由表1 的评估结果可以看出,LinearSVC 模型的分类效果优于SGDClassifier,进一步提升了分类的精准率。
3 结语
科学和准确的信息分类技术对于提高客服人员的工作效率有极大的帮助。有效满足人工客服快速、准确分类用户反馈的需求,并转发相应的部门是一个等待解决的问题。本文在真实数据集上对比多种机器模型,从而找到最优模型。但是用户反馈的问题中词语少,提供的有效信息有限,为进一步解决这个问题,下一步将考虑基于某种规则改进分类过程,优化改进模型,从而提高分类效果。