卷积神经网络及朴素贝叶斯的评价评分与数据挖掘系统
2021-09-23彭冲
彭冲
(广东第二师范学院 广东省广州市 510000)
客户与摄影师在使用APP时会提出大量的意见和建议,并通过评价系统进行反映,然后利用人工进行分析。但是在分析时,会有速度慢、主观化、不全面等问题的出现,不利于意见和建议的有效反馈。因此,利用文本挖掘技术充分、高效地分析摄影师的服务情况、客户的自我体验感,既有利于摄影事业的发展,又能为客户提供高质量的摄影服务。同时,对摄影师的综合分析,是对于众多评价的集中反映,也是客户评论的一种整合。通过性价比、安全性、服务质量、位置距离和摄影风格这五个方面进行量化,判断分类后的评论情感倾向,得出相应的分数,对于客户来说能够对摄影师有更准确地判断。最后,通过量化后的评分,挖掘特色和亮点,能更好地帮助客户选择适合自己的摄影师。
1 摄影师和客户评论分类
1.1 数据准备
1.1.1 数据描述
数据来源于摄影师和客户两者的问卷调查,共有817个样本数据。
1.1.2 数据预处理
进行一系列去噪操作后,进行去除停用词、利用jieba库进行分词,然后利用Word2Vec进行词向量的构建,再进行分类。
在分类前,由人工对部分评论进行了五大类的划分,分别是性价比、安全性、服务质量、位置距离和摄影风格。基于CNN确实对训练样本中类别不平衡的问题很敏感,平衡的类别往往能获得最佳的表现,而不平衡的类别往往使模型的效果下降。所以各类随机分别标注了200条,保证了在深度学习的过程中,不会因为数据的采样不均衡而对模型的构造产生不利。
1.2 特征提取
在文本进入分类器之前,需要将文本转化为计算机能识别的数字形式,其中词向量是最普遍表现文本数字形式的方式。
词向量(Word Vector),也被称为词嵌入(Word Embedding)。从概念上讲,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间(通常是128或256维)中,每个单词或词组被映射为实数域上的向量。
Word2Vec是Mikolov等所提出模型的一个词向量训练工具,可以用来快速有效地训练词向量。Word2Vec包含两种训练模型,分别是CBOW和Skip_gram。文章使用的训练模型是CBOW,以期通过模型训练出评论的词向量。
1.3 建立模型
1.3.1 卷积神经网络
文章的分类器运用的是经典深度学习分类器:Textcnn。其主要包括五层:第一层是嵌入层,第二层是卷积层,第三层是池化层,第四层是全连接层,第五层是激活函数与损失函数。Kim的TextCNN语句分类模型如图1所示。
图1:Kim的TextCNN语句分类模型
模型共设计了两个卷积层,两个全连接层,卷积核尺寸[3,4,5],batch_size定义每次训练的批量数(整数型),两个模型分别为256、128,epochs指训练模型的次数,分别为66、82。validation_split即要用作验证数据的训练数据分数,两个模型都为0.1。
1.3.2 模型效果
文章对文本分类模型进行评价时,采用准确率(Accuracy)和损失率(Loss)来作为性能评价指标。
由图2、图3可知,通过模型的训练,摄影师评论和客户评论分类任务的整体准确率分别达到了98%、94%,同时模型的损失率也分别降到了0.18、0.14,可见经过数据预处理词向量构建的卷积神经网络的分类模型效果较好。
2 摄影师及APP评论综合评价
评价指标体系:
2.1 评价原理
SnowNLP是一个分析文本情感的工具。在利用SnowNlp进行情感分类时,是通过返回值的大小判断情感是趋于正面还是趋于反面。返回值情绪的概率越接近1表示正面,越接近0表示负面。
SnownNlp的情感分类基本模型是贝叶斯模型。在SnowNlp进行情感判断的过程中,首先进行数据预处理,然后读入正样本和负样本,并对于读入的文本进行分析,最后得出情感评分([0,1])。
朴素贝叶斯是基于贝叶斯决策的分类方法,是使用条件概率来分类的。假设有一个二分类问题,分A1类和A2类。假设样本有两个特征x和y,则需要分别求解条件概率P(A1|x,y)和P(A2|x,y)。而P(Ai|x,y)可以表述为:
由于特征之间是相互独立的,所以P(x,y|Ai)=P(x|Ai) P(y|Ai)。如果P(A1|x,y)>P(A2|x,y),那么属于A1类;如果P(A1|x,y)
2.2 评价分级
基于SnowNlp计算的评价情感倾向结果得分在[0,1]之间,将情感得分转换为5分制的评价等级得分,相应为:SnowNlp得分[0,0.2]对应5分制得分[0,1],以此类推SnowNlp得分[0.8,1]对应得分[4,5]。
图2:摄影师评论卷积神经网络模型准确率图
图3:用户卷积神经网络模型准确率图
2.3 评价结果
衡量本次评价结果用的方法是计算结果与实际评分之间的均方误差(Mean Squared Error)来对模型进行评价。
均方误差是指参数估计值与参数真值之差平方的期望值。MSE可以评估数据的变化程度,MSE的值越小,说明预测描述实验数据具有更好地精确度。
摄影师评价模型的MSN评价结果如下:
APP评价模型的MSN评价结果如下:
两个基于卷积神经网络搭建的模型在经过数据预处理、人工标注的数据验证以及MSE检验后,得到了不错的效果,两个模型的均方误差均小于0.2,与参数真值拟合较好,说明模型具有实用性和真实性。
3 摄影师及APP的特色分析
3.1 评分详情
根据SnowNlp情感分析的分数,得出的摄影师与APP总得分的分布情况。我们根据得分的高低分把APP和摄影师分为三个层次:
高层次:4.5分以上:中层次:4.0-4.5分:低层次:4.0分以下。
摄影师与APP各层次分布比例为:摄影师总评得分分布高层次占30%,中层次占42%,低层次占28%。APP总评得分分布高层次占50%,中层次占44%,低层次占6%。
3.2 结果分析
3.2.1 摄影师评分
在摄影师方面,通过对某些位置的客源、环境、交通等方面的数据进行分析,可以得出对于摄影师而言的最佳流动位置。
例如:摄影师A30在以老虎、长颈鹿、大象等动物为主要欣赏对象的景点有较好的发展前景,该区域深受小孩子欢迎。交通便利,地铁直达。服务态度好,动物种类多,还有动物模型、电子互动游戏等配套设备。摄影环境好、绿化带大、空气较清新。总体来说,该摄影地性价比高,值得进行摄影师及设备的普及。
3.2.2 客户及APP评分
模型将性价比、安全性、服务质量、位置距离和摄影风格这五个方面数据进行分析处理。在性价比方面,客户倾向于在30-40元区间的摄影价格。在安全性方面,客户多偏向于从评分与摄影接单数来判断一个摄影师的安全性。在摄影风格方面,客户偏向于清新自然的风格,对摄影师的修图技术要求不高。经筛选,客户在城区、著名景区、特色建筑等区域流量大、需求高,对摄影师的需求量较高,对APP的评价喜欢程度较高,具有普及价值。
4 总结
文章基于卷积神经网络模型和朴素贝叶斯模型解决了摄影师与客户在APP上的评论分类、评分、文本有效性等问题。通过合理的模型搭建以及在原数据集的基础上进行合理的人工标注,使模型贴近真实值,基本实现了原先设立的目标。