APP下载

基于MKL-SVM的网络购物评论分类方法

2012-04-29胡瀚

计算机时代 2012年4期
关键词:文本分类

胡瀚

摘要: 购物网站在线评论系统收集了大量的顾客评价。支持向量机(SVM)是一种有效的文本分类方法,可以用于跟踪和管理顾客意见,但是SVM存在训练收敛速度慢,分类精度难以提高等缺点。文章提出利用异质核函数性的不同特性,解决支持向量机(SVM)数据泛化学习能力弱的问题,提高SVM的分类精度,通过对顾客购物评论进行分类,解决购物网站海量顾客评论分析的问题,帮助企业及时进行顾客反馈,提升服务水平。

关键词: 网络购物评论; 文本分类; SVM; 多核学习

中图分类号:F406.2文献标识码:A 文章编号:1006-8228(2012)04-43-03

A classification method of online reviews based on MKL-SVM

Hu Han

(Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)

Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVMs problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.

Key words: customer review; text classification; SVM; multiple kernel learning

0 引言

购物网站都建立有顾客评论系统,收集顾客对于商品及网站服务的体验感受。由于购物评论表达形式繁杂、内容随意、句型多样,给企业有效跟踪和管理用户评论意见,带来了很大的难度。

文本分类(text categorization)应用分类函数或分类模型,把文本映射到多个类别中的某一类,使检索或查询的速度更快,准确率更高。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛的应用。主要分类方法有:贝叶斯、决策树、支持向量机(Support Vector Machines, SVM)、神经网络、遗传算法等。其中SVM通过分隔面模式摆脱了样本分布、冗余特征以及过度拟合等因素的影响,具有很好的泛化学习能力[1]。但是SVM存在训练收敛速度慢,分类精度难以提高等缺点。

核函数是SVM解决非线性问题的方法,受限于单个核函数性能,使得SVM泛化学习能力有限,分类精度难以提升。多核学习(Multiple Kernel Learning,MKL)利用对同质(homogeneous)或异质(heterogeneous)核函数优化整合,提高了SVM的学习能力和泛化性能。在处理大量异质数据时,MKL具有很好的灵活性,且分类结果更清晰,便于解决现实应用问题[2],但MKL涉及较多的相关参数的优化。对MKL研究目前主要集中在图像识别领域[3,4]。本文通过校准算法确定MKL异质核函数的优化权系数和核参数,建立基于多核学习的支持向量机(Multiple Kernel Learning SVM, MKL-SVM)文本分类模型,提升SVM在评论分类中的应用效果。

1 MKL-SVM方法描述

1.1 SVM核函数

SVM是基于统计学理论中的结构风险最小化原理,具有高泛化性能的通用学习机。设分割面,样本集线性可分时,SVM通过一个分割超平面,把训练样本点分类,使两类训练点到分割面的最小距离之和分类间隔(margin)最大[5]。分类间隔margin=2/||ω||,使间隔最大等价于使||ω||2最小。最优分类面的求解可以转化为优化问题:

s.t.

利用Lagrange优化可将上述问题转为其对偶问题:求解下列函数:

max:

s.t.和。

最优分类函数是

上述式中a:为Lagrange非负乘子

将低维的输入空间数据通过非线性映射函数映射到高维属性空间,输入空间线性不可分问题在属性空间将转化为线性可分问题。这种非线性映射函数称之为核函数[6]。设x在χ对应一个映射到高纬空间,φ(x)为核映射函数,K核函数为,,SVM寻找的超平面胃。此时目标函数变为:

考虑最大分割和训练误差,优化公式为:

s.t.

1.2 多核学习

设函数集合M由多个核函数K1…Km组成,核函数对应的映射函数是φ1…φM。MKL[7]公式:

s.t.

其中ωk表示φk在整个学习机中的权重。

其中00, k=1,2….M;多核学习核函数KMKL是Ki的凸线性组合:;最终的分类函数。

1.3 MKL-SVM及优化参数计算

MKL-SVM核函数的选择取决于对数据处理的要求。具有全局性的核函数和局部性的核函数的分类性能互补,可以使用不同核函数组成多核核函数[8],但是如果MKL异质核函数种类过多,会使SVM训练过于复杂。因此,本研究选用M=2,核函数选择了:Gaussian径向基核函数RBF (Radial Basis Function)。局部核函数具有较好的学习能力,而泛化推广能力较弱。多项式核函数(Polynomial Function, PF)是一个全局性核函数,具有较好的泛化推广能力,而学习能力则要弱些。Sigmoid核函数在神经网络的应用中,具有良好的全局分类性能。对有下面2种实现形式:

MKL-SVM计算中核参数σ、d、β0、β需要寻找合适的值使得SVM测试错误率最小。权系数λ对MKL-SVM起着关键作用也需要进行寻优。核参数和权系数的确定是MKL-SVM非常重要的环节。本文利用核函数之间的关系等价于核矩阵之间的关系,结合交叉验证技术LOO和核校准(kernelalignment)[9],建立如下优化求解步骤:

①,表示两个核矩阵之间的内积。

核校准度量k1与k2在样本集S上的差异。核校准是一个标量值,体现了不同核函数之间的差异关系。

② 对k1,k2使用LOO方法,求出核参数,使达到最大的核参数。

③ 定义函数

④ 构造一个权参数λ和乘子αi的拉格朗日方程,构造二次规划子问题:

⑤ 重复步骤④直到误差最小,算法收敛到最优的λ值。

2 实例分析

2.1 评估标准和分类维度

表1购物评论分类维度

[[评论对象&编号&维度&解释&售前服务&A1&购买咨询&是否提供在线问答解决顾客疑问&A2&信息提供全面性&网站商品信息是否满足顾客需求&商品&B1&定价&价格浮动给顾客带来的影响&B2&商品特征&对商品使用感受&网站服务&C1&支付方式&网站方便、种类多、安全&C2&内部配货、调货&企业内部订单处理速度&C3&信息沟通&及时传递商品处理信息给顾客&物流服务&D1&及时性&物流时间是否合理&D2&态度&快递服务、送货上门态度&D3&质量&外包装磨损、安全&售后服务&E1&换、退货&问题商品的处理&]]

对于需要分类的n个状态,我们以ce表示对第i个状态分类出的正确信息个数,te表示没有分类出的正确信息个数,fe为错误信息个数。以精确度P(Precision)表示系统正确分类信息占所有分类信息的比例,;召回率R(Recall)表示系统分类出的正确信息占所有可能正确信息的比例,。评论模型性能需要同时考虑P和R,为此引入,其中β是P和R的相对权重,决定对P侧重还是对R侧重,通常设定为1。F值越大,说明分类性能越好。

围绕购物网站服务流程,本研究结合顾客购物评论中的常见主题,总结出了评论的分类维度(表1)。

2.2 方法评估与应用

本文从卓越亚马逊、当当网等购物网站,下载了不同商品的3000条购物评论。随机抽取2000条作为训练集,其余作为测试集,对比几种方法F值。从图1可以看出,单核SVM中Gaussian RBF优于Polynomial;而MKL-GP和MKL-GS分类性能都优于单核SVM。其中MKL-GP效果好于MKL-SG,这是由于Sigmoid函数在某些特定条件下,才满足核函数对称、半正定的要求,因此影响了其分类的性能。

图1不同方法分类F值

表2数据集实验结果

[[样本量&Polynomial

SVM (F值)&Gaussian RBF

SVM(F值)&MKL-GS

SVM(F值)&MKL-GP

SVM(F值)&300&0.6573&0.6639&0.5081&0.6047&600&0.6894&0.7429&0.7026&0.7493&1000&0.7047&0.7579&0.8081&0.8169&2000&0.7715&0.8040&0.8559&0.8621&3000&0.7745&0.8037&0.8551&0.8676&]]

本文使用不同的样本量对两种算法进行对比,其中F值使用均值。从表2可以看出,在样本量不够大时,MKL-GS受Sigmoid函数特性影响性能较差;随着样本数量的增加,MKL优势逐渐明显,表现出优于单核SVM的分类性能;样本量到2000之后,SVM分类性能的提升就不明显,有待更进一步优化。

3 结束语

网络购物评论分析需要多种技术的结合。MKL-SVM方法通过集成学习发挥异质核函数不同特性,实现了购物评论分类性能的提升。本文所做的工作仅仅是购物评论分析的第一步,还需要结合文本挖掘、情感分析、营销分析等方法,才能帮助企业掌握消费者的感受,给予更多智能化的决策建议。网络上存在各类评论、新闻、博客、微博,对这些文本的分类分析,只要通过优选核函数以及相关参数,可以参照MKL-SVM方法获取更好的分类性能。

参考文献:

[1] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006.17(9):1848~1859

[2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14

[3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565

[4] Koji Tsuda, Gunnar Rätsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338

[5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790

[6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782

[7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12

[8] 刘向东,骆斌,陈兆乾.支持向量机最优模型选择的研究[J].计算机研究与发展,2005.42(4):576~581

[9] N. Cristianini, J. Shawe-Taylor, J. Kandola. On kernel target alignment [C].Neural Information Processing Systems Cambridge, 2002:367~373

猜你喜欢

文本分类
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用