APP下载

融合机器学习算法在旅游推荐中的研究与实现

2020-05-21王小芳刘树林刘洪江

电脑知识与技术 2020年9期
关键词:特征词特征提取分类器

王小芳 刘树林 刘洪江

摘要:针对旅游点评类文本存在数据量庞大等问题,本文构建一种SVM与Bootstrapping相融合的旅游点评文本情感分析算法。首先对2019年上半年携程旅游与马蜂窝旅游评论数据进行采集,以得到待处理旅游点评文本数据集;然后利用SVM算法构建分类器对旅游点评文本进行分类,以得到情感特征词集,随后使用Bootstrapping算法对上述分类器进行重构,以得到高性能分类器;最后对分析的情感特征词集进行模型评价。实验结果表明,改进算法相对于传统算法而言,召回率整体提升2.3%,准确率整体提升4.8%,F值整体提升3.46%,改进算法分类效果较传统更优,准确率、召回率和加权调和平均值有提升。

关键词:旅游推荐;SVM;分类器;Bootstrapping

中图分类号:TP399 文献标识码:A

文章编号:1009-3044(2020)09-0198-02

1 引言

随着旅游产业的快速发展,旅游客户呈爆发式增长,旅游网站普遍,旅游评论数据,存在信息超载,情感表象不明确等问题使得适宜旅游成为难题,寻找有效旅游信息显得尤其重要。如何通过旅游评论信息实现精准旅游推荐成为重点及热点,吸引许多专家学者探讨。其中文献[1]提出基于上下文感知的旅游推荐算法,将上下文信息引入推荐系统,该算法虽成功解决信息过载的问题,但没有考虑用户情绪信息,不能精确的判断上下文情感倾向。文献[2]提出基于情景上下文与信任关系的推荐算法,采用综合考虑信任度和情景上下文信息推举策略,该算法虽解决现有旅游推荐个性化不足的问题,但没有分析情感因素对旅游推荐的影响。文献[3]提出基于标签的协同过滤算法,该算法用景点特征标签描述用户兴趣特征,根据用户兴趣标签找到相似用户群,通过协同过滤的方法为用户推荐感兴趣的景点,该算法虽结合协同过滤算法与基于标签内容的推荐算法两种算法的优势,改善了推荐效果,对前期用户的情感分析效果不佳。针对以上问题,本文提出基于SVM与Bootstrap-ping融合的旅游评论文本情感分析算法进行分析。

2 算法实现

2.1 内容提取

本文通过网络爬虫技术[4],对旅游的评论数据进行采集,经整合得到点评文本数据集,作为实验的测试及训练数据。

2.2 SVM实现S-B分类器构建

本文利用SVM支持向量机[5]构建小样本S-B分类器,构建过程分为四步,其中第一步利用ICTCLAS提取文本特征,第二步,使用IF-IDF计算词权值以进行文本特征表示,第三步,通过归一化处理消除指标差异,最后通过超平面划分,从而实现小样本分类器构建。

2.2.1 特征提取

特征提取是将文本进行分词然后再提取有属性、有情感词的过程。本文采用中科院研发的ICTCLAS分词系统实现文本分词。分词后,由于停用词对股评分析没有意义,为减少对文本干扰,加速处理速度,本文在进行特提取前,先将切分后得到的停用词从数据集中去除。然后进行特征提取。对于文本特征提取,本文使用基于Java版本的ICTCLAS4J,其使用MyLexi-con类描述分词模块。

2.2.2 文本特征表示

经特征提取后,得到多维特征词集,然后采用特征抽取对多维特征词集进行降维。本文采用Topic Modeling的原理,利用映射方法将高纬度空间映射到低维空间,从而实现降维,维度衡量通过计算词的权值进行,采用TF-IDF公式对特征集进行计算。如式(1)所示。

经过TF-IDF计算词的权值后,从点评特征集D选出具有代表性特征词集,再对其进行特征抽取。用构建的情感词典最终实现降维,得到具有代表性的特征词典。

2.2.3 归一化处理

对于不同的情感词往往具有不同的分析指标,直接影响到分析的结果,为了消除指标之间影响,本文采用标准归一化和最大最小归一化对上述结果进行标准化处理,以解决指标之间的可比性。经归一化处理后将情感词典限制在本文需要的一定范围内,以消除奇异样本导致的不良影响,保证各指标处于同一量级,从而得到小样本分类器。

2.2.4 超平面劃分

旅游点评集D经过上述三步处理后,得到D1和D2数据集,其中训练集D1(包含样本特征集S)将用于构建S-B分类器,D2测试集,用于模型测试。

经处理后得到的样本特征词集S,采用超平面进行样本集划分,进而构建一个小规模分类器,确定正反面(即推荐与不推荐),如式(5)所示。

2.3Bootstrapping重构S-B分类器

在传统的SVM[6]文本分类算法中,构建小规模分类器,并用此处理大规模待处理文本U,采用计算语义相似度的方法处理训练集D1中剩余的大规模待处理文本U。由于构建的分类器规模较小,其性能很难得到可靠的保障。本文基于以上问题提出引入Bootstrapping的本体标注算法[7]实现基于小规模分类器的样本扩展,利用样本特征词集S构建好的小规模分类器,循环地将大规模待处理文本U扩展到分类器中,使得分类器扩大到一定规模,且足以可靠地完成下一步测试集的测试工作。

2.4 模型评价

传统SVM算法中的模型评价其评价效果和衡量准确率十分出色,为得到有效的分析结果,本文采用同SVM相同模型评价方法,即使用召回率(Recall)、准确率(Precision)和F值来衡量改进算法的旅游点评效果,其计算公式如式(9)所示。

3 实验结果分析

本文采集上半年携程与马蜂窝旅游点评作为实验数据,对传统SVM算法[8]和本文所提出的改进算法在相同实验环境就点评结果的召回率、准确率和F值进行分析评价,结果如表l所示。

4 总结

基于旅游点评文章多文本形式与数据量庞大等问题,本文提出SVM与Bootstrapping融合的算法对旅游点评文本进行情感分析,本文先采用进行采集,再使用SVM算法实现小样本分类,然后采用Bootstrapping算法对小样本数据进行迭代学习,形成大样本数据,最后使用评价模型对处理结果进行评价。本算法除应用于旅游推荐外,还可应用于股评、智能推荐、舆情、市场监管等方面。

参考文献:

[1]匡海丽,常亮,宾辰忠,等.上下文感知旅游推荐系统研究综述[J].智能系统学报,2019,14(4):611-618.

[2]沈记全,王磊,侯占伟,等,基于情景上下文与信任关系的旅游景点推荐算法[J].计算机应用研究,2018,35(12):3640-3643.

[3]李雅美,王昌栋.基于标签的个性化旅游推荐[J].中国科学技术大学学报,2017,47(7):547-555.

[4]付哲,李军.高性能正则表达式匹配算法综述[Jl.计算机工程与应用,2018,54(20):1-13.

[5]彭德焰,胡欣宇.基于SVM的产品评论情感分析系统的设计与实现[J).物联网技术,2016,6(11):76-79.

[6]萧嵘,王继成,张福炎.支持向量机理论综述[Jl.计算机科学,2000,27(3):1-3.

[7]段宇锋,朱雯晶,陈巧,等.朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究[J].现代图书情报技术,2014(5):83-89.

[8]莫倩,张渝杰,胡航丽,等,一种混合的股评观点倾向性分析方法[J]。计算机工程与应用,2011,47(19):222-225.

【通联编辑:唐一东】

猜你喜欢

特征词特征提取分类器
基于Daubechies(dbN)的飞行器音频特征提取
基于改进TFIDF算法的邮件分类技术
BP-GA光照分类器在车道线识别中的应用
产品评论文本中特征词提取及其关联模型构建与应用
Bagging RCSP脑电特征提取算法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
面向文本分类的特征词选取方法研究与改进
基于MED和循环域解调的多故障特征提取
基于LLE降维和BP_Adaboost分类器的GIS局部放电模式识别