APP下载

基于商品评论信息的情感倾向性分析模型

2016-06-29黄秋义丁婷婷浙江传媒学院信息管理与信息系统310018

电子制作 2016年8期
关键词:倾向性文本情感

黄秋义 丁婷婷 杨 帆 浙江传媒学院信息管理与信息系统 310018



基于商品评论信息的情感倾向性分析模型

黄秋义 丁婷婷 杨 帆 浙江传媒学院信息管理与信息系统 310018

【文章摘要】

为了获取评论信息中的客户隐藏情感倾向信息,基于网络爬虫技术对商品评论信息进行抓取,通过基于语义分解利用数学向量空间模型对信息进行情感倾向性分析,构建一款针对电商平台中商品和服务评论信息的客户意见挖掘以及情感倾向性分析的系统模型。

【关键词】

网络爬虫;情感倾向性分析;商品评论;电子商务

0 引言

在这个以互联网为代表的新兴媒体时代,电子商务在其中也迅速崛起,各大电商平台如京东、天猫等。平台上推出的商品类种琳琅满目,商品数量也在层层累积,作为顾客难以抉择品质优良的商品,同时作为电商企业也无法准确捕捉到顾客的兴趣。然而在电商交易产生的评论信息中,往往隐含着顾客的情感倾向。合理有效地分析这些信息,有助于电商企业及时地改善产品,并指定恰当的营销方式,优化服务态度,从而收益用户量。

鉴此,本文将针对京东、天猫等电子商务平台中的商品评论信息以及其服务的态度和评价进行情感倾向性分析,研究开发一款针对电商平台中商品及服务评价信息的客户意见挖掘并对其进行情感倾向性分析的程序,系统主要功能模块包括评论信息采集、情感词典管理、情感倾向性分析等功能模块。围绕系统开发,本文将对面向商品评论信息的采集技术、情感倾向性分析模型、面向手机等商品评价情感词典构建等相关技术进行研究。

1 相关理论及关键技术

1.1京东、天猫等电商平台中商品及服务评论信息的采集技术

通过网页的结构特性分析,对现有的网络爬虫程序进行合理性的调整,并加以运用,从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,从而获得评论页面的内容。

1.2情感词典构建与评价短语分析

基于前期已研究过的情感词典构建技术,构建一个包含基础情感词的情感词典,并对其进行专有情感词典、情感符号模块的扩展,从而构建一个针对手机等商品及服务评价信息的情感词典。

由于评价短语由情感词和副词主导其情感,语句由句子主要的短语以及句子整体主导其情感,通过情感词的匹配,对评论短语和评论句子进行倾向性分析,并得出文本的情感倾向性分析结果。

1.3基于情感分析的评论挖掘

系统将采集的众多评论信息文本划分为句子的集合作为倾向性分析的对象,并保存在数据库中,将句子集合中的每个句子按照句式分类并进行切词,抽取句子中的评价对象,依次对评价对象、短语、句子进行情感分析计算并得出结果。

1.4情感分析过程

1.4.1文本特征的分类

在中文文本中,一个词语往往是包含多重意思的“集合”,多义词在语言学中是重要的特征。辨别多义词词义并对其进行消除歧义,是众多情感分析和观点挖掘的基本研究对象。在众多词汇中,依照词性可分为名词、动词、形容词、副词、代词六大基本词类,以及具有汉语特色的成语和方言文化形成的惯用词。较之中文的语法特征,以“主谓宾”的句式为众,以名词、动词、形容词、副词的组合为首,其中“名词+副词+形容词”、“副词+形容词”、“名词+形容词”在实际应用中较为广泛,例如“手机很好用”、“十分优秀”、“性能好”等。

图1 商品评论挖掘与情感倾向性分析模型

1.4.2文本预处理

首先对评论文本进行基本的情感分析过程:

(1)对评论文本进行分句,把长文本分割成短文本形式的观点句;

(2)对观点句进行切词,并作词性标注;

(3)抽取文本中的评价对象和评价短语;

1.4.3向量空间模型

利用数学里的向量空间作为基本模型框架,将文本中的每一个特征项与向量空间中的维度一一对应,其特征项的权重即就是向量空间中坐标值,记为wij,如此就能用坐标点的方式把文本的各项权重以“图形化”,从而实现文本的数据化模型。

1.4.4量化分布结果

商品特征值以及评论倾向性的基础是商品评论集的获取,通过爬虫技术将一个页面的商品评论信息集合为数集Ti,其中一共有N条评论信息,通过仿向量空间模型,Ti=(w1,i,w2,i,…,Wn,i),i=1,…,N,其中wij表示特征词的权重,由此可推出商品评论信息集的中心向量坐标为d(c)=(d1,i,d2,i,…,dn,i),c=1,…,K,其中djr=,r=1,…,s,表某前特征中所有评论信息中出现词wj的平均权重,s表示某特征中信息评论集的数目。

通过向量空间模型对观点句进行不同情感倾向量化分布的具体步骤为:

(1)依次获取各个评论信息集的中心向量坐标;

(2)将特征词两两构成二维平面获得若干个权重值点分布图;

(3)选取实验目标所需要的特征词二维权重分布图;

(4)通过离散性随机变量算法得出对某特征和某特征的情感分布。若值越大,则表示该特征的评论信息的情感倾向为肯定。

2 情感倾向性分析程序设计

商品评论挖掘与情感倾向性分析模型见图,模型共分为五个部分:文本输入、信息基本处理、词表构建、情感倾向性分析和结果可视化。

系统主要模块包括:

(1)文本输入模块:自动将所需要进行情感倾向性分析的文本导入程序。使用中文自动分词与词性标注工具对文本进行分词和词性标注。

(2)信息基本处理模块:对获取的句子文本进行分句、切词、抽取评价短语,抽取评价对象等操作。

(3)情感词典管理模块:对情感词典的词条进行管理,包括添加、删除、修改等

(4)情感倾向性分析模块:通过在情感词典中查找该词语,如果匹配则确定极性,如果不匹配则默认其极性为中性。计算词语极性强度,根据已经确定的极性和修饰程度进行计算。最终得出每个单句的倾向性并求和作为该文本的倾向性。

(5)分析结果输出模块:输出该文本的倾向性分析结果。

3 实验结果与分析

将开源的句法分析代码导入Java运行环境中,进行评论的句法分析。将分析结果按上述的步骤进行极性值计算,主题词分为三类进行极性值累加,将结果用可视化的形式表示出来。

3.1基于爬虫的信息获取

所选数据来自京东商城,利用爬虫采集技术,对京东平台中电子产品的URL的网页进行信息获取,筛选并识别出“华为荣耀7 PLKAL10/全网通”手机评论信息网页的URL,处理HTML的文本信息,最终抽取获得网页中顾客的评价内容,在所有评论中随机抓取1500条评论作为试验基础数据。

3.2情感分析过程

(1)商品特征词提取。基于关联规则算法从这1500条评论信息中提取商品特征,人工剔除无用词,最终得到的商品特征为外观、键盘、触摸屏、电池、价格、功能、灵敏度、相机、分辨率、系统、内存。

(2)观点句子提取与情感得分计算。本次实验基于“手机系统”这一特征进行评论文本筛选,共提取到与系统特征有关的200 个观点句子,并计算出其情感得分。

(3)不同情感倾向的量化分布。基于这200 个观点句子的情感得分,构建得分值得向量空间模型,选取特征词为功能和灵敏度的二维分布图,利用离散性随机变量算法确定关于功能和灵敏度的情感得分,最终得到这 200个观点句子的情感量化分布结果

同时,对本文给出的计算情感倾向量化分布的方法进行了验证

从实验结果发现,中立倾向情感分布的计算准确率偏低,主要原因是肯定倾向和中立倾向往往相辅相成,其观点句也具有很大的相似性,即使是人工判断都不可避免有所偏差。由此可见数据的区分程度对实验结果也有一定的影响。

事后对200条观点句进行了人工判断实验验证,从实验结果分析得知顾客对于京东平台的服务认可度较高,但对于手机性能和外观有较多意见。该结果与实验选取的数据文本有密切的关系,本次实验爬取的是京东平台中顾客在购买了手机后的评论信息文本,评论中大多是提及手机产品的不足之处,而对手机产品有认可态度的顾客仅选用五星来评价,省略了具体描述。而对服务的评论大多针对的是该购物网站本身的服务,比如物流,而较少涉及手机产品的售后服务。从结果来看,顾客对于京东平台的物流速度广泛比较认可,但对于退换货这一服务,大多数认为“处理得不及时、不主动“。

4 结论

随着网络社会化趋势日益明显,由用户发布的对所购产品的评论信息成为企业竞争情报分析的重要数据来源。该类信息有篇幅短小、信息密度大及表达情感明显等特点,传统数据挖掘方法作用有限,对其进行情感分析能取得较好的分析效果。考虑到一般情感分析方法的不足,本文采用共词聚类和基于句法分析的情感词极性传递法进行分析。首先,对收集的评论数据分词处理,构建语义共词矩阵。其次,应用分析软件对其进行共词聚类,定量分析用户关注的产品维度。再根据聚类结果人工构建分类词表、情感词表和情感强度词表。最后,将评论进行句法分析,按照句法结构进行主题词极性值计算,最终得到产品各维度情感分析的结果。本文提出的方法在一定程度上实现了对评论信息的处理,但还存在不足。比如,分类词表的构建需人工参与,且仅从聚类分析中提取主题词远远不够;网络上评论语句的用词和结构不规范,中文表达方式较含蓄,文中总结的句子结构特征不完全,主题词极性值计算规则有待完善。

【参考文献】

[1]杨玉珍.基于Web评论信息的倾向性分析关键技术研究[D].山东,山东师范大学博士论文,2014.

[2]唐晓波.基于情感分析的评论挖掘模型研究[J].中文信息学报.2013.36(7):100-105.

[3]王祖辉,姜维,李一军.在线评论情感分析中固定搭配特征提取方法研究[J].管理工程学报.2014.28(4)∶180-186.

[4]余文喆.电子商务中的商品推荐系统[J].华东师范大学学报(自然科学版).2013.(3)∶46-53.

[5]庞海杰.面向文本情感分析的商品评价信息检测[J].计算机应用.2012.32(7)∶2038-2040.

[6]周民.基于商品特征的商品评论信息挖掘方法[J].计算机与现代化.2014(6)∶98-105

黄秋义,女,本科,信息管理与信息系统专业;

丁婷婷,女,本科,信息管理与信息系统专业;

杨帆,女,实验师,硕士研究生,研究方向:数据挖掘。

基金项目:浙江传媒学院创新基金立项项目。

【作者简介】

猜你喜欢

倾向性文本情感
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
如何在情感中自我成长,保持独立
情感
在808DA上文本显示的改善
诗歌与情感的断想
基于doc2vec和TF-IDF的相似文本识别
如何在情感中自我成长,保持独立
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
关于医患冲突报道的倾向性分析——以“湘潭产妇死亡案”为例
“没准儿”“不一定”“不见得”和“说不定”的语义倾向性和主观性差异