APP下载

基于语义分析陶瓷电子商务产品用户评价分析与研究

2020-12-31聂庆华

商场现代化 2020年21期
关键词:情感分析语义陶瓷

摘 要:随着经济的发展、科技的进步,我国电子商务行业迎来了发展契机。近几年,我国电子商务发展尤为迅速,呈现蓬勃态势。电子商务的出现,给传统行业带来了较大的冲击,也为各行各业的发展注入了新的活力。陶瓷行业作为我国重要的行业,一直在社会各行各业中占据着重要地位。电子商务为陶瓷行业带来了全新的发展机遇,同时陶瓷电子商务也面临着挑战。对于用户来说,人们对陶瓷电子商务产品的选择,很大程度上依赖于该产品的用户评价。对于商家来说,盈利的好坏以及产品的投资也依靠用户对该产品的评价等级。因此,如何在电子商务平台中创建有效的用户评价模型,对用户产品购买和商家投资生产有着至关重要的作用。本文基于语义分析陶瓷电子商务产品用户评价,利用模型帮助商家筛选有效的评价信息,为商家和用户提供更多有价值的参考内容,以期提高陶瓷产品销量,为企业带来更多效益。

关键词:语义;电子商务;陶瓷;用户评价;情感分析;评论维度

随着互联网技术的飞速发展,电子商务已经逐渐融入到了人们生活当中,并成为了人们生活的重要一部分。陶瓷行业作为我国历史悠久的传统行业之一,是构成商业生态的重要一部分。电子商务平台的创建,有利于陶瓷产品的销售和产出,也促进陶瓷产业的健康发展。根据调查发现,人们进行网购时,决定着购买者消费欲望的重要因素就是产品的用户评价。产品介绍和产品的用户评论,是购买者重要的产品信息参考源。我国曾公布了一条关于电子商务平台购买倾向调查,调查结果表明,我国有超过80%的顾客购买产品时,会重点浏览产品的用户评价,并成为顾客购买决策的重要参考标准。因此,促进陶瓷电子商务健康发展,重点在于人们关注到产品的用户评价。我们需要建立起用户评价体系、用户情感倾向模型,通过信息采集,为电商和用户提供有效参考信息。

一、电商产品用户评价情感分析研究现状

随着互联网的高速发展,各大社交平台、电商平台、信息共享平台等越来越注重用户评价的情感分析。电子商务中用户评价的情感分析主要根据文本情感色彩和情感观点进行研究识别,利用数据模型提取词级、句子级、段落级以及文档级中蕴含的情感词和情感倾向判断。情感分析技术在我国起步晚于国外一些国家。但是,随着我国大量研究人员和专业学者对其重视,情感分析技术的发展一直呈现着蓬勃态势。情感分析有广义和狭义之分,广义的情感分析又叫情感分析与观点挖掘,分为两个部分,即情感分析(狭义)和观点挖掘(又叫意见挖掘)。情感分析技术通过分析文本来理解用户喜怒哀乐这些情感,观点挖掘偏重于理解用户表达的观点和意见,即判断一个句子有没有表达情感或观点。情感分析技术不仅仅局限于电商领域,也涉及到社交网站、音频网站、娱乐网站等领域,人们通过建立固有的分析模型和词典,用来分析用户评论中的语言色彩、情感倾向,从而帮助甲方了解乙方的喜好,为用户提供更加对称的服务和个性化推荐。例如,淘宝商城、京东商城的个性化推荐,电商平台通过情感分析技术检取用户评价、购买、关注等行为,从而在用户搜索内容中检索关键词进行归类,为用户提供个性化的服务。近几年,我国涌现出了一批关于情感分析的研究者,他们为情感分析技术的发展做出巨大贡献。哈尔滨工业大学张子琼等人联合高校教师和业界知名人士,对互联网情感分析的现状和动态进行了较为充分的调查研究,有效挖掘了相关数据和信息,论述了新时代普遍被使用的情感分析技术和方法,并提出了当代情感分析技术和方法中常见的问题,通过对问题的探讨指明了情感分析技术未来的研究方向和施展目标。同济大学的史伟等人以新浪微博为平台,对动车事故后网友发表微博评论进行了用户情感分析,并提取了微博中六种情感类型,以此为根据建立了情感分析模型,探究微博文本的影响力和计算网友的情感方法与技术,从而分析和探讨了动车事故后社会公众的情感。清华大学谢丽星等人对微博情感分析和特征提取方法进行了研究,作者论述中,对情感词典的方法、表情符号的使用规则方法、SVM的监督层次结构的多策略方法进行大量的探讨和实验。深圳大学刘宇飞和中国传媒大学杨莹、张鹏洲等人利用了情感分析技术对歌词进行了情感分析,并获得一定的研究成果。随着科技的进步,各种软件和平台应时而出,情感分析技术也得到越来越多人重视,也有越来越多的人相继投入到情感分析领域研究之中。放眼我国电子商务领域,却缺少较为系统性的情感分析研究成果。对于电子商务平台中产品用户等级分析,一般都是采用对文本情感分析技术来实现的。所以,我们需要基于语义分析模型,采取VSM获得用户评价的情感状态和情感倾向。

二、陶瓷电子商务产品用户评价分析算法研究

1.陶瓷电商产品用户评价信息获取

陶瓷电子商务产品用户评价信息的获取,我们主要采用网页蜘蛛进行信息采集。所以,有必要设计一个基于电子商务平台的主题网页蜘蛛的设计。由于陶瓷电子商务平台的产品评价主页一般都是呈现动态的,因此对用户评价数据的更新是设计主题网页蜘蛛的技术关键。

动态网站的数据采集,可以建立索引空间,以哈希表的形式对用户评价信息进行动态索引,利用哈希搜索算法提高采集中的搜索效率,从而实现动态用户评价信息的采集。目前,电子商务平台类型繁多,如果从多个平台收集产品用户评价信息,就需要较大的存储空间和处理器。所以,可以利用云计算平台搭建云蜘蛛,利用云计算高计算、大存储、高带宽网络的优势,收集大数据的用户评价内容,为后续的情感分析提供了巨大的数据支撑。

2.用户评价特征词处理分析

特征词的提出可以分为三个步骤:文本切词、文本去重和特征词提取。

文本切词:将一个词独立地分割成若干个独立的词,是文本特征词处理的基础技术。目前的分词算法包括字符串匹配算法、基于理解的算法和基于自动学习的算法等。字符串匹配算法是最常见的算法之一,其特点是实现简单,匹配准确率高。针对用户评价信息特征词的处理和分析,可以创建一個字符串库,并使其不断自我更新和自我学习。具体匹配过程是将文本一个个分解,然后字符串中出现的文本块匹配成功。为了提高匹配精度,可以采用正向最大匹配、反向最大匹配和双向最大匹配等方法。例如,我们就电商平台瓷砖产品的用户评价信息来讲。关于该产品的最多评价就是瓷砖的花纹、质量、亮度三个方面,但是用户评价信息内容繁多且复杂,因此我们需要做文本切词处理。我们利用文本切词,将用户对该产品的评价信息进行分词切割,使用户评价信息精简为独立的评价词,有效提取评价信息中关于花纹、质量、亮度方面的特征词,精简用户评价内容,做到评价信息上的整合。

文本去重:文本切词后,会产生诸多重复性的词语和语句,为了更好地提取用户评价信息,就需要对文本切词后的重复性词语和语句进行去重处理。本文研究的去重处理主要是以Bloom Filter,即布隆过滤器,进行文本去重处理。布隆过滤器(bloom filter)是20世纪70年代Howard Bloom提出的一种二进制向量数据结构,对于一个元素在集合中是否会重复出现,可以用这项技术进行空间和时间上验证。例如,电商平台中瓷砖产品的质量、亮度、花纹方面主要特征词,由于文本切词后,用户评价信息的特征词存在重复的现象,导致关于某一方面的评价多次出现或者多个相似词语的出现,需要我们利用不隆过滤器将用户评价信息中重复性或者相似性的词语进行去重处理,从而提取一批极具价值性的用户评价信息。

特征词提取:文本的特征词提取主要在于选取文本中的特征项,就目前阶段而言,文本特征词提取方法比较多,最常用的是DF提取方法。DF包含了固定所指一种特征项或者多种特征项,计算公式为:

计算公式中,DF(t)指的是所包含的特征项T的词频率。通过文档词频提取方法对陶瓷用户评价的每一个特征项在整个文本中的出现频率进行统计,然后根据指定的特征创建规定阈值,从而提取文本中所需的特征值。陶瓷电子商务平台中,对产品的优良、好坏特征项的分析,主要在于提取用户产品评价特征项。例如,电商平台可以根据用户对瓷砖产品的质量、亮度、花纹等方面重点关注,提前设定好关于三个方面特征阈值,通过文本切词和文本去重处理,利用设定好的阈值对照用户评价信息中的主要关键词,从而做到特征词的提取,方便商家找出自己的想了解的用戶评价信息。

3.基于VSM技术的用户评价信息的情感分析

电子商务平台用户评价信息分析中,通过一系列的去重处理、文本切词、特征词提取等,就剩下对处理后信息的情感倾向分析,即信息相似度的计算。就目前阶段而言,信息相似度的计算最常用的方法就是向量空间模型技术(VSM),该技术的核心在于通过将两个文本的句子简化为向量运算,通过计算向量之间的相似度来衡量文本信息中的相似度。电子商务用户评价VSM情感分析,一般流程是:通过预处理—关键词加权、停用词过滤—建立向量空间模型,求向量空间余弦值。其中余弦公式为:

其中,公式中的W1k和W2k分别表示D1和D2两个断句第K个关键字的权值。通过处理后的短句建立对应的空间求值模型,建立起的向量空间模型关键点在于把短句简化为关键词的权重为分量的N维向量进行表示。如果所求出的两个用户评价文本的余弦值大于了所设定的阈值,那么就说明两个评论信息是相似的,否则就说明两者之间并无联系。通过用户评价信息的获取到用户评价特征词的处理再到情感相似度的分析,可以有效计算出电子商务平台用户对陶瓷产品的情感倾向,从而为商家提供更有效的数据支撑,为其他客户提供更多有价值性参考信息。

三、基于语义陶瓷电子商务产品用户评价实例分析

1.选取目标

本文主要从我国知名电商网站进行信息选取,选取对象分别是淘宝、亚马逊、京东三大电商平台中陶瓷销量排名前五的不同品牌的陶瓷产品用户评价信息。通过时间上的确定,我们通过信息索取程序一共抓住了113528条评论,剔除无用性评论,还剩余13215条评论。然后将这些评论统一合并成一个文档作为陶瓷电子商务产品用户评价研究对象。除此之外,我们还要将用户对陶瓷电商产品的主要评价信息进行统一归类精简,挖掘出用户有效的产品评价信息。关于用户对陶瓷电商产品的评价信息如表1所示。

2.文本预处理

本文分析与研究我们选用ICTCLAS进行分词,通过一系列的分词与整合,创建出一个词语集,词语集中包含有大量停用词、语气词以及研究无关的词语等,我们通过《扩展版》提供的停用词表,利用智能机器并结合人工,对这些词语进行过滤,最后得到研究词语集1632个词语。

3.特征项权重计算与特征项聚类

我们对筛选出的1632个词语进行权重计算,并设置一个阀值,最后筛选出具有代表性的特征项集合,包含233个词语。然后,对233个特征项进行编码,并以特征项的权重值作为参考值进行聚类。聚类距离设为2000,聚类密度阀值设为5,最后形成的主要聚类结果(如表2所示)。

通过计算结果可以看到,聚类一主要是对正品、质量、包装方面的了解需求。聚类二侧重于陶瓷工艺、材料上的要求。聚类三主要是对陶瓷的总体印象,包括质量、价格、外观等方面。聚类四主要是陶瓷产品的质量问题方面的关注。聚类五表现为售后一系列信息和需求。

四、综述与总结

我们通过了解陶瓷行业在电子商务领域的发展状况,可以初步窥探陶瓷电子商务产品的销售状况。调查分析电子商务产品与用户评论之间的关系、用户评价重要性以及电子商务情感分析发展情况,帮助我们理清陶瓷电子商务产品用户评价分析方法头绪。基于语义,通过用户评价分析方法的研究和陶瓷电子商务产品用户评价实例分析,最终得出相应的信息和评价维度。本文研究仍然存在一些不足,还需进一步提高陶瓷电子商务产品的研究深度和广度。以期更好地促进陶瓷行业在电子商务领域健康长远发展。

参考文献:

[1]董敏,王琨.基于语义分析的电子商务产品用户评价分析与研究[J].商场现代化,2017,(11):64-65.

[2]侍佳慧,吕红波.O2O移动电子商务平台评价指标体系构建[J].黑龙江科学,2017,第8卷(4):18-20.

[3]武新丽,李柔,令狐大智.电子商务用户评价信息有效性研究——基于淘宝服装类商品[J].沿海企业与科技,2019,(6):8-13.

[4]顾勤.面向陶瓷行业的电子商务开发与应用[J].中国商贸,2011, (4):54-55.

[5]陈纪元.文本情感分析在电子商务中的应用探讨[J].消费导刊, 2019,(3):66-67.

[6]由丽萍,王嘉敏.基于情感分析和VIKOR多属性决策法的电子商务顾客满意感测度[J].情报学报,2015,(10):1098-1110.

作者简介:聂庆华(1977.10- ),女,汉族,江西景德镇人,硕士,讲师,研究方向:计算机应用技术

猜你喜欢

情感分析语义陶瓷
韩国语“容入-离析”关系表达及认知语义解释
趣图
陶瓷艺术作品
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
文本观点挖掘和情感分析的研究
陶瓷鉴赏
陶瓷食具与健康