APP下载

基于多种自然语言的商品评论情感倾向性分析系统

2019-05-10刘思佳华南师范大学计算机学院

数码世界 2019年4期
关键词:倾向性预处理文档

刘思佳 华南师范大学计算机学院

引言

互联网的快速发展推动了电子商务的不断普及,依托于电商平台的商品不断兴起,而商品带来的商品评论中的情感倾向性分析逐渐成为当前的研究热点。本系统的目的是通过充分挖掘网上丰富的评论资源,研究并创建一个具有实用性的互联网商品评价情感分析系统。此系统能够自动分析来自互联网的海量评论,同时分析结果的表达方式也因顾客的需求有所不同,这样可以对商品的市场反馈进行分析,为生产商提供热销品的类别,同时也帮助顾客对商品进行了筛选。

1 市场需求

面对如此所参差不齐的评论,商品的生产商或服务的提供商无法提供精准满足客户需要的商品,从而在生产的过程中做了很多无用功。而依据本文设计的系统生产商和服务商能够及时了解本企业所提供的商品或服务的反馈信息,为改善产品性能、提高服务质量赢得更快和更有效的机遇,这相当于为企业节约了大量的市场调研和市场反馈信息获取的成本,间接地加快了企业产品、服务升级的进程。

2 系统模块

图1 系统框架示意图

2.1 网页评论自动获取与预处理

2.1.1 自动获取评论内容

为了提高程序运行速度、可读性,提高编写抓取程序的效率,本文运用了python的扩展库lxml以及xpath。XPath可用来在XML文档中对元素和属性进行遍历,可以在XML文档中查找信息。而lxml库则可以快速正确地分析xml文档。将HTML看成是XML的特殊形式,所以可以使用Xpath来表示一个评论在此HTML文档中的具体位置,并且xpath可以使用工具自动生成,保证了准确率和效率。此后使用lxml提供的方法,可以高效的提取出需要的信息。

2.1.2 预处理

经过自动获取评论内容这个步骤之后,后续重要的一步是进行预处理。预处理包含两个步骤,第一,去除噪音字符。此外,重复的标点符号再这一步也应该相应的去除。由于抽取出的文本不含结构化信息,是自然文本,所以如果存在两个相同的标点,“断句”处理势必会造成错误,影响进一步的分析。此外空行空格也要去除。第二,“断句”和“分词”。汉语中要想表达一个完整的意思,最小的组成单位是一个句子,所以关键词的选取必须要以“句”为基础,之后再逐个分析句中词汇,若断句或分词错误,势必影响系统的最终结果。所以预处理是整个系统的前提,也是关键。

2.2 自然语言处理技术抽取文本的语义信息

在日然语言处理过程中涉及的基本问题是词性标注和分词,但因为语言的复杂性,甚多情况下文本信息的提取有偏差,基于以上存在的问题,对文本进行语义理解和语法结构分析的时候采用了更为先进的自然语言处理技术。为了达到更高的句中感情细腻度的表达,首先对评价对象的特征进行了挖掘,并进一步找出其对应的情感词,举例来说评价对象为餐厅的话,其特征就有环境、服务、餐饮等。

3 研究成果

本项目基于自然语言处理,机器学习技术,使用文本倾向性分析技术,自动分析提取评论关键内容,为用户量身定制商品特征分类规则,颜色标记评论关键信息,评论结果以图形形式显示,最终设计并实现商品评论倾向性分析系统。使得用户可以快速获取海量评论信息的真正价值,其分析结果只管、清晰、界面友好。可根据用户需要对商品特征进行归类,对于类似商品的比对功能可以给用户提供方便,使得用户在选购商品时更加科学、高效、方便。

猜你喜欢

倾向性预处理文档
KR预处理工艺参数对脱硫剂分散行为的影响
浅谈Matlab与Word文档的应用接口
求解奇异线性系统的右预处理MINRES 方法
公众对我国足球归化运动员的情感倾向性——基于大数据的微博情感分析
基于模糊数学法的阿舍勒铜矿深部岩体岩爆倾向性预测
有人一声不吭向你扔了个文档
超重/肥胖对儿童肠套叠空气灌肠复位的预后影响:倾向性评分匹配分析
污泥预处理及其在硅酸盐制品中的运用
分析我国体育新闻报道中的倾向性文献综述
基于预处理MUSIC算法的分布式阵列DOA估计