APP下载

网络评论观点挖掘研究

2018-05-14曾寰胡运全李金忠戴贞明龙满生

科技风 2018年29期
关键词:挖掘网络

曾寰 胡运全 李金忠 戴贞明 龙满生

摘要:本文基于网络评论观点挖掘相关理论分析,对观点挖掘的实现过程进行设计和分析,以期通过网络评论观点的挖掘,了解网络用户行为与观点倾向,掌握网络用户观点表达规律。

关键词:网络;评论观点;挖掘

随着互联网时代的到来,信息与数量快速增长。在各种信息中,网络评论观点信息发挥着重要作用。通过对网络评论观点的挖掘,可为网络舆情、电子商务等诸多领域带来重要价值。[1]对网络评论观点进行挖掘,需依托大数据来展开,了解网络用户行为和观点倾向。

1 针对网络评论的观点挖掘理论分析

网络评论中的文字多表现出一定的主观倾向,对网络评论观点态度进行挖掘,主要是从评论信息资源中对用户观点与态度加以提取,并通过容易理解的形式对其展现。[2]当前网络评论的观点挖掘,在任务上主要包括三点:一是主观性分析,即对一个特定本文的客观性进行判断,明确其属于客观性,还是带有主观极性;二是极性分析,对主观性的正面还是反面以及极性强度等信息进行分析;三是观点总结,针对观点信息加以整理与展示。对于本文来说,涉及的评论信息资源均为文本形式,因此,我们在观点挖掘方面所涉及的主要为文字信息,如产品评论亦或者博客日记等,声音、图片等不在本文研究范畴中。

2 网络评论挖掘实现的设计过程

2.1 对数据进行收集与处理

对网络评论观点挖掘进行研究,就必然会涉及评论语料集,因此需要先对数据进行收集,本研究用到的数据均源自网上。针对收集的初始数据,需给予筛选和清洗,对无用数据进行去除。网络上的评论信息等,多以网页形式存在,需将无用的网页标记加以去除,使其转化为结构化数据。

2.2 分词与标准

在一个文档中,多由句子和词汇组成,计算机对于人类的语言当前并不能理解,针对整个无结构的文本,需对其进行转化,使其成为结构化的数据形式。当前较为常用的方法为,使文本以词汇为特征的向量集形式表示出来。该过程可由计算进行自动完成,即自动分词。整个过程需基于信息处理需要,在文本的划分上需根据分词单位以特定规范加以划分。在一个句子中,可能包含多种切分方式,为确保自动分词的高效性,需对准确的分词词典进行建立,滞后基于语义分析对匹配算法及消岐算法加以建立,实现分词目的。[3]然后进入词性标准阶段,该过程是针对切分得到的词语,对相应的词性进行标注。通常来说名词与形容词分别标注为n、a,动词与连词分别标注为v、c,对于副词则标准为d 等,来使符号实现统一。在词汇中,词性为其重要语义特征之一,这一过程可以采用自动标注器来进行词性标注。在文本表示中,分词与标准仅为第一步过程,完成以上工作后即需对研究纳入的文本内容进行处理。可对java 开发环境加以使用,同时可对中国科学院计算技术研究所研发出的汉语分词类库编写分词及标注程序做好评论文本内容方面的处理。通过分词与标准,可得到新的涉及词性标注的词語集合数据。

2.3 对评论文本进行挖掘

该环节主要包括三点内容。首先是特征选择方法,对于文本特征来说,主要指文本元数据,主要包括描述性特征与语义性特征,前者主要包括文本名称、大小及日期等,后者主要包括文本标题、内容及作者等。虽然分词能够使文本机构化,但仅经过切分会得到庞大的数据,难以进行处理。因此,需要对文本数据特征加以确定,以此来排除无用词语,将有用词语留下。针对约简选择特征过程,多会对一个评价函数进行构造,对每个词语的函数值进行计算,对达到阈值的词语加以选择,将其作为文本特征。[4]本文采用词频方法,基本思想在于对于低于词频率阈值的词,均将其去掉,将剩余词条作为特征保留下来。其次是数据表示方法,我们所选择的数据类型均为文档类,在数据的表示过程上,主要是将文档通过选出的特征实施结构化表示。在常用的模型上,主要为布尔模型、布尔模型等,不管采用哪一种模式求出权值,在最终目的上均是为了使文本数据得到有效的表示,从而为进一步的文本挖掘方法的使用提供便利。再次是挖掘分析。主要通过关联分析法对一些频繁一起出现的特征词进行分析,明确其关联性与相互关系。然后采用文本分类器对文档实施分类,通过无监督的聚类分析促使文本自动聚为几类,继而对文本潜在规律加以发现。在文本挖掘结果上,需以列表或图形化形式加以展示,在结论分析基础上得出有用的知识。

2.4 观点识别和总结

在人们表达观点的过程中,其对象主要为被评价事物及其特征,通过对自然语言处理技术的使用,在语义分析下,即可对评论文本中出现的特征进行挖掘。在评论观点中,其特征多表现为极性词及其对应的特征。根据每个句子,可通过在正面和反面极性数量方面的比较对句子的语义导向加以确定。在网络观点导向识别过程中,必须对否定词重点考虑,如无“不”、“没有”等否定词,则多表示语义相反。[5]在将前面工作均完成后,可以将结果以图表等直观形式呈现出来,在比较分析下对不同物品及特征特点进行整理,在这一总结下,网络评论中关于客户的知识即可显现出来,便于我们使用。网络评论观点挖掘,为近年来新兴研究热点,其以文本挖掘及Web挖掘为基础,对计算机技术及自然语言处理技术等加以使用,开辟了数据挖掘领域新方向。不过,该方面的研究当前还处于起步阶段,在应用范围上还较为有限,仍需进一步研究。

参考文献:

[1]于尧.网络评论的规律与工作机制研究[J].课程教育研究,2018(6):7778.

[2]韩忠明,李梦琪,刘雯,等.网络评论方面级观点挖掘方法研究综述[J].软件学报,2018,(2):417441.

[3]陈巧红,孙超红,贾宇波.文本数据观点挖掘技术综述[J].工业控制计算机,2017,30(2):9495.

[4]高松,王洪伟,冯罡,等.面向在线评论的比较观点挖掘研究综述[J].现代图书情报技术,2016,32(10):112.

[5]涂慧明.文本观点挖掘和情感分析的研究[J].电脑知识与技术,2016,12(5):235237.

基金项目:吉安市社会科学研究项目(18GH113)

作者简介:曾寰(1990),男,硕士,主要研究方向为数据挖掘;胡运全(1976),男,硕士,讲师,主要研究领域为数据挖掘;李金忠(1976),男,硕士,副教授,主要研究领域为机器学习;戴贞明(1968),男,硕士,副教授,主要研究领域为机器学习;龙满生(1977),男,博士,副教授,主要研究方向为图像分析与虚拟仿真。

猜你喜欢

挖掘网络
将“再也没有”带向更有深度的思考中
挖掘档案文化资源推进档案文化建设
关注数学思考 提升数学本质
大数据技术在商业银行中的应用分析
计算机网络管理技术探析
刍议计算机网络信息化管理
油气集输系统信息化发展形势展望
基于网络的信息资源组织与评价现状及发展趋势研究
基于网络的中学阅读指导
新形势下地市报如何运用新媒体走好群众路线