APP下载

数据仓库和数据挖掘在中文产品评价中的应用研究

2014-04-29宋伟伟李权

东方教育 2014年10期
关键词:数据挖掘应用

宋伟伟 李权

【摘要】本文主要探讨了决策支持系统的应用结构、数据仓库、数据挖掘技术分析等技术方面的内容。对数据挖掘在中文网络产品评论中的应用进行了全面深入的探讨,介绍了挖掘系统的通用框架,然后对产品特征提取、主观句定位、用户态度提取、态度极性判断、挖掘结果等五个任务进行了详细阐述。显然,数据挖掘在评论挖掘中的广泛应用对于网上购物各方面的进一步推进具有借鉴价值。

【关键词】网络中文评论;数据挖掘;通用框架;应用

1 引言

这篇文章旨在探讨了数据仓库、数据挖掘的定义和相关概念,提出了网络产品评论挖掘的研究背景以及步骤和方法,并在用户产品评论分析的基础上,进一步对产品特征提取、主观句定位、用户态度提取、态度极性判断进行分析,更全面的介绍了数据挖掘在各方面的应用和作用。

2 数据仓库和数据挖掘的技术分析

2.1数据仓库

数据仓库系统会随着时间而发生改变,包括数据仓库的创建、设计以及使用;纵向上所呈现的是数据仓库的管理体系,它最终是通过元数据对整个数据仓库系统进行了管理[1]。数据具有单向流动性,在存储过程中还具有层次性。数据经由源数据进入数据仓库,接着在分析处理后进入用户界面。

2.2 数据挖掘技术分析

基于数据仓库的通用数据挖掘系统的结构是基于传统的结构框架以及数据仓库的特点所分析出来的,适用于不同的数据挖掘。对网络产品有用评价信息的挖掘分为用户产品评论语料库构建、数据预处理、产品评论挖掘和挖掘结果分析四个步骤。

3 挖掘技术在产品评论中的应用

产品评论挖掘是文本挖掘研究领域中最近几年兴起的研究热点。以Web上发表的用户产品评论作为挖掘对象,采用自然语言处理技术,从大量文本中发现用于对该产品各方面性能的评价。目前产品评论挖掘分为产品特征提取、主观句定位、用户态度提取、态度极性判断和分析挖掘结果五个子任务。

3.1 在产品特征提取中的应用

在产品特征方面,生产厂商一般会给出关于相关产品各方面性能的说明文件,但是产品评论挖掘一般不从这样的说明性文件中提取产品特征,主要原因之一是生产厂商和用户对产品特征的关注度不一样,用户关注的是对于产品的相关的特征信息,而生产厂商提供的产品特征更多的专注于一些技术细节,对于这样的细节用户一般不感兴趣。其次产品评论中对特征的描述是一个开放性的问题。产品特征提取是在分词和词性的基础上,首先提取出全部的名词,找出出现频率比较高的名词作为候选词汇,之后通过人工定义,得到用户关注产品特征集合F1,假设产品规格说明书中提取的产品特征集合设定为F1,则最终产品特征集合为F=F1∪F2。

3.2 在主观句定位中的应用

判定主观句的方法主要是查看语句中是否出现了主观性特征,主观性特征包括可以表示主观性的动词、形容词、名词短语、文本模式或人工定义的词汇表,主观性特征的获取分为人工定义和自动获取两种方式。根据李存青给出的4种汉语评论常用语法模式基础上[2],单晓红给出了9种语法模式:名词+形容词、名词+动词、名词+副词+形容词、名词+副词+动词、名词+副词+副词+形容词、名词+副词+副词+动词、动词+名词、副词+动词+名词、形容词+的+名词,在分词和词性标注的基础上,对于每一条产品评论句子Ri,构造其语法模式集合[14],来作为产品评论中主观句定位的方法。

3.3 在用户态度提取中的应用

Kobayashi、Inui和Matsumoto 建立了形容词的用户态度词汇表(比如:comfortable,tight,supportive)[3]。Li Zhuang从人工标注的数据中寻找了1093 个词汇作为正性词汇,780个词汇作为负性词汇,无论评论语句中出现了正性还是负性词汇,那么都将该词汇作为表示了用户态度的词汇[8]。Bing Liu和Mingqing Hu提取句法分析树中修饰作为产品特征的名词和名词短语的形容词或副词作为用户态度[4]。Kim和Hovy不进行句法分析而是直接定义一个窗口,将在窗口中出现的形容词作为用户态度和使用文本模式提取用户态度,将出现在文本模式中的形容词作为用户态度。

3.4 在态度极性判定中的应用

文本的态度分析分为词语、短语、句子、篇章等多个层次,篇章层次的态度极性的判断多用于基于情感的多文本摘要等领域,极性词汇表的建立分为人工定义和自动获取两种方法。Turney[5]采用互信息和信息检索结合(PMI-IR)的方法判定词汇极性,该方法假设同一篇文章中出现的词语具有相同的情感极性方向,首先建立7个单词构成的正性词汇集Pwords和7个单词构成的负性词汇集Nwords,对需要进行极性判断的词汇Uword,分别计算Uword 与Pwords和Nwords中的每个极性词汇的互信息(PMI:Point Mutual Information),下面的公式采用IR方法计算两个词的互信息:

PMI(Word1,Word2)=Log2(

小结

随着网上交易信息的快速发展,伴随着对数据分析工具的需求,近年来产品评论挖掘研究对数据挖掘技术的研究呈逐步增长趋势。本文主要探讨了决策支持系统的应用结构、数据仓库、联机分析处理技术、数据挖掘技术,分析了网络产品评价挖掘步骤以及挖掘技术在产品评论挖掘过程中的应用分析。

参考文献:

[1]数据仓库与数据挖掘技术.孙水华、赵钊林、刘建华编著.清华大学出版社.P5

[2]李实,叶强,李一军,Rob Law.中文网络客户评论的产品特征挖掘方法研究.管理科学学报,2009,12(2):142-151.

[3]Kobayashi N,Lida R,Inui K,etal.Opinion mining as extraction of attribute-value relation[C]//The 19th Annual Conference of JSAI,Japan,2005.

[4]Hu Mingqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of Nineteeth National Conference on Artificial Intelligience,San Jose,USA,2004.

[5]Kim S M,Hovy E.Automatic detection of opinion bearing words and sentences[C],2005.

猜你喜欢

数据挖掘应用
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
多媒体技术在小学语文教学中的应用研究
分析膜技术及其在电厂水处理中的应用
GM(1,1)白化微分优化方程预测模型建模过程应用分析
煤矿井下坑道钻机人机工程学应用分析
气体分离提纯应用变压吸附技术的分析
会计与统计的比较研究
一种基于Hadoop的大数据挖掘云服务及应用