一种中文伪评论语料半自动获取方法
2016-05-04郝秀兰许方曲蒋云良
郝秀兰,许方曲,蒋云良
(湖州师范学院 信息工程学院,浙江 湖州 313000)
一种中文伪评论语料半自动获取方法
郝秀兰,许方曲,蒋云良
(湖州师范学院 信息工程学院,浙江 湖州 313000)
该文提出了一种中文伪评论语料半自动收集方法,主要包括数据收集、句法分析、情感倾向性分析等方法,并对影响方法正确性的错误进行了总结。文中着重介绍了一种句法分析方法,在句法分析的基础上提出了<评价对象,评价短语>的提取方法。该提取方法简化了情感二元对的句法呈现模式。同时,对部分实验结果进行了分析,对提高文本情感分析的准确率提出了一些建议。
计算机应用;中文信息处理;倾向性分析;伪中文评论;半自动获取
1 引言
情感分析(sentiment analysis)[1-3],又称观点挖掘(opinion mining),是指通过挖掘文本中的观点、看法、情绪、好恶等主观信息,对文本的情感倾向做出类别判断[4]。情感分析是网络舆情、互联网信息监控使用的关键技术之一。
除了在互联网舆情监控领域的应用[5],情感分析也被广泛应用于生活信息服务、医疗服务等关系民生的众多行业[6-8]。本文关注的是文本情感分析在电子商务中的应用。
电子商务网站中,有些特殊的评论:有的评论把好的产品/服务说成是不好的,有的把不好的产品/服务说成是好的,这两类评论合称为“伪评论”[1-2,8],伪评论是垃圾评论的一种。在现实中,这两类评论都是非常有害的,前者损害商家的利益,后者损害消费者的利益。但是,伪评论与真实评论混在一起,用人工的方法很难区分。
在文本分类中常用的训练数据集(又称语料)获取方法是人工标注。但是,“伪评论”是人工不可识别的,也就是说,无法采用专家标注的方法对其进行标注。
我们对现有的观点挖掘语料进行了调查,TREC设置的Blog Track、NTCIR的评测MOAT、中文倾向性分析评测COAE系列提供了一定规模的中文观点挖掘语料。除此之外,不少研究单位和个人也提供了一定规模的观点挖掘语料。但是,迄今为止,我们未发现专门用于中文伪评论检测的语料。
Ott等[9]针对伪评论难于获得的问题,借助Amazon Mechanical Turk[10]平台,收集了400篇欺骗性垃圾(宣传性的“伪评论”),实验结果表明crowdsourcing是有效的。不幸的是,国内没有这样的平台;我们国内的用户又不习惯到Amazon Mechanical Turk申请并完成“众包”任务。
目前既没有垃圾产品评论分析用的中文语料,也没有相关的中文评论语料收集网站。为了取得“伪评论”语料,我们需要自己开发一个类似于Amazon Mechanical Turk的平台。本文提出一种中文伪评论语料半自动收集方法,主要采用了crowdsourcing思想,通过前台网站针对性地收集用户“创作”的评论,同时在后台加入了相关文本处理技术,对用户提交的伪评论文本自动进行主题识别与倾向性分析,以减少管理人员的工作量。
本文的文本倾向性分析工作涉及到两方面的内容:
<评价对象,评价词语>二元对的抽取及其倾向性确定。Popeseu[11]、李岩[12]、张莉[13]等尝试使用句法关系模板挖掘二元对之间的修饰关系。基于模板的方法优点是准确率高,缺点是扩展性差。Titov[14], C. Sauper[15]采用话题模型挖掘情感文本中的评价对象、评价短语。话题模型理论上的召回率较高,但是不易理解。
评论整体倾向性的确定。依靠一些已有的情感词典对带有情感倾向性的评价单元进行计算,进行倾向性加权求和来获取文本倾向,代表性的工作有Hu MQ[16]。由于“部分相加不等于整体”现象的存在,这种方法是有缺陷的。
中国科学院自动化研究所的宗成庆[17]利用词性、词作为组合特征进行分类;中科院自动化所的王根、赵军[18]提出基于多重冗余标记的CRFs,使用不同特征,将情感分析中的多个分类任务统一在一个模型之中;Andrew L. Maas[19]通过学习词汇向量来获取词汇-文档间的语义信息及情感内容;L. Jiang[20]等在对Twitter进行情感分类时,结合了与目标相关的特征,并考虑了相关的tweets,提高了与目标相关的情感分类的性能。综上所述,融合多种相关信息有利于提高情感分类的准确率。
我们根据基本思想构建了一个平台原型。该平台既能够用来收集中文伪评论语料,又可以当作一个中文文本倾向性分析工具,还可以当作一个浅层中文句法分析工具来用。
2 基本思想
伪评论的收集主要采用了crowdsourcing思想,同时在后台加入了相关主题识别与倾向性分析等文本处理技术,对用户提交的评论文本自动进行分析,以减少管理人员的工作量。
2.1 评论生成
产品的背景材料,包括产品种类、产品介绍等通过前台网站展现给用户,用户阅读相关材料之后,可以“创作”并提交评论。经后台主题分析及倾向性分析之后,管理员读取倾向性分析结果为正的评论进行审核后,最终确定该评论是否符合要求。如果评论通过了管理员的审核,那么这个评论就是一个合格的宣传性“伪评论”,可用作识别宣传性“伪评论”的训练样本。管理员可以把一批合格的宣传性“伪评论”从数据中心导出,交给相关人员使用。
2.2 主题分析
我们使用了简单的主题判定方法,对于每一个产品类别,我们都提供了目前所知的品牌名称(中英文均给出)。由于以文本文件的形式提供,未被包括在内的新品牌,用户可随时添加。通过判断评论文本中是否包含这类产品的品牌之一,来确定评论是否主题相关。如果评论不包含该类产品的任意一个品牌,那么就认为主题无关。
2.3 句法及评论倾向性分析
句法分析建立在分词及词性标注的基础上,通过反复应用汉语短语组成规则,进行短语分析,详见第三节。对包含产品某个特征或评价词语的短语,进行进一步分析处理,识别出<评价对象,评价词语>二元对,并确定其倾向性;在此基础上,根据评价对象(属性)在整个产品中的重要性,对其进行加权处理,得到整个评论的情感倾向,详见第四节。与Hu MQ[16]工作的不同之处在于我们对产品的整体评价也加了一部分权重。分词及词性标注使用了NLPIR/ICTCLAS2014 windows调用模块[21]。
3 句法分析
我们从网上免费下载的NLPIR/ICTCLAS2014分词系统名词识别及词性标注较准确,但是有关动词的知识提供的并不多。在提供的词性标注文档中,包含有vd 副动词、vx 形式动词、vi 不及物动词(内动词)等可特殊使用的动词标记。但是,我们在实际使用时发现,这三类标记使用的较少,尤其是“会”、“可能”等这些副动词,在该分词系统标注中都简单地标为“v”。在句法分析中,动词是最重要的词类之一,直接影响句法分析的结果。所以,对于NLPIR/ICTCLAS2014分词系统标注过词性的评论文本,我们还需要进一步处理,补充动词的相关知识。
3.1 面向自动汉语句法分析的动词/形容词词性标注
英文动词通过词形变化来表示时态,还可以通过变化的词形式来表示分词短语(过去分词、现在分词)、动名词(动词+ing)等,通过这些词形我们能够确切地了解作者使用动词的意图。但是,在信息处理用汉语里,动词到底怎么用,在目前的分词及词性标注系统里,没有得到很好地体现。例如,“v+n”这种结构,可以是动宾结构,也可以是定中结构,遇到这个结构,我们该怎么处理?鉴于“v+n”结构表示的动宾短语较多,我们对“v+n”表示定中结构当作特例来进行处理。
另外,在汉语中,有些动词只能带动词或形容词作宾语,对于这些动词我们都进行了特殊处理,以保证短语分析的正确性。
3.1.1 带动词的定中结构
在汉语中,也存在不及物动词,如“落”、“流”、“捣蛋”等。当“v+n”结构中的动词是不及物动词时,只能是定中结构[22-23]。我们用vi表示不及物动词,构建了一个不及物动词表vi.txt,并将”vi+n”表示为一个定中结构的构成规则。对于NLPIR/ICTCLAS2014分词及词性标注后的元标注数据,凡是出现在vi.txt且标注为“v”的词,我们将它的词性统一更新为“vi”。
由动词和一些语素用字、后接成分组合,也可以构成定中结构。例如,v+ng,v+k,v+rg,v+ag。这里,ng是名词性语素,ag是形容词性语素,rg是代词性语素,k是后缀。
动词性语素vg与其后的名词一起,也可构成定中结构,形式为:vg+n。
3.1.2 能愿动词
汉语的能愿动词也叫“助动词”,是一类表示可能、必要、必然、意愿等意义的动词,如“不用”、“能”、“会”、 “应该”等。在语言学界,有的把它当作副词,认为它在修饰后面的动词[24];而有的则把它当作是必须以动词作宾语的动词。为方便处理,也为了与英语中这类词的使用方法保持一致,我们把此类动词当副词来处理。我们采用vd.txt能愿动词表对标注后的数据词性作了更新,将它的词性统一更新为“vd”。
3.1.3 带动词作宾语的动词
在现代汉语中,有些动词是可以带动词作宾语的[25]。语言学研究人员认为,心理动词和使令动词就是这样的动词。经反复查看资料,我们整理了四部可带动词作宾语的动词:VObjVV.txt存放只可动词作宾语的动词,VObjVN.txt存放可用名词、动词作宾语的动词,VObjNVA.txt存放可用名词、动词、形容词作宾语的动词,VObjVA.txt存放可以用动词、形容词作宾语的动词。每部词典的名字即该类动词的词性标注符号。后面的两部词典中的动词也可以用形容词作宾语,与下面的形宾动词共享数据。
3.1.4 形宾动词
形宾动词是指可以用形容词作宾语的动词。语言学研究人员研究发现,在《动词用法词典》收录的动词中,有135个动词可带形容词作宾语[26]。这135个动词把同形异义的词当作不同的词来处理.进一步地,这135个动词又可以细化为四类,放在不同的词典中,使用不同的标注方法来标注这些词。
VObjA.txt里存放只可以用形容词作宾语的动词,有四个词;VObjNA.txt存放可以用名词、形容词作宾语的动词,去重后共45个词;VObjNVA.txt存放可用名词、动词、形容词作宾语的动词,去重后共71个词;VObjVA.txt存放可以用动词、形容词作宾语的动词,去重后共十个词。每部词典的名字即该类动词的词性标注符号。后面的两部词典与上面的可用动词作宾语的动词共享数据。
3.2 基于正则表达式匹配的句法分析
正则表达式,又称正规表示法、常规表示法(regular expression),是计算机科学中的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。
本文系统使用的局部句法分析把所要分析的短语结构用正则表达式来表示。而带有词性标注的字符串(经3.1的动词标注处理之后)可以分离成字串、标注串,局部句法分析主要使用在标注串中查找表示成正则表达式的短语的方法来实现。
根据各种短语的构成特点[22-29],我们对其进行了分类。有些在整个句子的识别过程中,只需要使用一次,我们把它放在了表1(部分实例);而有的短语结构可能需要多次处理,我们把它放在了表2(部分实例)。
结构标记:POB--介词短语,DE--“的”字结构,ATT--定中,ADV--状中,CMP--动补,VOB--动宾,VV--连动,SBV--主谓。
在句法分析过程中,如果是简单句,那么除VOB、SBV结构之外的其他短语都是在第一层次处理的,第二层次处理VOB结构,第三层次是VV、SBV结构。但是,现代汉语是相当灵活的,小句几乎可以充当任何成分,增加了句法分析的难度。
表1 部分词一级的处理规则及其正则表达式
表2 部分常见中文短语结构及其正则表达式
4 倾向性分析
4.1 短语倾向性标注
倾向性分析使用了HowNet所提供的中文倾向性分析用词汇表(S1)、数据堂(www.datatang.com)提供的清华大学的倾向性分析用加权词汇表(选取了部分)(S2)以及项目组自己整理的网络用情感表情符表(S3)、程度副词表、否定词表、转折连词表、并列连词表、总结连词表等词汇表,作为情感分析的基础资源。词表均以文本文件的形式提供。
取得带词性标注的数据之后,我们首先使用基本情感倾向词汇表S1、S2、S3对形容词、动词、名词及情感符号的情感进行标注,然后再依据程度副词表、否定词表对一些副词进行情感标注。程度副词只影响情感的强弱,而否定词则会使情感的极性发生翻转。由转折连词连接的两个短语,前后极性相反;而由并列连词连接的两个短语,前后极性一致。总结连词连接的短语倾向,则有助于推断整个评论的倾向。
4.1.1 情感修饰部分D_modifier的计算
主要是副词的情感值,这个值可能会使情感强度加强或变弱(程度副词),情感极性发生翻转(否定副词)。D_modifier的初始值设为1:D_modifier=1;遇到情感值非零的副词,假设其情感值为val_d,更新D_modifier:
(1)
4.1.2 短语情感值P_emotion的计算
假设中心词的情感值为val_main,那么短语的情感值为:
(2)
例1 {[非常 | d | 0 | ], (非常), (d)} {[简洁 | a | 1 | ], (简洁),(a)}
P_emotion=1;//”非常”的情感值为0时,D_modifier用默认值1,对后面的中心语没有影响;P_emotion=1.5;//”非常”的情感值为1.5时,D_modifier为1.5,加强后面的中心语的情感。
例2 {[并 | d | 0 | ], (并), (d)} {[不 | d | -1 | ], (不), (d)} {[妨碍 | v | -1 | ], (妨碍), (v)}
P_emotion=1;
D_modifier=-1; val_main=-1
计算过程:
“并”的情感值为0,不更新D_modifier;
“不”的情感值为-1,更新D_modifier,D_modifier=-1
4.2 <评价对象,评价短语>二元对提取
对于每一类产品,我们给出了一个主要特征文件,并对每个特征的重要性进行了加权标注。这样,有两种获取二元对的方法:一是识别出特征文件中提供的特征,依据特征所在的短语(评价对象),由句法关系来找评价短语;另一种是依据评价短语找评价对象:根据情感词所在的短语(评价短语),由句法知识找到情感所针对的对象(评价对象),从而获得<评价对象,评价短语>二元对。
由句法关系提取二元对示例:
例3 “具有/具/有”表示拥有且存有主述事物的属性特征。常见的有两种用法:主述事物+“具有/具/有”+属性特征,“具有/具/有”+属性特征+“的”+主述事物。
在第一种用法中,”具有/具/有”是句子中的主要动词,作谓语,此时符合要求的二元对是<主述事物,属性特征>,如表3中的测试用例S0002所示。
在第二种用法中,“具有/具/有”之前通常是一个动词,“具有/具/有”位于一个“的”字结构内,符合要求的二元对是<主述事物,“具有/具/有”+属性特征+“的”>,如表3中的测试用例S0001所示。
表3 <评价对象,评价特征>二元对提取示例
例4 状中结构(ADV)中,中心语是情感短语,而修饰词是介词短语(在……上,在……方面),这时,情感对象为介词的宾语——介词后的名词性成分,如S0003所示。
例5 定中结构(ATT)中,修饰语是情感短语,此时中心语即为评价对象,如S0004所示,由“优秀的工业外型设计”,可提取出二元对:<工业外型设计,优秀的>。
例6 主谓结构(SBV)中,谓语是情感短语,此时主语即为评价对象,如S0005所示,由“反光板会不会突然坏掉”,可提取出二元对:<反光板,突然坏掉>。
例7 动宾结构(OBJ)中,谓语是情感短语,此时宾语即为评价对象,如S0006所示,可提取出二元对:<佳能130的屏幕, 喜欢>。
4.3 评论整体情感倾向的确定
找出二元对之后,依据4.1所提供的倾向性计算方法,计算其情感倾向值;根据评价对象,确定该二元对属于哪个侧面/特征。在评论整体的情感分析程中,首先可以利用式(3)(满足4的约束)来计算评论Ri的语义倾向:
(3)
(4)
(5)
其中,NumA是侧面的总数,SO(Aj)是第j个侧面的语义倾向,SO(All)是整体的评价,λj是第j个侧面的评价所占的系数,α、β分别为各侧面的评价均值、整体的评价在Ri的情感倾向确定时所占的系数。
在原型中,λj,α、β的值暂由人工指定,放在指定的文本文件中。在算法实现中,依据式(5),β采用动态调整的策略,相应地,α的值也做动态地调整(α=1-β)。如果想通过机器学习的方法自动学习这些参数值,学好后,放入指定的文本文件即可。
5 实验结果
本文所提的评论倾向性分析思想有点儿类似于李岩等[12]。在COAE 2013评测的任务三——观点句抽取评测中,对于每个分句,他们都使用哈尔滨工业大学的LTP工具进行句法分析,得到词与词之间的修饰关系和层次关系(25种),每个词和父结点构成一个词语对,利用某种方法对词语对进行评分;子句的得分是将词语对的得分按层次加和计算得到。最后,将子句的得分加和得到文档的得分。在任务3的测评中,系统整体的Macro F1和Micro F1是最好的。
李岩等[12]基于依存分析的观点句要素抽取——COAE 2013的任务四。基本思想是遍历词,判断是否满足特征(主要有词性和依存关系两种)。人工找到二十种可能的依存关系:(评价对象,评价特征,情感词)或(评价对象,情感词)。由于微博数据并非规范化的文体,规则不可能有完全的覆盖,尝试用产品和属性词表进行匹配提高系统召回率。在评测中,系统整体的Macro F1和Micro F1排名第二。
本文所提的方法将二元对的呈现方式归结为五种,简化了二元对的呈现模式。理论上来讲,与李岩等[12]所提的方法有类似的结果。但是,经过实际测试,我们的实验结果要差一些。部分原因是程序逻辑的问题,比如说,在有多个正则表达式可以匹配时,优先使用哪个。
6 存在问题
在系统原型实现过程中,除了上节提到的程序逻辑问题,我们还发现了一些需要自然语言理解的底层技术来解决的问题。
6.1 词性标注错误
例8 负责这项事务的高级工程师,非常认真负责。
负责/v 这项/r 事务/n 的/u 高级/a 工程师/n ,/w 非常/d 认真/ad 负责/v 。/w
“负责”可做形容词,也可做动词,第二个“负责”应做形容词,而这个词在不同词性下的含义是不同的,词性标注错误直接导致情感判断出错。
6.2 新词识别及分词错误问题
例9 酷派700是一款支持双模双待功能的翻盖双屏3手机。
酷/ag 派/v 700/m 是/v 一/m 款/q 支持/v 双/m 模/ng 双/m 待/vg 功能/n 的/u 翻盖/v 双/m 屏/ng 3/m 手机/n 。/w
“酷派”是一个专有名词,不能被正确识别。
6.3 指代消解问题
例10 很多人抨击奥迪的致命缺点,但这并不影响我毫无保留地爱它,为它自豪!
分词及词性标注之后:
很多/m 人/n 抨击/v 奥迪/n 的/b 致命/a 缺点/n ,/w 但/c 这/r 并/d 不/d 影响/v 我/r 毫无/v 保留/v 地/u 爱/v 它/r ,/w 为/p 它/r 自豪/a !/w
在这里,可以识别出二元对:<它,毫无保留地爱>,<它,自豪>
但是,这样的结果感觉很奇怪,如果通过指代消解,就可以得到:
<奥迪,毫无保留地爱>,<奥迪,自豪>
6.4 词汇情感标注问题
目前使用较频繁的情感资源,如Hownet情感词汇表,是以词形的形式给出的。但是,一词多义在语言中是一个普遍现象,例如,“次”作为形容词时表示负向情感,而作为量词时,不具有情感倾向。同一词性下只有一个词义的情况下,用词性进行排歧是一种区别情感倾向的方法。如果同一词性下有多个词义,表现出不同的语义倾向,此时通过词性并不能正确区分情感,如“幼稚”[30]。如果能通过上下文对出现在情感词汇表的词进行词义排歧,那么必将会提高情感倾向分析的准确率。
词义排歧、新词识别、词性标注、指代消解都是典型的NLP问题,它们是正确地进行倾向性分析的基础。
[1] N Jindal, B Liu. Opinion Spam and Analysis[C]//Proceedings of WSDM’08. 2008: 219-230.
[2] Jindal N, Liu B. Analyzing and detecting review spam[C]//Proceedings of the 7th IEEE Int’l Conf.on Data Mining. Washington: IEEE Computer Society, 2007: 547-552.
[3] 赵妍妍, 秦兵, 刘挺,等. 文本情感分析[J]. 软件学报, 2010, 21(8): 1834-1848.
[4] 王素格, 李德玉, 魏英杰,等. 基于赋权粗糙隶属度的文本情感分类方法[J]. 计算机研究与发展,2011,48(5): 855-861.
[5] 梁军,柴玉梅,原慧斌,等.基于深度学习的微博情感分析[J].中文信息学报,2014, 28(5):155-161.
[6] 李国林,万常选,边海容,等.基于语素的金融证券域文本情感探测[J].计算机研究与发展,2011,48(z2):432-437.
[7] 王昊,杨亮,林鸿飞,等.日本地震的微博热点事件分析[J].中文信息学报,2012,26(5):7-13.
[8] 林煜明,王晓玲,朱涛,等.用户评论的质量检测与控制研究综述[J].软件学报,2014, 25(3):506-527.
[9] Ott M, Choi Y Cardie, et al. Finding Deceptive Opinion Spam by Any Stretch of the Imagination [C]//Proceedings of ACL 2011: 309-319.
[10] https://www.mturk.com/mturk/welcome[EB/OL]. [2014-12-8]
[11] Popeseu AM, Etzioni O. Extracting Product Features and Opinions from Reviews [C]//Proceedings of HLT-EMNLP 2005. 2005: 339-346.
[12] 李岩,徐蔚然,陈光. PRIS_COAE CPAE 2013评测报告[C]//第五届中文倾向性分析评测研讨会(COAE 2013)评测报告论文集,2013: 53-69.
[13] 张莉, 钱玲飞, 许鑫等. 基于核心句及句法关系的评价对象抽取[J]. 中文信息学报, 2011, 25(3):23-29.
[14] Titov I, McDonald R. Modeling Online Reviews with Multi-grain Topic Models [C]//Proceedings of WWW 2008. 2008: 111-120.
[15] C Sauper, A Haghighi, R Barzilay. Content Models with Attitude [C]//Proceedings of ACL 2011. 2011: 350-358.
[16] Hu MQ, Liu B. Mining and Summarizing Customer Reviews [C]//Proceedings of KDD 2004. 2004: 68-177.
[17] Shoushan Li, Chengqing Zong and Xia Wang. Sentiment Classification through Combining Classifiers with Multiple Feature Sets [C]//Proceedings of NLP-KE 2007. 2007: 135-140.
[18] 王根, 赵军. 基于多重冗余标记CRFs的句子情感分析研究[J]. 中文信息学报, 2007, 21(5): 51-55,86.
[19] Andrew L Maas, Raymond E Daly, Peter T Pham, et al. Learning Word Vectors for Sentiment Analysis [C]//Proceedings of ACL 2011: 142-150.
[20] L Jiang, M Yu, M Zhou, et al. Target-dependent Twitter Sentiment Classification [C]//Proceedings of ACL 2011: 151-160.
[21] http://ictclas.nlpir.org/[EB/OL]. [2014-12-8]
[22] 谢涛丽.定中式“V+N”结构研究[D].上海师范大学硕士学位论文,2010.
[23] 尹世超.动词直接作定语与名词中心语的类[J].语文研究,2002,(2):1-7.
[24] 吕叔湘.吕叔湘全集(第一卷):中国文法要略[M].沈阳: 辽宁教育出版社, 2002.
[25] 张学会.浅析动词作宾语的谓宾动词[J].大庆师范学院学报,2008,28(1):99-101.
[26] 马新娜.试论形容词作宾语的述宾短语[D].浙江师范大学硕士学位论文,2010.
[27] 武钦青.述程结构“V/A+得+程度补语”研究[D].上海师范大学硕士学位论文,2012.
[28] 钱小飞.“地”字结构识别[J].现代语文(语言研究),2006,(5):61-63.
[29] 李淑荣.语气词“好了”[J].语文学刊,2006,(7):97-99.
[30] 杨亮,张绍武,林鸿飞等.基于图排序的词汇情感消歧研究[J].中文信息学报,2014, 28(6):129-136.
Semi-automatic Acquisition of Fake Chinese Reviews
HAO Xiulan, XU Fangqu, JIANG Yunliang
(School of Information Engineering, Huzhou University, Huzhou, Zhejiang 313000, China)
An approach is introduced to acquire fake Chinese reviews semi-automatically. It mainly includes a platform to get fake reviews, a syntactic parser, and a sentiment analysis component. Emphasis is on a syntactic based sentiment pair extraction,
computer application; Chinese information processing; sentiment analysis; fake Chinese reviews; semi-automatic acquisition
郝秀兰(1970—),副教授,主要研究领域为自然语言处理,数据与知识工程。Email:hxl2221_cn@zjhu.edu.cn蒋云良(1967—),教授,主要研究领域为知识融合,大数据处理与专家系统。Email:jylsy@zjhu.edu.cn许方曲(1993—),主要研究领域为软件优化。Email:2392096782@qq.com
1003-0077(2016)01-0190-08
2013-07-08 定稿日期: 2014-08-10
浙江省自然科学基金(LY12F02012);国家级大学生创新创业训练计划(201310347007);国家自然科学基金(61370173,61202290);浙江省科技计划资助项目(2013C31138)
TP391
A