APP下载

面向特定领域的产品评价对象自动识别研究

2010-06-05宋晓雷王素格李红霞

中文信息学报 2010年1期
关键词:产品名称预处理聚类

宋晓雷,王素格,2,李红霞

(1. 山西大学 数学科学学院,山西 太原 030006;

2. 山西大学 计算智能与中文信息处理教育部重点实验室,山西 太原 030006)

1 引言

随着Internet的迅猛发展和电子商务的不断普及,客户评论的数量迅速增长,仅靠人名、地名、机构名这三种传统的命名实体识别越来越不能满足文本倾向分析中关键信息抽取的需要,尤其是产品的相关信息抽取的研究。因此,针对这一问题国内外学者[1-9]开展了相关的研究。

在国际评测中,TREC BlogTrack以及NTCIR等将产品命名实体识别作为其任务之一。在国内首次评测COAE2008[4]中,有20个国内知名研究机构参与了此次评测,其中有13个单位参加了任务3产品属性抽取,文献[5]和文献[6]分别采用最大熵模型和CRF模型取得了不错的成绩;然而采用有监督的学习方法[5-6]进行产品命名实体识别时需要大量的标注语料,且费时较多。文献[7-8]都是利用外部资源信息来构造相应的词典,但词典的构建本身是一个难题。赵军等[1]在2006年提出了一种基于层级隐马尔可夫模型的产品命名实体识别方法,该方法很好地处理了多尺度嵌套序列问题;Minqing Hu[9]使用关联规则挖掘频繁项作为候选产品命名实体,并对其进行了剪枝处理,然而规则的简单性使其得到的产品命名实体识别效果不佳。Hongye Tan等[2]对模板进了泛化,分别使用软模板和特征向量模板对产品命名实体进行了识别,将产品命名实体识别看作分类问题,取得了令人满意的结果;然而文献[2]采用了多领域协同识别,在提高识别性能的同时也限制了它的广泛应用;文献[10-11]采用自举学习方法结合上下文模板进行英文命名实体识别,通过在评价候选命名实体之前进行一些简便有效的预处理使其性能得到进一步提高。

总的来说,目前关于产品命名实体识别任务的相关方法还存在以下问题:一是需要大量的基础工作且不便于迁移,代价太大;二是结果不太理想,有待于进一步提高。上述研究都是对产品名称或产品属性分别抽取,并没有同时抽取产品名称和产品属性。若能正确地识别出产品名称和产品属性,就可以获取更加详细和精确的产品信息。因此,在没有充分的外部信息的前提下,同时识别出产品名称和产品属性,显得更为重要。

文献[10]的研究表明,特定领域的模板可以极大的提高模板的性能。因此,本文从特定领域开展研究,同时鉴于产品名称和产品属性作为评价对象在语境中具有相似性,在抽取评价对象时采用了同时抽取出产品名称和产品属性的策略。从小种子集出发,综合使用了词形模板和词性模板,通过模糊匹配的方法,提高候选评价对象的召回率;在评估候选评价对象之前对其进行预处理,提高候选评价对象的精确率;在进行产品评价对象识别时,采用双向Bootstrapping;最后采用K均值聚类进一步对识别结果进行聚类,将其自动识别为产品名称和产品属性。

2 产品评价对象与评价词

1) 产品评价对象

在产品评论中,用户通常关心被评价的对象,但对产品评价对象人们很难给出统一的定义。通过对大量真实产品评论文本的观察发现,产品评价对象经常是以如下三种方式出现:

① 产品的整体;② 产品的某个部件;③产品的特性及其外延。

例如:在汽车评论文本中,被评价的对象通常有:宝马依旧表现出色;速腾的变速箱真是不错;Polo的安全、质量和口碑也还不错。

为了叙述的方便,我们将第1类的评价对象称为“产品名称”,第2类和第3类的评价对象统称为“产品属性”。

2) 评价词

J.Wiebe[12]的研究表明:形容词可以作为判别句子主客观性的依据,此外,通过大量评论语料观察发现,成语和习惯用语也经常用于评论句。因此,本文选用形容词、成语和习惯用语作为评价词。

3 候选评价对象抽取

通过对大量真实的产品评论文本的观察,我们发现产品评价对象往往是名词或名词短语,何婷婷[13]的工作也证明了将名词或名词短语作为候选评价对象是可行的,因此,本文将形式为n、n n、n n n的名词短语作为候选评价对象。

3.1 模板的形式(词形模板和词性模板)

模板1:“slot-len,…,slot-i,…,slot-1,word,#”;

模板2:“#,word,slot+1,…,slot+i,…,slot+len”;

模板3:“slot-len,…,slot-i,…,slot-1,word,slot+1,…,slot+i,…,slot+len”;

其中:word表示抽取的评价对象;#表示句子的开始或结束或任意的词或词性;slot-i(slot+i)表示评价对象word左面(右面)的第i个槽;len表示窗口的长度。当模板中所有的槽用词形(词性)来表示时,该模板为词形(词性)模板;评价对象与槽可以相邻,也可以不相邻。

例句:“哈飞赛豹 n 的 u 安全性能 n 还是 d 值得 v 信赖 v 的 u”。

由评价对象“哈飞赛豹”从句子中抽取出窗口长度为1的词形和词性模板分别为: “#,word,的”,“#,word,u”。

3.2 候选评价对象的抽取

为了获得候选评价对象,本文利用上述模板1~3,依次搜索评论语料中的每个句子,采用模糊匹配方法对模板与句子进行匹配,仅抽取与模板匹配且距离slot-1或slot+1最近的名词短语(除去时间、人名、地名、方位名等名词短语)作为候选评价对象。

3.3 候选评价对象预处理

为了提高候选评价对象的精确率,在对候选评价对象打分之前对其进行如下预处理。

〈1〉去除停用词。这里的停用词包括通用停用词和领域停用词[14];

〈2〉中心词剪枝。采用如下规则:

如果head(hx)=“车”,则去除hx中的中心词。若余下的部分长度大于1,则将其作为新的候选评价对象,这里的hx为候选评价对象。

〈3〉名词剪枝[8]:有些名词本身并不是商品属性,但它出现在某个商品属性中(例如“高度”与“底盘高度”),而且与该商品属性同时作为候选评价对象被抽取,为了排除此类名词(如“高度”)作为候选评价对象,我们采用规则:如果A⊂B,并且count(A)

4 基于Bootstrapping方法的评价对象抽取

为了获取评价对象,我们采用双向Bootstrapping方法,其过程为:从小种子集(以模板种子集为例)出发,抽取候选评价对象后,对其采用第3节中的方法进行预处理和评分(利用公式(1)进行评分),选取分值最高的前5个候选评价对象加入到评价对象集,然后从评价对象集再抽取新的模板,根据已有的评价对象集对其进行评分,选择分值最高的前5个模板加入到模板集,然后再利用现有的模板抽取新的评价对象。重复上述过程,直到没有发现新的符合条件的模板为止。

上述过程中采用的候选评价对象评分标准如下:

(1)

其中:Scorepjc(hx)表示相邻评价词信息,即候选评价对象前后十个位置含有的评价词的数目。Scorec-s(hx)表示词汇(短语)支持度,即词汇或短语在语料中出现的次数。Scorep-s(hx)表示纯支持度[8],即指候选评价对象作为名词或名词短语在句中出现,并且句中不再包含其他候选评价对象的句子数目。Scorem-s(hx)表示模板支持度,即候选评价对象被模板从语料中抽取出来的次数。本文中,α、β、γ均取0.25。

5 产品名称和产品属性的识别

为了把评价对象区分为产品名称和产品属性,本文利用前向选择算法选取文档频率、词频和段落信息(即候选评价对象在文中的位置信息)三个特征作为聚类特征,进一步采用K-means方法对评价对象进行聚类,其中所用的度量两个向量之间的距离的方法为夹角余弦。

例如,通过对评价对象集中词语聚类,可以找到如下的聚类结果:

{宝马,奥迪,骏捷,思域…};{动力,空间,发动机,内饰…}。

6 实验与分析

6.1 实验数据与评价指标

实验数据采用COAE2008的Dataset2中的汽车评论作为语料库,共有156篇评论,平均每篇语料包含6~10个句子。

评价对象的评价指标:由于产品评价对象表达形式非常灵活,本文采取了软评测方法[1],并采用三个评价指标:精确率、召回率和F值。这里的评价对象包括产品名称和产品属性。

产品名称和产品属性的评价指标:通过对评价对象聚类,可以得到产品名称与产品属性。本文参考文献[15],采用以下评价指标。

其中,Ti表示评价对象中应有的某个类别,ni表示Ti中含有的元素个数,Cj表示对评价对象聚类所得的某个类别,nj表示Cj中含有的元素个数,C表示聚类的总类别,nij表示Ti与Cj共有的元素个数。

6.2 评价对象识别结果与分析

为了验证第4章中基于Bootstrapping方法的识别评价对象方法的有效性,我们采用了如下方法进行实验,实验结果见表1。本实验中的窗口长度均选为2,种子集中种子的个数均选为7。初始评价对象种子集为:“宝马”、“内饰”、“空间”、“宝来”、“发动机”、“做工”、“奥迪”;初始词形模板种子集为:“#,word,是,汽车”、“的,word,#”、“#,word,车型”、“#,word,系”、“试驾,word,#”、“#,word,公司”、“#,word,方面”。

方法1:候选评价对象未经过预处理,以初始模板种子集出发,采用Bootstrapping方法进行评价对象的识别。

方法2:候选评价对象经过预处理后,以初始模板种子集出发,采用Bootstrapping方法进行评价对象的识别。

方法3:候选评价对象经过预处理后,以初始评价对象种子集出发,采用Bootstrapping方法进行评价对象的识别。

方法4:候选评价对象经过预处理后,以初始评价对象种子集出发,采用Bootstrapping方法进行评价对象的识别。

方法5:候选评价对象经过预处理后,以初始模板种子集+初始评价对象种子集出发,采用Bootstrapping方法进行评价对象的识别。

方法1~方法3模板采用词形模板,方法4模板采用词性模板,方法5模板采用词形十词性模板。

由表1可知:

1) 方法2的结果优于方法1的结果,说明在每次迭代前对候选评价对象经过预处理比未经过预处理的效果好,也说明对候选评价对象进行预处理后,一定程度上可以减少错误的蔓延,避免因错误的累积而造成识别性能的急剧下降。

2) 方法3和方法2相比,前者的召回率高于后者,但精确率却低于后者,使得前者和后者的F值相当,说明它们在召回率和精确率上具有一定的互补性。

3) 方法4与方法3、方法2相比,评价对象识别的各项指标均最低,说明模板采用词性模板,在以评价对象种子集出发的Bootstrapping方法进行评价对象的识别不能得到令人满意的结果。

4) 方法5与方法2相比,前者的召回率高于后者,但精确率却低于后者,说明词性模板在某种程度上是词形模板的泛化,使得F值略高于后者。

6.3 产品名称与产品属性识别结果与分析

为了验证第5章方法的有效性,我们将评价对象分为已校对和未校对两种情况进行实验,将评价对象分为产品名称和产品属性两类,实验窗口长度为1,实验结果见表2。

表2 产品名称与产品属性识别结果

由表2可知:

1) 对已校对的评价对象进行聚类,得到产品名称和产品属性的F值分别达到了84.88%和60.76%。说明本文的聚类方法用于区分产品名称和产品属性是可行的。此外,我们发现实验中识别产品名称的效果显然优于产品属性的效果,主要是由于本文的聚类特征能对产品名称进行很好的描述,因此更倾向于将产品名称聚为一类。

2) 对评价对象未校对与已校对相比,评价对象未校对在区分产品名称和产品属性的性能上下降了很多。说明利用Bootstrapping识别的评价对象直接进行聚类,不可避免地引入了Bootstrapping识别评价对象时各种噪声(即非评价对象),使得产品属性的识别效果不太理想。因此,应进一步加强产品属性识别的研究。

7 结束语

本文给出了特定领域的产品评价对象的定义,提出了一种不依赖外部资源的无指导评价对象自动识别方法。首先对传统的模板匹配方法进行了改进,综合使用了词形模板和词性模板,在评估候选评价对象之前对其进行预处理;然后,从小种子集出发,识别出产品评价对象后自动对结果进行了聚类,进一步将其分为产品名称和产品属性。整个过程没有用到外部资源,在外部资源不充分的未知领域或新领域处理海量冗余网络数据有一定的指导意义。由于目前还没有同时识别出产品名称和产品属性的相关实验,我们无法找到已有的研究与我们的实验同时做比较;文献[5]其与位置无关的产品属性抽取的Lenient结果的F值为0.159 7,我们的0.271 6与之相比稍高,然而与所有评测结果平均值(与位置无关的Lenient结果)——0.491 03相比,我们还有很大的差距。文献[4]采用自举的学习方法结合HMM进行英文命名实体识别,在产品名称命名实体(相当于本文的产品名称)识别中获得69.18 %的F值,与本文产品名称识别的F值(69.48%)相近,然而文献[4]的模型复杂度较高;文献[3]在汽车领域的产品名识别中获得73.1%的F值,比本文性能有所提高,但我们的方法有更广的使用范围。此外,我们的方法还有很大的提升空间,聚类中适当添加其他的特征以便减少噪声或者考虑聚为3类(产品名称、产品属性以及非评价对象)。

[1] 刘非凡,赵军,吕碧波,等. 面向商务信息抽取的产品评价对象识别研究[J].中文信息学报,2006,20(1):17-20.

[2] Hongye Tan,Tiejun Zhao,Jianmin Yao. A Study on Pattern Generalization in Extended Named Entity Recognition[J]. Chinese Journal of Electronic,2007,16(4):675-678 .

[3] Cheng Niu,Wei Li,Jihong Ding,etc. A Bootstrapping Approach to Named Entity Classification Using Successive Learners[C]// Proceedings of the 41st ACL,Sapporo,Japan,2003:335-342.

[4] 赵军,许洪波,黄萱菁,等. 中文倾向性分析评测技术报告[C]// Proceedings of The COAE2008,Harbin,2008:1-20.

[5] 何慧,李思,肖芬,等. PRIS中文情感倾向性分析技术报告[C]// Proceedings of the COAE2008,Harbin ,2008:46-55.

[6] 张姝,贾文杰,夏迎炬,等.基于CRF的评价对象抽取技术研究[C]//Proceedings of the COAE2008,Harbin,2008: 32-37.

[7] 王俞霖,孙乐. 中国科学院软件研究所COAE2008报告[C]// Proceedings of the COAE2008,Harbin ,2008:1-20.

[8] 赵妍妍,刘鸿宇,秦兵,等. HIT_IR_OMS:情感分析系统[C]//Proceedings of the COAE2008,Harbin ,2008:81-88.

[9] Mingqing Hu and Bing Liu. Mining and Summarizing Customer Reviews[C]//Proceedings of the tenth ACM SIGKDD.2004:168-177.

[10] O. Etzioni,M. Cafarella,D. Downey,etc. Unsupervised Named-Entity Extraction from the Web: An Experimental Study[J].Artificial Intelligence,2005,165(1):91-134.

[11] E. Riloff,J. Wiebe,and T. Wilson. Learning Subjective Nouns Using Extraction Pattern Bootstrapping[C] // Proceedings of the Seventh Conference on Natural Language Learning,2003: 25-32.

[12] J. Wiebe,T. Wilson,R. Bruce,etc. Learning Subjective Language [J].Computational Linguistics,2004,30(3): 277-308.

[13] 何婷婷,闻彬,宋乐,等. 词语情感倾向性识别及观点抽取研究[C]//Proceedings of the COAE2008,Harbin ,2008: 89-93.

[14] 黄雄. “小灵通”问答式搜索引擎[R].北京: 中科院计算技术研究所,2007.

[15] 赵世奇,刘挺,李生. 一种基于主题的文本聚类方法[J].中文信息学报,2007,21(02): 58-62.

猜你喜欢

产品名称预处理聚类
求解奇异线性系统的右预处理MINRES 方法
附表5 2021 年饲料添加剂产品批准文号
高COD二噻烷生产废水预处理研究
基于K-means聚类的车-地无线通信场强研究
国际化妆品名称的翻译策略
三、撤销登记
基于预处理MUSIC算法的分布式阵列DOA估计
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法