APP下载

基于条件随机场的商品评论信息抽取研究

2015-01-18李总苛

湖北工业大学学报 2015年5期
关键词:维度特征文本

刘 坤,黄 炜,2,李总苛

(1湖北工业大学管理学院,湖北 武汉430068;2武汉理工大学管理学院,湖北 武汉430070)

1 商品评论信息抽取的研究目的及意义

近年来,随着互联网技术的迅猛发展,Web信息与日俱增,信息技术渗透到人们生活的各个角落。互联网的高速发展同时带动了电子商务业务。2013年,中国最大的电子商务网站淘宝网总成交额为1.1010万亿元,相当于总成交额为765亿美元的eBAY的2.3倍。在2014年,仅在双11这一天淘宝网上的电子商务总额就达到571亿元人民币[1]。

网上购物不受时间和空间的限制,突破了传统商务模式的障碍,无论对消费者、企业,还是市场都有着巨大的吸引力和影响力。网购的局限性,比如无法触摸到实物、不知道是否存在色差、尺码是否标准等缺陷,使得用户在购买商品前大多喜欢参考别人对商品的评论信息,以此来确定是否符合自己的需求;商品制造商也希望根据评论信息及时认识到商品的不足,对商品做出改进,开发出更适合用户的商品。因此迫切需要一种有效的方法来整理和挖掘这些海量的评论,并且以直观统一的形式展现出结果。

本文运用自然语言处理技术以及信息抽取技术提高用户评论信息的利用率以及应用范围,使用户能更全面地了解要购买的商品,对用户的决策提供支持;同时对商家而言,可根据抽取的信息得出消费者对商品信息的满意度,从而改进商品质量和服务质量,提高用户满意度,对于网络个性化服务系统的改进与更新具有一定价值。

2 信息抽取技术

由于评论信息形式和内容的随意性,大多数评论者喜欢写上一大堆话,而具有直接导向性的评论语言只占很小一部分,致使对评论文本的研究十分困难,通常需要结合数据挖掘、自然语言处理、统计学、语料库学习等多学科交叉来解决评论信息的抽取问题。商品评论挖掘是一种能从非结构化数据中找到有效信息的技术,将文本的非结构化信息转化为有效的关键信息需要将其结构化,文本信息自动抽取技术正是数据结构化的一个重要环节。

评论信息抽取研究中,大多从主题的角度进行商品评论的信息抽取,本文尝试从商品属性角度着手,以商品属性为中心,来挖掘出消费者对其的情感观点,以及观点态度的强弱。

3 信息抽取的相关研究方法

3.1 传统的信息抽取方法

Riloff和Jones[2]在1999年提出基于词典的信息抽取,但该方法的在抽取文本信息之前,首先需要人工去建立或是整理一个词典,根据词典定义的模式去抽取存在于词典中但未标记出的所需的文本信息。以Kushmerick[3]为代表的研究者提出一种基于规则的信息抽取,但基于规则的文本信息抽取模型也需要先构造抽取规则集,相对于基于词典的信息抽取有一定的扩展性。其表示关系的造句结构可获取有关词汇和其它语义关系的信息[4]。但规则的定制主要依赖语言学家的语言知识,需要构造描述领域词特点的规则库。但总的来说,匹配基于词典和基于规则的抽取模型人工参与度较大,工作繁琐,且系统适应性效果较差。2004年Hu和Liu等人[5]首次提出使用关联规则挖掘算法、压缩修剪、冗余修剪等技术抽取高频名词或名词短语,但是实验表明,其信息抽取的精度还有待进一步提高。

3.2 基于机器学习的信息抽取

基于词典和规则的信息抽取的方法需要人工参与,并且领域性较强,难于扩展。而基于统计学习的方法适应性较好,只需要少量的人工参与,但与此同时,基于统计的学习需要大量的训练数据,并且抽取效果对算法的设计要求较高。

3.2.1 最大熵模型 所谓最大熵方法就是遵循最大熵原理的建模[6],基本思想是选择符合约束条件的所有分布中熵最大的那一个分布。最大熵原理最初由 E.T.Jaynes在1957年提出,DellaPietra等人[4]于1992年首次将其应用于自然语言处理模型中。

章剑锋等[7]提出了基于最大熵模型的中文评论主观性关系挖掘方法,来提取抽取评价词和目标对象之间的关联关系。Somprasertsri和Lalitrojwong[8]提出用一个预先标注的文本训练最大熵模型,然后用训练得到模型从商品评论中抽取评论对象,实验结果的准确率达到了71.88%,召回率为75.23%。

最大熵模型的优点之一是可融合多种特征于一个模型,并且可以直接对这些特征进行建模。但最致命的是,作为一种分类器模型,最大熵对每个词都是单独进行分类的,标记之间的关系无法得到充分利用。

3.2.2 隐马尔科夫模型 隐马尔科夫模型(hidden Markov models)基于马尔科夫假设,当前状态只与前一个状态有关[9]。对于文本信息抽取,每个维度的关键词可看作一种状态,利用HMM抽取关键词,可看作一个由观测词的序列到某一维度的状态序列的解码过程。

HMM易于建立,不需大规模的词典集与规则集,抽取精度较高。文献[10]应用 HMM 抽取计算机科学研究论文的标题、作者和摘要等头部信息。文献[11]使用随机优化技术动态选择最适合的HMM模型结构进行信息抽取。但HMM是一种产生式模型,具有较强的独立性假设,所以忽略了上下文的特征,另一方面,产生式模型需要估计联合分布,所以在分词任务上的应用性能要低于判别式模型。

3.2.3 条件随机场模型 条件随机场(CRFs,Conditional Random Fields)算法是另一种基于监督的挖掘方法,它是一种无向图模型,可用于最大化条件概率。它通过定义最大化条件概率p(y|X),选择一个标签序列y标注一个观察序列X。该特性使得CRFs广泛使用于传统的信息抽取任务,如序列标记、数据分割、组块分析、词性标注和解析等。显然,基于CRFs的特点,它能考虑商品评论文本中被评价实体的任意方面,而且不需要条件独立假设,因此在产品评论挖掘中有潜在的优势。Chen等人[12]利用CRFs实现了从评论中抽取多种类型的评论信息。

3.3 基于机器学习的信息抽取算法比较

最大熵模型最大的缺点是无法很好地处理序列标注问题,因为他定义的特征无法刻画状态间的联系。隐马尔科夫模型一个最大的缺点就是由于其输出独立性假设,导致其不能考虑上下文的特征,限制了特征的选择。针对以上两个模型的缺点,对于序列标注问题,文献[McCallum,2000][13]一文中提出最大熵隐马模型,其核心思想是对相邻的状态使用最大熵模型。该模型可以任意选择特征,但由于其在每一节点都要进行归一化,所以只能找到局部的最优值,导致最后得到的序列仅仅是个局部最优解,同时也带来了标记偏置的问题(label bias),即在计算概率分布时,凡是训练语料中未出现的情况全都忽略掉。针对这个问题,[Lafferty,2001][14]一文中提出了条件随机场模型(CRFs),CRFs算法统计了全局概率,在做归一化时,考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM 中的标记偏置(label bias)的问题。

从图1模型中来看待三个算法的区别:HMM是一种产生式模型。图1诠释了HMM模型中存在两个假设:一是输出观察值(X)之间严格独立,二是状态的转移(Y)过程中当前状态只与前一状态有关(一阶马尔可夫模型)。因此HMM模型在模型的特征选择过程中,忽略了上下文的特征,影响特征的选择。

图1 HMM模型图

由图2知:最大熵隐马模型MEMM模型克服了观察值之间严格独立所产生的问题,可以任意的选择特征。但是由于状态之间的假设理论,使得该模型存在标注偏置问题,即在训练语料中未出现的标注全都忽略。

图2 MEMM模型图

图3 显示CRFs是无向图模型,它是一种链式的判别模型,不需要独立性假设。模型解决了标注偏置问题,去除了两个不合理的假设,即HMM中当前状态只与上个状态相关,以及当前的观测值只与当前状态相关(上图Y之间没有箭头了)。但随之,模型相应地也变复杂了。

图3 CRFs模型图

因此,基于序列标注的信息抽取模式中,CRFs有以下三个优点:

1)与最大熵模型比较:CRFs是在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率分布,而不是在给定当前状态条件下,定义下一个状态的状态分布。

2)与HMM比较:CRFs没有HMM那样严格的独立性假设条件,因而可以容纳任意的上下文信息,特征设计灵活。

3)与MEMM比较:由于CRF计算全局最优输出节点的条件概率,它还克服了最大熵马尔可夫模型标记偏置(Label-bias)的缺点。

但于此同时,正是由于这些优点,在序列标注的信息抽取模式中,CRFs需要训练的参数更多,时空开销大、复杂度高。

4 商品评论信息抽取的设计与实现

基于以上对信息抽取的主流机器学习算法进行分析,本文采用精度和对数据特征拟合度更好的条件随机场算法进行商品评论的信息抽取,对训练样本进行评论文本信息抽取的序列标注。

4.1 训练语料与算法的设计实现

本研究实验的数据来自天猫网站上优衣库官网的商品评论数据2万条。CRFs的算法实现来自采用开源的CRF++-0.54工具包,以此为基础展开CRFs模型的训练和测试。

原始的商品评论数据经过清洗和去噪后,利用jieba分词组件对每一条训练数据进行分词。其中,为了提高jieba分词针对当前数据的分词效果,本研究根据当前数据整理了一套自定义词典(表1)。

表1 自定义词典样例

CRFs模型的训练需要提供训练数据和特征模板,由此来生成一个模板(model)。根据条件随机场算法的特征选取特点,本实验对jieba分词的五种不同词性标注信息。分别为:名词n,动词v,形容词a,副词f,其他o。对于文本评论信息,定义了待抽取的三个维度的关键信息,其输出标记为:商品特征T,程度副词或者否定副词C,情感观点P,其他O。

训练数据文件特征由两个维度的信息构成,一个是词的本身,一个是当前词的词性。这两列数据由Tab或空格隔开,第三列是人工标注的标签,从标签集合{T,C,P,O}取出,并对应指出评论文本中的各个维度的关键信息。每个评论样本以空行隔开。在使用CRF++过程中,本实验采用默认的一元模板和二元模板信息,存储在template文件中。CRF++可根据两个维度的信息和人工标注的标签信息进行特征学习,以此来构建特征函数。训练样本示例见图4。

图4 训练样本示例图

训练数据准备好后,即可进行模型的训练了。训练命令为:

crf_learn template_file train_file model_file

crf_learn为调用训练程序,template_file为定义的模板文件,train_file为标注好的训练样本,model_file是根据模板和标注样本生成的模型文件。运行截图见图5。

图5 CRFs运行截图

其中,运行中窗口的信息:参数iter表示模型迭代次数,terr表示当前标记错误率,serr为句子标记错误率,obj表示当前对象的值。diff为与上一个对象值之间的相对差。当obj值收敛到一定值时,CRFs模型迭代结束,此时训练完成。

训练完成后,即可对测试数据进行标注,以检验CRFs算法对评论文本的各个维度信息的抽取效果。测试命令为:

crf_test-m model_file test_files> output.txt

文件output.txt中记录了对test_files的测试结果。其中,第三列为人工标注的关键词标签,最后一列为根据model的各个维度的信息抽取,为机器自动打标(图6)。

图6 机器自动打标图

4.2 性能评估方法

为了评估利用CRFs算法实现挖掘的性能,本文采用在文本处理问题研究中普遍使用的性能评估指标:查准率P(Precision)、查全率 R(Recall)。本文中研究的问题主要是判断利用CRFs抽取的观点元素是否为人工标注的真实类别。

表2 准确率和召回率测试结果 %

5 总结与展望

本文采用序列标注技术,利用机器学习算法CRFs对商品评论信息进行了多维度特征信息的设计和抽取。仿真实验表明,在词本身的信息和词性信息的辅助下,条件随机场算法对商品评论信息的关键信息抽取有着良好的效果。对于实验的扩展和应用,可针对抽取出来的各个维度的商品的关键信息汇集商品属性,以及商品评论中的观点信息进行词库整理和统计分析、情感分析。同时可考虑添加句法结构信息来提高特征信息的维度,以此提高CRFs算法对各维度信息抽取的精度。

[1] 重庆晨报.天猫双十一交易额突破571亿元[EB/OL].(2014-11-12).[2014-12-14].http://news.163.com/14/1112/02/AAQM96Q600014AED.html.

[2] Riloff E,Jones R.Learning dictionaries for information extraction by multi-level bootstrapping[C]//AAAI/IAAI.1999:474-479.

[3] Kushmerick N.Wrapper induction:Efficiency and expressiveness[J].Artificial Intelligence,2000,118(01):15-68.

[4] 赵丽芳.基于最大熵方法的评论信息抽取研究[D].上海:上海交通大学,2009.

[5] Hu Min-qing,Liu Bing.Mining and summarizing customer reviews[C]//Proc of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004:168-177.

[6] 李素建,刘群,张志勇,等.语言信息处理技术中的最大熵模型方法[J].计算机科学,2002,29(07):108-110.

[7] 章剑锋,张奇,吴立德,等.中文观点挖掘中的主观性关系抽取[J].中文信息学报,2008,22(02):55-59.

[8] Somprasertsri G,Lalitrojwong P.A maximum entropy model for product feature extraction in online customer reviews[C]//Cybernetics and Intelligent Systems,2008IEEE Conference on.IEEE,2008:575-580.

[9] Rabiner L.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(02):257-286.

[10]Seymore K,McCallum A,Rosenfeld R.Learning hidden Markov model structure for information extraction[C]//AAAI-99Workshop on Machine Learning for Information Extraction.1999:37-42.

[11]Freitag D,McCallum A.Information extraction with HMM structures learned by stochastic optimization[J].AAAI/IAAI,2000,2000:584-589.

[12]Chen L,Qi L,Wang F.Comparison of feature-level learning methods for mining online consumer reviews[J].Expert Systems with Applications,2012,39(10):9588-9601.

[13]McCallum A,Freitag D,Pereira F C N.Maximum entropy markov models for information extraction and segmentation[C]//ICML.2000:591-598.

[14]Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//ICML.2001:282-289.

猜你喜欢

维度特征文本
如何表达“特征”
浅论诗中“史”识的四个维度
在808DA上文本显示的改善
不忠诚的四个特征
基于doc2vec和TF-IDF的相似文本识别
抓住特征巧观察
光的维度
“五个维度”解有机化学推断题
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
如何快速走进文本