APP下载

基于协同训练的CRF模型评价信息识别的设计

2020-08-20

山西电子技术 2020年4期
关键词:模板机场协同

乔 磊

(山西大众电子信息产业集团有限公司,山西 太原 030024)

2019年8月30日,中国互联网络信息中心在北京发布了第44次《中国互联网络发展状况统计报告》。《报告》中显示,截止到2019年6月,我国互联网用户达到了8.54亿之多,较2018年年底增加了2598万人,互联网的普及率达到了61.2%,较2018年年底提高了1.6%。《报告》中还指出,截止到2019年6月,我国利用网络购物的用户达到了6.39亿,较2018年增加了2871万,占网民总体将近75%之多,网购市场正在飞速发展。《报告》中各项数据均表明:网络已经和我们的日常生活密不可分。

随着网络的迅速发展,电商的崛起,互联网成了人们交流的重要平台。人们能够在各大购物网站上浏览到关于各种商品的评论,迅速实现“货比三家”,节约了大量的时间、金钱与精力。消费者发表自己对于商品的观点,供其他消费者参考。同时,商家也能够借助消费者发布的评价信息,掌握自家产品的优劣,及时做出调整以迎合市场需求。然而往往产品的评价信息规模庞大,仅靠人工去筛选并不现实,所以为了帮助消费者和商家快速获取有效的信息,就需要一种可以自动识别评论中关键信息的方法。

本文基于条件随机场(CRF)模型[1],引入了协同训练(Co-training)算法,设计了一种能够快速识别评论中关键信息的方法。该算法可以借助很小一部分人工标注信息,在大量信息中快速地识别出评价对象和评价词。消费者可以通过识别出的信息,来帮助自己更好地做出判断;同时商家也能够通过这些信息掌握自家产品的优劣,及时做出调整以适应广大消费者的需求。

1 条件随机场模型

2001年Lafferty等人提出了条件随机场(CRF)模型,它吸取了隐马尔科夫模型和最大熵模型的优点,又在其基础上进行了扩展。条件随机场模型在特征的选择上比隐马尔科夫模型更加灵活,同时还避免了最大熵模型的标记偏置问题,在处理序列标注问题上有着良好的表现。该模型的核心思想是借助有少量变量的局部函数的积,来描述大量的随机变量的分布概率。其模型如图1所示。

图1 条件随机场模型

模型中,X代表输入数据,Y代表对应的标注序列,其概率定义为:

.

(1)

式(1)中,tk(yi-1,yi,x,i),sk(yi,x,i)表示特征函数,λk,μk表示权重。归一化函数Z(x)定义如下:

.

(2)

2 特征模板的选择

条件随机场模型的特征模板比较灵活,不同的问题,特征模板可以不同。

本方法要识别的评价要素包括评价对象[2]、评价词,两者共同构成了评价中的关键信息,特征选用了词、词性和上下文。

词是表达语义的最小单位,输入数据时,需要先对评价信息进行分词处理,所以词特征至关重要。

评价对象一般由名词或名词短语构成,评价词一般由形容词或形容词短语构成。所以选择词性作为特征之一将会十分有效。

上下文是指目标对象前后出现的词或短语,很多情况下,评价对象和评价词不是单一的一个词,而是由多个词构成的短语,有必要结合上下文来识别。

特征模板的格式如图2所示。

图2 特征模板格式

“%x[行位置,列位置]”表示相对当前词的行偏移量和列的绝对位置。

以图3训练集为例,其中第一列绝对位置为0,是词语;第二列绝对位置为1,是词性;第三列的绝对位置是2,表示该内容的标注信息,B代表标注开始,I代表在标注内部,O代表在标注外部。模板U00:%x[-2,0]中,-2表示当前目标词“沉重”之前两个位置的“转向vB”;0表示第一列的词,即“转向”。

图3 训练集

3 协同训练算法

1998年A.Blum和T.Mitchell提出了一种机器学习的方法——标准协同训练(Co-training)算法,它是一种有效的半监督学习方法。该算法要求两个特征集满足以下两个条件:第一,每一个特征集合都足以充分的表述问题,在有足有训练集的情况下,用每一个特征集都能有较好地学习效果;第二,在标注的情况下,特征集合之间互不相交。协同训练算法如图4所示。

图4 协同训练算法

协同训练算法在满足需求的基础上,利用较少的标注数据,在大量未标注的数据上学习,既有效利用了数据,又避免了人力的投入,节约了大量时间。

在协同训练算法中,要求特征集分为两个互不相交的子集,本方法采用了三个特征,所以划分方式如表1所示。

表1 特征集的划分

4 条件随机场模型引入协同训练

在条件随机场模型中,训练集的质量在很大程度上将影响到测试结果,所以为了得到更准确的结果,就需要精确标注大量数据作为训练集,这一步骤将耗费很长的时间。引入协同训练算法,则可以有效解决这一问题。该方法只需利用较小规模的标注数据,就可以标注更大规模的未标注数据,从而获得大规模的标注数据作为训练集,从而提高效率。

具体做法如图5所示。

图5 引入协同训练算法

输入:已标记的训练集L、未标记的测试集U、特征集F

过程:

1) 将特征集F分为互不相交的两个子集F1和F2;

2) 分别用两个子集作为特征模板进行训练,得到两个模板;

3) 用步骤2)得到的两个模板测试,得到两个测试结果;

4) 对比两个测试结果,将其中标注为B或者I,并且标记概率大于某一阈值的数据添加到训练集中,以扩充训练集;

5) 用新的训练集重复2)~4),直至训练集规模不再扩大为止。

至此,就得到了大规模的准确标注的训练集,再利用特征模板F,训练、测试,就能得到最终结果,过程图如图6所示。

图6 评价对象、评价词识别过程

这样,就实现了只利用较小规模的已标注数据,在大规模的未标注数据中标注新的数据,不断扩充训练集,以提供条件随机场模型使用,从而达到自动、高效地获取结果的目的。

评价对象和评价词都可以用条件随机场模型识别出来,随后采用近邻法将其组合为一组评价信息:在识别出的评价对象前后9个词的范围匹配评价词;若匹配到评价词,则在其前后3个词的范围寻找否定词。最后,就可以将评价对象和与其对应的评价词组成一组评价组合。

5 结果的验证

本方法在2014COAE评测数据上做了验证,最终的识别效果如表2所示,2014COAE评测效果如表3所示。

表2 结果统计

表3 COAE2014评测结果

对比表2、表3可以看出,本方法的识别效果虽然不如评测的最佳效果,但是远高于平均效果。由此可见,本方法可以完成自动识别评价信息的需求。

6 结束语

本方法将协同训练算法引入到条件随机场模型当中,节约了大量人工操作,实现了自动识别评价对象、评价词的目的,且效果优于平均水平,有较强的可行性。

猜你喜欢

模板机场协同
铝模板在高层建筑施工中的应用
高层建筑中铝模板系统组成与应用
铝模板在高层建筑施工中的应用
输入受限下多无人机三维协同路径跟踪控制
家校社协同育人 共赢美好未来
Inventors and Inventions
展开大兴机场的双翅
“四化”协同才有出路
用于机场驱鸟的扑翼无人机
航Sir带你逛机场——东京国际机场