APP下载

基于线性链条件随机场的用户生成文本标点标注

2019-10-08苏晓宝刘臣唐莉

软件 2019年4期

苏晓宝 刘臣 唐莉

摘  要: 标点符号的正确性对于用户生成文本的词性标注,命名实体识别,依存句法分析等有着重要的作用,正确的标点标注可以使用户生成文本的语法结构准确完整。线性链条件随机场模型可以容纳任意的非独立的特征信息,本文通过选取标点符号所在位置左右词性对作为模型的观测序列,使用条件随机场进行标点符号的标注。实验的测试语料采用京东在线产品评论,结果表明基于线性链条件随机场的用户生成文本标点标注效率较高。

关键词: 线性链条件随机场;用户生成文本;词性;特征模板;标点符号标注

中图分类号: TP391.1    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.04.031

本文著录格式:苏晓宝,刘臣,唐莉. 基于线性链条件随机场的用户生成文本标点标注[J]. 软件,2019,40(4):145149

【Abstract】: The correctness of punctuation marks plays an important role in the part-of-speech tagging of user-generated texts, named entity recognition, and dependency parsing,proper punctuation labelling can make the grammatical structure of user-generated text accurate and complete. The linear chain condition random field model can accommodate any non-independent feature information,in this paper, we use the left and right part-of-speech of the position of the punctuation as the observation sequence of the model, and the conditional random field is used to label the punctuation .The test corpus of the experiment uses Jingdong online product reviews, and the results show that the user-generated text punctuation labelling based on the linear chain conditional random field is more efficient.

【Key words】: Linear chain conditional random field; User generated text; Part-of-speech; Feature template; Punctuation labelling

0  引言

伴随着电子商务的发展,越来越多的用户通过计算机及个人移动设备在各个电商平台上购买丰富多样的商品和服务,与此同时广大用户也通过各个论坛、社交网站、购物平台发布商品或者服务的相关使用评论。这些评论中包含着丰富的信息量,大多数是关于用户对购买商品或服务的使用感想及建议,其它用户在购买此类商品之前可以参考这些评论,商家们可以针对评论中用户集中指出的某些问题征对性地采纳,然后完善产品和服务质量,进一步为用户提供更优质的产品和服务升级,从而为企业和商家创造更大的利润。用户在购物平台上发布的商品或服务评论也称为用户生成文本,用户生成文本定义为用户生成的文字材料内容[1],即用户通过各种社交网络平台将原创的文字材料内容展示或者提供给其他的用户。但是现阶段存在的一个主要问题是用户生成文本中的标点符号常存在着错误或者缺失,这使得后续情感分析与观点挖掘遇到问題。标点符号可以侧面地表达用户的感受和想法,有时候几个标点符号的连续使用[2]可以负载用户内在想要表达的深切的情感信息。

用户生成文本中的标点符号的标注识别对于接下来的自然语言处理工作是一个很重要的基础环节。其中标点的正确率会影响到后续的中文分词[3,4]、词性标注[5,6]、命名实体识别[7]等一系列环节。

张开旭[8]等人利用互信息和t-测试差基于条件随机场在《论语》和《史记》语料库上进行断句和标点处理,但是该方法需要大规模的原始标注语料供其训练,而且对于原始语料库的文体、句型、数量规模依赖性过强,不同古文在文体上、篇幅上、实词、虚词、句型使用上差异较大,此方法在其它古文上断句和标点处理效果上波动较大,局限性比较大。姑丽加玛丽·麦麦提艾力[9]等人基于条件随机场(CRF)的分层自底向上方法预测维吾尔语的韵律词和韵律短语边界,并将维吾尔语形态特征作为韵律边界预测模型的重要特征,以标点符号边界为单位建立基于CRF的标点符号韵律边界预测模型,并与双层自底向上CRF模型相结合,提出一种韵律边界预测方法。Wei Lu[10]等人提出了一种基于动态条件随机场的方法将标点符号插入到转录的对话语音文本中,并联合执行句子边界和句子类型预测,以及对语音话语的标点预测,但是在展现F1值中过度专注于优化标点预测性能,没有考虑到之后的自然语言处理任务。

鉴于先前关于标点标注所作的研究工作较少,本文在此提出了一种基于线性链条件随机场[11]并结合利用词性标注之后的用户生成文本标点标注识别方法。与以往的判别模型不同,条件随机场允许对观测序列的任意依赖性,而其中的线性链条件随机场(linear-CRF)能够将丰富的非独立的前后上下文特征模板运用到模型中,具有特征选择灵活和拟合程度更好的优点。

1  条件随机场

在条件概率分布P(Y|X)中,X是表示需要标注的观测序列,Y是状态序列,也称为 标记序列。在学习条件概率模型时,利用训练数据集通过正则化的极大似然估计学习出模型,在预测标记序列时,任意给定一个观测序列x,得到以条件概率模型分布 (y|x)最大的输出序列 。此时如果Y构成由无向图模型G=(N,E)表示的马尔科夫随机场[12],N代表结点集合,E代表边的集合,即满足式子(1)。

2  用户生成文本的标点符号的标注

利用CRF进行用户生成文本标点标注的过程就是给定条件概率模型P(Y|X)和观测序列x,求条件概率最大的标记序列 ,即对观测序列进行标注,通过维特比算法[13][14]找出其对应的标点符号标注序列 ,使得条件概率P(Y|X)最大。

上述这段评论是用哈工大LTP进行过分词和词性标注,且标点符号人工标注正确的一段用户生成文本。此时,除了段尾最后一个标点符号以外,将剩余标点符号所在位置左右的词性对作为观测变量,就形成了观测序列 ,上述这段评论对应的词性对X=(nd-n, u-n, n-v, v-n, v-v, ni-v),词性标注采用的是哈工大LTP词性标注集,如表2所示。

该评论的标点符号标记序列Y=(1,1,1,2,1,1),1代表逗号,2代表句号,3代表顿号,4代表问号,5代表感叹号,6代表冒号,7代表省略号,鉴于后面的测试语料中逗号、句号、顿号、问号、感叹号、冒号、省略号占全部标点符号的99.7%以上,故在此只讨论这七个标点符号的标注识别。

采用词性对的“前后上下文”[16]相关信息作为该词性对的特征,优点是能够同时使用当前词性对的前m个词性对和后n个词性对作为该词性对的前后上下文信息。这样,当前词性对的标点符号标注不仅与它前面的词性对有关,还与它后面的词性对有关,才能更加贴近于用户生成文本标点标注的真实性,更加符合实际情况。

本文所述的词性对的“前后上下文”可以看作 是以当前词性对为基准线,包含着前面和后面若干词性对的“观测序列界面”   。但是从理论上说,一方面观测序列界面的宽度n越大,用户生成文本中此时可以被利用的上下文相关特征模板信息越多,但是如果观测序列界面宽度设置得过大,不但会严重降低用户生成文本标点标注效率外,还会出现标点标注地过拟合现象;另一方面,如果观测序列界面宽度被设置地过小,此时就不能够充分利用甚至丢失重要的前后上下文信息。在本文的训练和测试中,为了尽可能充分利用前后上下文的特征模板信息,又不出现过拟合现象,使用当前词性对的前后各二个词性对作为“前后上下文”的范围,这就限定了上下文范围为“5词性对观测序列界面”,本文采用的特征模板如表3所示。

3  实验结果与分析

3.1  实验环境、数据集和评测指标

本文实验服务器主要参数为CPU:2* Intel(R) Core(TM) i5-6200U CPU@2.30GHz,安装内存:7.48 GB,操作系统为Windows 7 64 bit。使用CRF++0.58工具包进行用户生成文本中标点符号标注模型的学习。

本文实验中的训练语料选取自《人民日报》标注的PFR语料库,语料库中1998年上半年的新闻报道已经在互联网上由《人民日报》新闻信息中心公开提供许可使用权,本文从中选取了1月份前5天共约30万字的500条新闻报道。然后利用CRF++ 0.58从训练数据集中学习条件概率模型P(Y|X)。

本文实验采用的测试语料选取自京东Apple产品自营店IphoneX的用户评论,根据用户评论中好评,中评,差评比例,从中选取了约有6万字的200条有效的好评,约1.2万字的40条有效的中评,约1.5万字的50条有效的差评,这些好评,中评,差评中标点符号均在10个或者10个以上,然后事先人工检查标注用户生成文本中的标点符号。将这些用户生成文本用哈工大的LTP进行中文分词、词性标注,利用CRF对测试数据进行预测,再与人工事先正確标注的用户生成文本标点符号进行比较分析。

在对用户生成文本标点标注的性能评估中,采用了常用的评测指标准确率P,召回率R和 这三项性能评测指标:

3.2  实验结果及其分析

CRF++0.58训练数据时使用的规范化算法默认是CRF-L2,迭代次数为45次,训练时间为1.57 s。

原始用户生成文本标点标注平均准确率为57.9%。

利用Python对比事先人工正确标注的标点符号和CRF工具预测的标点符号标注,得到图2所示的实验结果。

实验结果可以看出,基于线性链条件随机场的用户生成文本的标点标注平均准确率比原始用户生成文本标点标注准确率高了13.5%,可以在一定程度上正确标注标点符号。

4  结束语

鉴于用户生成文本中标点符号的正确标注是自然语言处理的最基础的环节。本文提出了基于线性链条件随机场并结合标点符号左右词性对的用户生成文本标点标注方法。实验结果表明,使用线性链条件随机场能够取得较好的标点标注效果,不足的地方在于,在词性标注过程中,有些出现次数较多词语同时具有几个词性,比如“服务”一词既有名词又有动词的含义,可能会导致词性标注出现错误的现象,而且由于CRF是基于统计的模型,对于那些出现在标点符号左右次数较多的词性对,统计的信息会更加全面,其正确预测标点标注的准确率也就越高。相反地,有些标点符号左右的词性对出现次数较少,其统计信息不全难以正确预测标点标注。另外训练语料是出自人民日报语料库,语言严谨规范;而测试语料选自京东在线评论,评论内容中标点符号左右存在网络流行词语或语气助词,其训练时统计信息缺少,导致此类情况下预测标点符号标注的效果较差。

针对以上的问题,在今后的研究工作中,将深入了解影响标点符号标注的其它特征,以期能够找到一些更有价值的特征函数信息,能够使用户生成文本的标点标注效果得到进一步的提升。

参考文献

[1] 赵宇翔, 范哲, 朱庆华. 用户生成内容(UGC)概念解析及研究进展[J]. 中国图书馆学报, 2012, 38(5): 68-81.

[2] 邓晓明. 同一个标点符号连续使用对情感信息的负载作用[J]. 当代修辞学, 2000, 02(02): 32-33.

[3] Huang C, Zhao H. Chinese Word Segmentation: A Decade Review[J]. Journal of Chinese Information Processing, 2007, 21(3): 8-19.

[4] Gao J, Li M, Huang C N, et al. Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach[J]. Computational Linguistics, 2005, 31(4): 531-574.

[5] Zinsmeister H. Part of Speech Tagging[J]. Ling Uni, 2011, 5(4): 483-501.

[6] Vol., N?. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of- Speech Tagging[J]. Computational Linguistics, 1995, 21(4): 543-565.

[7] Nadeau D, Sekine S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2007, 30(1): 3-26.

[8] 張开旭, 夏云庆, 宇航. 基于条件随机场的古汉语自动断句与标点方法[J]. 清华大学学报(自然科学版), 2009, 49(10): 1733-1736.

[9] 姑丽加玛丽·麦麦提艾力, 艾斯卡尔·肉孜, 古力米热·依玛木, 艾斯卡尔·艾木都拉. 结合分层条件随机场与标点符号的维吾尔语韵律边界预测[J]. 计算机工程, 2015, 41(11): 299-302+307.

[10] Lu W, Ng H T. Better punctuation prediction with dynamic conditional random fields[C]// Conference on Empirical Methods in Natural Language Processing. DBLP, 2010.

[11] Wang G, Feng X. Tool wear state recognition based on linear chain conditional random field model[J]. Engineering Applications of Artificial Intelligence, 2013, 26(4): 1421-1427.

[12] Chellappa R, Chatterjee S. Classification of textures using Gaussian Markov random fields[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 2003, 33(4): 959- 963.

[13] Jr G D F. The Viterbi algorithm[J]. Proceedings of the IEEE, 1973, 61(3): 268-278.

[14] Kavcic A, Moura J M F. The Viterbi algorithm and Markov noise memory[J]. IEEE Transactions on Information Theory, 2000, 46(1): 291-301.

[15] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 192-198.

[16] 洪铭材, 张阔, 李涓子. 基于条件随机场(CRFs)的中文词性标注方法[J]. 计算机科学, 2006, 33(10): 148-151+155.