基于文本分析的网络人物观点识别研究
2018-01-02赵蓉英魏明坤
赵蓉英+魏明坤
〔摘 要〕[目的]随着科学技术的不断发展,网络化发展的现象越来越受到人们的重视。如何在海量的网络信息中识别人物观点成为研究者关注的焦点,网络人物观点被视为网络文本表达的主要思想,是构成网络信息的“魂”。在海量的网络信息中快速识别网络人物观点对掌握网络信息主题具有重要作用。[方法]本文在前人研究的基础上理论与应用相结合,从文本分析的视角研究网络人物的观点。利用相应的算法对文本内容进行预处理,再通过文本句子中的词汇、词性标注和词汇之间的距离关系实现观点指示动词识别和观点持有者识别,从而实现网络人物的观点识别。[结果]通过网络人物观点算法识别的实证研究发现,通过对网络人物进行指代消解和观点持有者的扩展能有效地提高观点识别的准确率。
〔关键词〕文本分析;观点识别;观点持有者;观点指示动词;网络人物;网络信息
DOI:10.3969/j.issn.1008-0821.2017.12.017
〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2017)12-0096-06
〔Abstract〕[Objective]With the development of science and technology,more and more attention has been paid to the phenomenon of network development.How to identify the views of people in the large information online has become the focus of attention of the researchers,the online peoples viewpoint is regarded as the main idea of the online text,which is the soul of the network information.It is very important to identify the viewpoint of characters online in the massive information.[Methods]This paper analyzed the viewpoint of network characters viewpoint from the perspective of text analysis on the basis of previous studies.This article was processed by using the corresponding algorithm,and then through the distance between the sentence words,lexical tagging and lexical relationship to achieve the identification of verbs and opinion holders,in order to realize the recognition on network peoples viewpoint.[Results]It realized recognizing the opinion of people in the network based on the previous research.The final results of experiment showed that the characters of opinion recognition would be effectively improved by eliminating the anaphora and expanding the opinion holders.
〔Key words〕text analysis;recognition of viewpoint;opinion holder;indicative verb of viewpoint;network character;network information
隨着Web2.0的出现,用户不仅是网络内容的浏览者,也是网络内容的发布者。人们除了可以从网络上获取更多的信息外,还可以通过网络评论网站、个人博客、社区、论坛等传递自己的观点。在此环境下,以网络评论为代表的主观性文本数量迅速增长,对网络人物观点的分析具有广泛的实用价值,如网络舆情分析、产品质量评论、影视和服务评价等。在这种背景下,以观点分析为主题的研究引起了学术界的广泛兴趣。如Yu等[1]在观点问答系统中,基于文本和句子级别,将观点从事实提取出来,并判断观点的正面影响和负面影响;Hu等[2-3]对用户的评论进行挖掘和提炼,借助于词性标注和关联规则,提取用户的评论特征;Bethard 等[4]结合语法和句式特征,通过语义分析技术对语句的观点进行提取和注释。Hsiao,Yu-Hsiang等利用文本信息挖掘情感在跨境电子商务中发挥的重用作用[5]。随着文本分析的深入研究,文本分析在数字历史探究、专利内容识别以及在大数据时代的应用引起研究者的关注[6-8]。国内研究者对文本分析的研究不断增加,郑国利用文本分析对新加坡概念规划纲要等内容进行系统分析和解读,并将文本分析引入到城市规划应用中[9]。国内外在文本分析的研究中,由于语言的差异化,国外的相关研究都是针对英文文本进行分析,对观点识别的研究大都是基于句法分析的,对观点识别的准确度很大程度上依赖于句法分析的准确率。而基于汉语的人物观点分析的相关研究仍然处于起步阶段。由于中文在自然语言处理方面还不太成熟,受到中文句法分析准确率的限制,句法分析在观点识别中的作用并不明显。国内的一些研究者在中文文本中分析观点识别时,尽量减少对句法分析的依赖。郭巍等[10]通过建立观点分析相关的观点指示动词集,然后利用SVM与距离加权计算的方法对观点和持有者进行识别,对句法分析的依赖性很小。宋锐等[11]认为观点持有者的识别是一个序列标注的任务,通过建立ChunkCRF模型对观点表达语句进行分析识别用户的观点。endprint
本文在分析相关主题文献的基础上,提出通过词性分析实现网络人物观点的识别。本文中所指的网络人物为网络文本如网络新闻等中所出现的人物,观点是指文档中观点持有者直接发表的观点,对于借用他人陈述的观点即间接陈述的观点,不在本文的探讨范围内。因此,本文主要研究两种类型的观点:1)观点持有者和指示动词的观点;2)人物语言的观点。
1 文本分析法概述
文本分析法是研究人类传播信息内容为主的社会科学研究方法[12],与内容分析法具有重叠之处,但两者采用了不同的分析处理方法。内容分析法古已有之,如“微服私访”、“諫鼓谤木”、“乡议”、“进谏”等,随着时间的发展,文本分析成为计量学的重要组成部分,属于文献分析的一种。伯纳德·贝雷尔森认为文本分析法是一种客观的、系统的、定量的描述交流内容的研究方法[13]。文本分析法是对文字、图形、符号、声频、视频等纪录保存下来的资料内容作为分析对象。本文认为文本分析法是按着研究对象的需要,对一系列相关文本进行比较、分析、综合,从中提炼出不同的特征。文本分析法是在定性研究基础上的量化分析方法,以问题的假设为出发点,通过定量的方法对研究内容进行分析,最终结果基于统计分析数据的基础上得到定性的结论。根据文本分析方法的发展,可以将文本分析方法分为解读式文本分析方法、实验式文本分析法和计算机辅助文本分析法[14]。随着web2.0的发展,网络信息占有重要地位,但在浩如烟海的数据中提取有用的信息变得越来越困难。要想在不断变化的网络环境中获取网络人物的观点,需要对网络上发布的信息进行监测和评价。传统的社会环境监测方法,如民意调查等进展较慢,具有滞后性,不能及时反馈人物的观点。
文本分析法也称资讯分析或文献分析,是一种具有半定量化色彩的研究方法,是针对文章或媒体的特殊属性,如思想、主题、片语、人物角色或词语等,做系统化和客观化的分析,以探析文件内容背后的真正意图[15]。随着信息传播方式的增加,对识别网络人物观点和信念具有很大的影响,引起研究者的广泛关注。在文本分析过程中,分析单元是文本分析的计算对象,是构成文本分析最重要、最小的元素。在对文字文本分析中,分析单元可以是单独的字、词、符号、客观事物的观点、整片文章等,而本文选择网络人物观点作为研究对象。文本分析法是基于不同研究主题的各种类型的文本,包括文章、访谈记录、图片内容等。
2 词汇库的建立
一个完整的观点句应包括一些重要的词汇特征,如:观点词语、观点指示动词,以及观点持有者。因此,为了弥补中文分词工具所存在的缺陷,有效地进行观点自动检测和抽取以及观点持有者自动抽取内容,本文首先建立了相关词汇库。
2.1 观点指示动词
观点指示动词是用来指示观点的动词,如“认为”、“指出”、“批评”、“说”等。由于一些观点指示动词本身带有情感倾向,而要引入情感词语,可能会导致观点抽取不够全面;某些表达人物观点的语句并未使用观点指示动词,可能会导致部分观点句遗漏。本文的观点指示动词是通过语料查找和人工搜索方法获得,共有观点指示动词106个,其中包含中性观点指示词有65个,如“阐述”、“论述”、“回答”等,消极观点指示动词有11个,如“反对”、“否认”,积极观点指示动词有30个,如“赞赏”、“赞扬”、“鼓励”等。
2.2 人物词汇
人名、地名、某个组织机构、团体、区域、某些新闻中经常出现的模糊指代的集合人物(如有关部门、专家等)、人称代词(包括:他、她、他们、她们)及其它部分普通名词都可作为观点持有者的候选词。本文为了克服分词器的分词效果不能满足网络人物观点识别的全面性,人工将一些常见的能够指代人物的词汇添加到用户词典中。其中,笔者总结了两种人物词汇:一种是网络中经常出现的一些模糊指代的词汇,如消费者、顾客、组织者等;其二是表示职业或者人物关系的词汇,如专家、父亲等。本文向用户词典中添加了24个第一种词汇和33个第二种词汇,并对第一种词汇标注为defnr1,第二种词汇标注为defnr2。
3 文本的预处理
在对文本观点分析之前,要对文本的内容从不同的构成要素进行分析,主要包括语句、分词、文本整体3个部分。在进行网路人物观点识别前,需对文本就行预处理,步骤如下:
3.1 语 句
首先采用分句算法将文本进行分句,然后判断每个句子是否是观点句。因此语句算法在很大程度上影响着观点抽取的完整性。由于中文一般根据划分句子标点符号“。?!”等进行分句,为保证观点句在语法层面不完全拆分,本文在分句时只采用“。”、“?”、“!”3种分句标点符号和文档本身存在的回车换行符号作为句子界限,且对不可拆分引号中的内容做了一定的处理。语句算法处理标准:
1)首先对引号内容进行特定标记并替换,并将引号内容加入到队列queue中;
2)其次对匹配出的3种分句标点符号的后边均加入一个回车符;
3)将queue中的引号内容依次替换回去;
4)剔除多余的回车符号,即将连续的两个或者两个以上的回车符替换为一个;
5)根据回车符划分句子并加入到List中。
3.2 分 词
采用中国科学院的分词工具ICTCLAS2010进行分词与词性标注。并在中国科学院分析工具的基础上添加了两种词性(defnr1,defnr2)以提高观点识别的查全率和查准率,其中defnr1是一些网络文章或新闻中经常出现的一些模糊指代的集合人物(如人士)名词,采用穷举的方式添加到用户词典;defnr2是一些能够联系到其他人物的关系属性的词汇(如父亲、继母等)和一些职业相关的名词(如专家、律师、记者等)。
3.3 文本解析
经以上两个步骤预处理后的文本,文本解析成模拟树List〈Sentence〈Word〉〉的形式;其中Sentence是文本句子的实体,包含句子的编号、词语的数量、词性标记后的句子的字符串;Word是词语的实体,包含词语、词性标记、在句子中的编号、所在句子的编号、词语在所在句子中的起始索引位置、特殊标记等(如人名标记:1;人称代词标记:2;观点指示动词标记:3)。endprint
4 基于文本分析的网络人物观点识别算法设计
4.1 观点指示动词的识别
网络人物观点持有者识别算法:
1) 设置默认返回的观点持有者的id为-1;
2) 抽取某语句中的全部候选观点持有者;
3) 默认最优观点持有者词语bestWeight的权重为-100;循环每个候选词,如果它在引号内,则继续循环,否则计算它的权值,如果权值大于最优观点持有者的权值,则赋值bestWeight,并将它的ID赋值给id;
4)循环结束后,返回id。
为了提高观点持有者识别的准确率,本文进行了简单的指代消解和观点持有者扩展。
4.2.1 简单指代消解
本文进行的指代消解界定为对人称代词进行指代消解,其中,处理的人称代词包括他、她、他们、她们四种,且对指代单复数的情况作了简单的处理。其主要思想是:如果是前两个代词,向前查找单数类型的人物名词(如nr,nr1),如果是后两个词语,则查找集合性质的人物名词(如defnr1等),查找范围局限在向前一定阀值的句子内一定数量的人物中,选择最优的候选词作为照应词。
4.2.2 观点持有者扩展
本文没有依赖句法和语法规则,而根据词性规则并总结一些常见的模板来拓展观点持有者,本文假设已经得到的参考的人物名词词语,那么可以扩展为以下几种情况:
1) 一位中国地震局的专家:前边为量词、名词、形容词等;
2) 杜甫的妻子:后边为“的”、nr、defnr等;
3) 李女士的丈夫张某:前边为“的”、nr等,后边为名词、后缀词等;
4) 其他情况。
因此,本文采用对语句进行向前和向后连续查找词汇,一旦有其它词性,则停止扩展;这种扩展方法的优点在于其灵活性较大。
5 结果分析
5.1 算法设计
本文根据网络人物观点的属性,基于文本分析方法建立观点识别流程图,如图1所示。在整个流程图中,對分析文本的语句需满足以下条件:1)第一种观点,需要有观点指示动词,允许观点持有者和观点指示动词之间的距离在一定的阀值范围之内,建立彼此之间的联系;2)第二种观点,有人物的语言的存在;3)在两种观点语句中都必须有观点持有者的出现。整个观点识别的算法如图1所示。
通过网络人物观点识别示意图可知,首先要对分析对象进行预处理,将文本解析成List〈Sentence〈Word〉〉的形式。其次对语句进行循环,针对每一句,进行分析处理。根据语句中词语的tag属性识别出该句中包含的观点持有者和观点动词的候选词的列表;进行第一次观点判断,如果该句中没有观点持有者词语,认为这句话不是观点句,进入下一个循环。如果语句中包含观点指示动词,则根据观点指示动词识别算法(参见表1)获取该语句中的观点指示动词,并根据观点持有者识别算法(参见表2)获取观点持有者。如果没有获取观点指示动词则被判定对于前面观点判断失败的句子,进行第三次观点判断。在第三次观点判断时,如果该句中包含人物的说话内容,则认为是观点句,并根据观点持有者算法获取观点持有者,如果没有得到,则不认为是观点。第二次观点判断的依据:1)如果动词和人名之间距离很远的话,不认为是观点,返回false;2)如果人名和动词之间有断句符号(如逗号等),且两个词语的距离超过一定权值,不认为是观点,返回false;否则返回true,并根据简单指代消解方法对人称代词进行指代消解,并将指代消解的结果作为观点持有者词语。最终根据获取的观点持有者,依据观点持有者扩展方法,进行观点持有者的扩展,获取相关属性并将获取的属性赋给观点对象View,然后添加到观点列表中。
5.2 算法结果
5.2.1 观点句自动抽取
本文以百度新闻搜索为例,在百度新闻搜索中进行关键词检索,总共选取了9个关键词,每个关键词检索得到40篇新闻,最后得到360篇文章作为分析对象。将这360篇文章依据标点符号进行句子划分,得到9 497个句子,然后对这些句子进行观点句人工标记,共得到观点句1 491个。将这些人工标注的语句作为测试集,对于观点自动抽取的性能我们用准确率(Precision)和召回率(Recall)来进行评价。
准确率=机器识别的正确观点数人工标记的观点总数×100%(4)
召回率=机器识别的正确观点数机器识别的观点总数×100%(5)
在该实例操作中,判断一句话是否是观点,首先是判断这句话中是否存在潜在的观点持有者,如果存在,则识别这句话中是否有观点指示动词,将这种方法作为一次判断,也称为Baseline。在一次判断的基础上,对潜在的观点持有人和观点指示动词之间的距离限制在一次的范围之内,即二次判断。然后对于剩余的语句,如果句子中有引号,且引号内是一句话,我们就将其视为观点句,记作三次判断。根据不同三种判断情况,经过相关分析,获取结果如表1所示。
由表1的分析结果中可知,在一次判断的基础上,我们对潜在观点持有者与观点指示动词的距离加以限制,来提高观点识别结果的准确率,同时我们会发现召回率会下降,即在增加一次测试的基础上增加了距离限制提高准确率同时会降低召回率。可见,二次判断的识别结果不是很成功。为了进一步提高网络人物观点识别结果的准确率和召回率,通过在二次判断的基础上,我们再进行判断一次,即三次判断。根据表中的得到的结果数据可以观察出,经过三次判断后,准确率和召回率都明显得到提升。可见,三次判断的结果的有效性更大,提高了实验的准确率。
5.2.2 观点持有者的自动抽取
在对观点持有者的抽取进行分析时,笔者对人工标注的1 491个观点句,通过机器抽取得到正确的观点语句1 128句,并将这1 128个观点语句作为观点抽取的文本库。对于观点持有者的自动抽取结果的评价,本文是对机器抽取结果与人工标记的结果进行对比,把平均相似度作为评价指标。endprint
由表2的计算结果可以获知,在Baseline实验的基础上进行短词扩展,在很大程度上提高观点持有者的识别效率,平均相似度提高了近25%。而在短语扩展的基础上,进行人称的指代消解,虽然效果不是很明显,但是平均相似度有所上升,证明观点持有者的自动抽取计算方法成为网络人物观点识别研究的主要方法之一。由此可见,短语扩展将大量的部分匹配的观点持有者变为完全匹配,使得观点持有者的机器抽取结果更加完整,很大程度地提高了计算结果。而指代消解,主要是将不匹配的观点持有人转化为相关性的配皮,那些不匹配的观点持有人一般是一些人称代词(他,她等),通过指代消解将这些人称代词转化为正确的观点持有人,从而进一步提高计算结果的准确度。
6 结 语
本文在总结前人相关研究的基础之上,针对中文文本,从计量学学的文本分析法基础上进行网络人物的观点识别。在分词和词性标注的基础之上,利用词性分析和词汇之间的距离提出了观点指示动词识别算法和观点持有者识别算法。并进行实证分析,按着理论与实证相结合的方法对网络人物观点识别进行研究,从应用角度来提高观点识别算法的可行性。为了进一步提高观点识别的效果,本文利用指代消解和观点持有者扩展进一步提高网络人物观点的准确率和召回率。从实证分析的结果来看,该模型算法取得了比较理想的结果。本文存在的不足之处在于未对观点的主题和观点的极性未进行探讨,希望本文对后续研究者提供借鉴作用。后续研究需进一步加强观点主题和观点的极致性进行分析,进一步完善网络人物观点的识别研究。
参考文献
[1]Yu H,Hatzivassiloglou V.Towards answering opinion questions:separating facts from opinions and identifying the polarity of opinion sentences[C]2003:58-59.
[2]Hu M,Liu B.Mining and summarizing customer reviews[C]2004:168-177.
[3]Hu M,Liu B.Mining opinion features in customer reviews[C]2004:755-760.
[4]Bethard S,Yu H,Thornton A,et al.Automatic Extraction of Opinion Propositions and their Holders[J].2004.
[5]Hsiao Y H,Chen M C,Liao W C.Logistics service design for cross-border E-commerce using Kansei engineering with text-mining-based online content analysis[J].Telematics & Informatics,2016.
[6]Walter L,Radauer A,Moehrle M G.The beauty of brimstone butterfly:novelty of patents identified by near environment analysis based on text mining[J].Scientometrics,2017,111:1-13.
[7]Al-Smadi M,Jaradat Z,Al-Ayyoub M,et al.Paraphrase identification and semantic text similarity analysis in Arabic news tweets using lexical,syntactic,and semantic features[J].Information Processing & Management,2017,53(3):640-652.
[8]Mccormick T H,Ferrell R,Karr A F,et al.Big data,big results:Knowledge discovery in output from large‐scale analytics[J].Statistical Analysis & Data Mining,2014,7(5):404-412.
[9]郑国.基于文本分析的新加坡概念规划述评[J].西北大学学报:自然科学版,2017,47(2):272-276.
[10]郭巍,宋锐,林鸿飞.基于SVM与距离加权计算的观点和持有者识别机制[J].计算机工程与科学,2008,30(10):125-128.
[11]宋锐,洪莉,林鸿飞.基于ChunkCRF的观点持有者识别及其在观点摘要中的应用[J].小型微型计算机系统,2009,30(7):1462-1466.
[12]邱均平,王曰芬.文献计量内容分析法[M].北京:北京图书馆出版社,2008.
[13]Browne R B,Madden D,Emery M C,et al.General Media Texts[J].Communication Booknotes Quarterly,1972,3(8):4-6.
[14]孙瑞英,毕强.内容分析法在图书情报领域的研究现状及应用趋势分析[J].情报科学,2005,23(1):148-152.
[15]邱均平.知识计量学[M].北京:科学出版社,2014.
(本文責任编辑:孙国雷)endprint