基于众包标注的互联网金融舆情情绪词典构建方法
2020-05-18李燕
李燕
【摘要】巨量投资者情绪词语义标注是构建金融舆情情绪词典的一个难点问题,论文将互联网众包这一分布式解决复杂问题的新模式引入到大规模金融情绪语料标注及金融情绪词典构建当中,以人类群体智慧与计算机技术相结合的方式来解决大规模语料标注的难题,建立完善、标准的金融情绪语料人工标注资源,为投资者情绪理论研究提供基础性支撑,弥补目前对互联网投资者舆情文本信息进行分析处理时所存在的标注语料资源匮乏的问题。
【关键词】投资者情绪 情绪词典 众包
一、引言
社会化媒体中的文本情感量化分析为行为金融学领域很多关键性问题提供了愈加重要的研究方式和内容,成为投资者情绪研究领域中新的研究点(Graziano,2011;Rees,2012;Chen,2013;Loughran 2013;Huang,2013;C Fu,2015;D Perez-Liston,2016;A Frugier, 2016;D Bathia,2016)。但金融文本是非结构化信息,挖掘其中的情绪倾向及强度需要面向机器的情绪词典的支持,因此構建金融情绪词典是进行金融文本情绪分析的一项相当基础且重要的工作。近年来,情绪词典的构建及扩展研究受到国内外大量研究机构及学者的重视,而专业领域情绪词典的构建工作是当前该领域较新的研究点。目前,国内对金融领域情绪词典的相关研究还较为匮乏。情绪词典的构建需要完成对巨量语料的标注,这是困扰研究人员的一个难点问题。近几年,互联网众包这一分布式解决复杂问题的新模式逐渐兴起,众包迅速改变了海量数据的收集与处理模式,在海量数据语义标注领域得到日益广泛的应用(Kittur,2008;Russel,2008;Sayeed,2011;Muhammadi,2015;NR Asheghi,2016;J Hu,2016)。
二、文献综述
近年来,随着文本量化分析技术的快速发展,社会化媒体文本情感量化分析为行为金融领域很多关键性问题提供了愈加重要的研究方式和内容。上市公司信息披露领域文本情感分析的代表性研究:Feldman 等(2008)、Henry 等(2009)、Li(2006,2010)、Demers 等(2011)、Ferris 等(2013)。关于媒体文章或报道的文本情感分析文献:Tetlock(2007)、Engelberg(2008)、Tetlock(2008)、Sinha(2010)、Carretta(2011)、Rees 和Twedt(2012)、Loughran(2013)、H.Ishijima 等(2015)。互联网金融文本情绪分析文献:Antweiler(2004), Das 和Chen(2007),Chen和Hwang(2013),Ferguson 等(2015),B Dickinson 等(2015),SWK Chan等(2016),Shapiro(2017)。目前,文本情感分析的方法大致有两种:基于情绪词典和机器学习方法。基于机器学习方法的文本情感研究有:朴素贝叶斯(林江豪,2012;阳爱民,2013)、支持向量机(任勇,2011)、最大信息嫡(Jung,2012)和感知器分类法等。但在实际应用中若有高质量的领域情绪词典可用,使用简单快速的算法就能获得很好的分析效果(张克亮等,2016;王新宇,2016;肖江等,2015)。在国外很多金融学者使用GI(General Inquirer)词典来研究投资者情绪,包括:Feldman(2008)、Tetloclc (2008)、 Henry 和Leone (2009)、Doran 等(2010)、Carretta(2011)、Engelberg(2012)、Maks(2012)、Ferris(2013)、B.Dickinson(2015)等。在国内,朱浩然(2013)构造了基于Entropy (TF-IDF-L)关键词的情绪词典构建算法,然后对金融领域微博文本的情感进行了研究。朱艳辉等(2011)基于基础情绪词典构建了文本情感特征抽取算法。孟雪井等(2106)构建了我国投资者行为的关键词词库,利用因子分析法构建了沪市投资者情绪指数。总体而言,与国外相比我国在金融情绪词典建设方面的基础性研究不足,制约了我国在金融文本情感量化方面的研究。
三、基于众包标注的金融情绪词典构建方法
(一)金融领域情绪语料库建设的研究思路
金融领域情绪语料库的建设是金融情绪词典构建的基础,可以使用互联网文本抓爬软件、开发Python语言互联网文本自动获取程序及中文分词软件(中科院开发的ICTCLAS、哈工大的自然语言处理平台IRLAS及N-gram 分词模型)构建金融情绪语料库。使用互联网文本抓爬软件、Python语言文本程序开发,获取互联网金融博客、财经网站(新浪、腾讯、搜狐、网易、和讯、凤凰网等)专栏评论文章及财经新闻评论、上市公司信息披露评论文章,中国证券报、上海证券报和证券时报等媒体的金融文本作为金融情绪语料库建设的原始来源。金融博客、专栏评论文章及财经新闻评论一般由具有丰富投资经验和扎实理论基础的专业投资者、股评分析家、行业领域专家所撰写和发布,文本用语规范,对这类金融文本可以采用中科院开发的ICTCLAS 及哈工大的自然语言处理平台LTP 进行分词处理,获得基础金融情绪语料库。投资者在网络论坛上发布的帖子及回帖文本,用语不规范、多存在歧义性,词序语序自由度比较高,通常会构造一些网络流行金融情绪词语,分词技术处理此类Web 金融文本存在一定困难,可采用N-gram 模型,设置一个大小为N 的滑动窗口,以字节流对文本进行划分,获得字节片段序列gram,进一步对字节片段gram 进行频率统计,设置阈值,将小于阈值的字节片段gram 过滤掉,剩下的生成gram 列表。将切分后的结果作为基本的特征项,采用二维滑动窗口将近邻特征项合并,构成新的特征项,从而将更多金融情感词和一些流行的网络词汇扩展到情感语料库中。将切分后的结果作为基本的特征项,采用二维滑动窗口将近邻特征项合并,构成新的特征项,从而将更多金融情感词和一些流行的网络词汇扩展到情感语料库中。
(二)金融情绪语料众包标注的任务管理模型构建
众包标注虽具有成本低、效率高的特点,但由于参与众包标注的工作者为数量巨大的非特定互联网人员,受标注者专业背景、工作能力、工作态度及工作动机等因素影响,导致收集到的标注结果可能存在噪声甚至错误。因此对众包标注质量的控制是一个关键问题,具体包括如下几个方面:
(1)众包标注工作者的动态选择方法。众包标注工作者的选择方法是否恰当直接关系到情绪语料众包标注过程的可靠性,也直接影响到众包标注结果的质量,因此是众包实施和评估阶段需要解决的核心问题,构建噪声数据的识别方法,建立噪声度量指标,提出噪声过滤机制,实现对高噪声数据地自动过滤。研究金融情绪语料众包标注的实施过程,结合海量语料众包标注的众包情境,分析众包工作者的动态筛选过程,并提出工作者筛选机制,设计相应的算法。
(2)众包标注者可信度统计测量模型构建。统计众包标注工作者在众包测试环节中的表现,给出量化的可信度值,检测标注者是否具备金融领域情绪语料标注的专业能力。
(3)众包標注质量评估模型研究。构建多众包标注者间标注结果的一致性检验模型,计算不同类型标注者之间情绪语料标注结果的一致性,检测出一致类型恶意众包标注者的标注结果。对多众包标注者的标注结果构建期望最大值算法,计算语料情绪期望强度值及各标注者的误差率,误差率用于检测众包标注者工作的认真程度,有效识别出随机类型恶意众包工作者(虽然具备专业能力,但工作不负责)。
(4)构建基于标注任务特征的半监督式众包学习算法。对标注任务特征和众包标注结果这两类资源进行聚类分析,对众包标注者的学习过程进行建模,构建基于标注任务特征的半监督式众包学习算法。基于任务特征的半监督式众包学习算法可以监测众包标注者的标注质量,工作表现及经验增长等方面的因素,反映众包标注者的客观标注能力。
(三)构建多标注主体情绪语料众包标注结果的融合模型
根据金融情绪语料HIE 标注任务包的特征对任务包进行聚类分析,形成HIT 任务包簇。利用学习算法学习到各众包标注者在各HIT 任务包簇上的标注能力、经验知识及标注结果历史表现,确定各众包标注者在各任务包簇上的标注结果融合权重值,构造多标注主体情绪语料标注结果融合模型,对多标注者的标注结果进行融合,得出情绪语料二元标注数据(情绪极性,情绪强度值),情绪词典的存储格式采用语料库常用的xml标记格式进行存储。
(四)金融情绪语料众包标注的质量管理模型构建方案
(1)众包标注工作者的动态选择及评估方法。基本研究思路是采用分阶段动态评估的方法,动态监测出不合格的众包标注工作者,提升标注结果的整体质量。此部分分为两个方面:一是标注的质量评估;二是工作者的选择与评估。首先分别建立两个不同状态的标注任务集合(待标注微任务集;已标注微任务集),每个任务的目标值是未知的;建立众包工作者池,初始状态时每个标注者的能力是未知的,都可以参与众包任务分配。然后根据参与众包任务的众包工作者的标注情况提取出两个列表:一个是专家列表,他们能够提供良好的金融情绪语料标注结果;另一个是淘汰列表,提供低质量的标注结果的众包工作者,将阻止在下个阶段分配给其标注任务。对上述众包标注工作者的动态选择及评估方法研究中涉及的算法,主要采用算法仿真的手段实现,考虑采用Matlab 或者R语音等工具进行编程和实现。
(2)标注者可信度统计测量模型构建方案。每个HIE 金融情绪语料标注任务包包含待标注语料(实际需要标注者标注的语料)和黄金测试标注语料(已经由金融领域专家标注的语料)。将新众包标注结果存放在“标注结果表”中,黄金库语料标注结果存放在“测试结果表”中。将众包标注获得的黄金语料的标注结果存放在“筛选标准表”中,用于同金融领域专家的测试标注结果进行一致性检测,假若众包标注者的筛选标注结果与测试标注结果的一致性较低(低于设置的阈值),则视该众包标注者的金融情绪语料标注结果不可信,将其标注结果舍去,从而保证众包标注的质量。设置此项检测能够检验标注者是否有相应专业能力胜任金融情绪语料标注工作,对可靠性较差的标注者停止提供众包任务,这样既控制众包标注成本、提高标注效率,同时也排除了部分众包标注结果噪声、提升标注质量。
(3)设计众包标注质量评估模型研究方案。针对众包标注结果的质量控制策略及质量评估方法,设计如下三种方法:设计随机类型恶意标注者及一致类型恶意标注者的判断标准;构建多众包标注者间标注结果的一致性检验模型,计算不同类型标注者之间情绪语料标注结果的一致性。对多众包标注者的标注结果使用期望最大值算法(EM 算法)估计出语料情绪强度值及各标注者的误差率。误差率用于检测众包标注者工作的认真程度,有效识别出恶意众包工作者(虽然具备专业能力,但工作不负责)。质量控制与评价机制既能检测出恶意众包工作者的标注结果,同时也能够阻止恶意众包工作者继续参与标注任务的分配。
参考文献:
[1]高大良, 刘志峰, 杨晓光. 投资者情绪、平均相关性与股市收益[J].中国管理科学,2015,23(2): 10-20.
[2]俞红海, 李心丹, 耿子扬. 投资者情绪、意见分歧与中国股市IPO 之谜[J]. 管理科学学报, 2015(03): 78-89.
[3]邵新建, 何明燕, 江萍, 薛熠, 廖静池. 媒体公关、投资者情绪与证券发行定价[J].金融研究,2015(09):190-206.
[4]宋作艳, 赵青青, 亢世勇. 汉语复合名词语义信息标注词库:基于生成词库理论[J].中文信息学报,2015(03): 27-33.
[5]贾君枝,王醒. 基于微数据的语义标注应用研究[J]. 情报理论与实践, 2016(02):58-62.
基金项目:教育部人文社会科学基金青年项目(16YJC790052)、湖南省哲学社会科学基金项目(14YBA306)资助。