互联网金融舆情情绪词情感强度模糊量化及模糊推理的一个实现框架
2020-05-18李燕
李燕
【摘要】近几年,互联网金融文本情绪极性及强度分析成为投资者舆情研究领域较新的研究点。但金融文本信息是非结构化信息,挖掘其中的舆情倾向及强度需要金融情绪词典的支撑,因此构建金融舆情情绪词典是进行互联网金融文本舆情分析的一项相当基础且重要的工作。将互联网众包这一分布式解决复杂问题的新模式引入到金融舆情语料标注及舆情词典构建当中,在此基础上构建了基于隶属度函数特征参数相似度的金融情绪词情感强度模糊推理方法,构建模糊规则,进行模糊推理。对投资者群体行为意向预测、投资者舆情模糊计算及情感模糊推理等问题的研究提供研究基础。
【关键词】投资者情绪 金融情绪词典 模糊推理
一、研究背景
随着互联网步入Web 3.0 时代,多种新兴社会化媒体(如:博客、微博、论坛)兴起,投资者可以通过这些平台表达及传播观点,互联网中充斥着海量具有鲜明情绪倾向性的文本信息。社会化媒体中的文本情绪量化分析为行为金融学领域很多关键性问题提供了愈加重要的研究方式和内容,成为投资者情绪研究领域中新的研究点(Graziano,2011;Rees,2012;Chen,2013;Loughran 2013;Huang,2013;C Fu,2015;D Perez-Liston,2016;A Frugier, 2016;D Bathia,2016;T Renault,2107;E Kele?,2018)。但金融文本是非结构化信息,挖掘其中的情绪倾向及强度需要面向机器的情绪词典的支持,因此构建金融情绪词典是进行金融文本情绪分析的一项相当基础且重要的工作。近年来,情绪词典的构建及扩展研究受到国内外大量研究机构及学者的重视,而专业领域情绪词典的构建工作是当前该领域较新的研究点。在构建情绪词典的工作中,情绪词的情感极性判定相对容易,而其情感强度量化是最近几年文本情感分析领域的一个热点和难点问题。
对巨量语料的标注,这是一个难点问题。自动化标注需要成熟语义知识库及大规模语料库的支持,而目前金融专业领域并没有成熟公认的语义知识库及语料库。近几年,互联网众包这一分布式解决复杂问题的新模式逐渐兴起,众包迅速改变了海量数据的收集与处理模式,在海量数据语义标注领域得到日益广泛的应用(Kittur,2008;Russel,2008;Sayeed,2011;Muhammadi,2015;NR Asheghi,2016;J Hu,2016;R Meng,2017;S Bougrine,2017)。论文探讨了将互联网众包这一分布式解决复杂问题的新模式引入到大规模金融情绪情感强度量化标注,以人类群体智慧与计算机技术相结合的方式来解决大规模情绪词情感强度标注的难题。每个个体即使是领域专家,都会在知识及认知能力上存在不足,再加上情绪词情感语义强度的模糊本质,给每个情绪词给出精确的情感强度值既不可行也不科学,会丢失情感强度本身的大量信息。引入众包技术到金融情绪词情感量化标注的研究中工作中,进行技术方法创新,通过众包可以利用群体知识来解决情感强度量化,获得大量金融情绪词情感强度的标注数据,这些数据蕴含着金融情绪词情感强度的知识信息,这些数据信息对金融情绪词情感强度量化研究具有重大价值。
二、文献综述
众包是指公司或机构把过去由员工或少数专家执行的工作任务,以自由自愿或有偿服务的形式外包给非特定的大众网络的做法(JeffHowe,2006)。近年来,在《MIS Quarterly》、《Decision Support Systems》等国际重要期刊上相继有相关的论文发表。众包数据管理成为国际数据库与数据挖掘领域新近发展起来的一个研究热点(Kazemi L,2012;To H,2016;童咏昕,2017).近年来,已有一些研究人员在国际数据库与数据挖掘的顶级期刊和会议上对众包数据管理技术的相关研究进行了总结(Doan A,2011;Chen L,2015;Li GL,2016;Garcia-Molina H,2016;Chittilappilly AI,2016)。伴随着web3.0 技术的出现,各类网络媒体产生的海量数据中蕴含着巨大的经济和社会价值,海量数据的采集、分析和使用已成为信息服务与科学研究的主要领域,尤其是语料标注作为海量数据分析与利用的基础性工作。通过对原始数据作标注(文字的或符号的),使其不仅可以使人理解,也可以使机器理解。常见的语料标注主要涵盖词义区分、內容分类、情绪极性、含义注释、相关性判断和信息抽取、图像标注等工作(戚欣,2011;宋鸿彦,2010;张玉芳,2011;陈昊等,2015)。丁宇等(2013)采用众包方法构建汉语语义相关性词典。赵江华等(2017),对于半结构化或非结构化的大规模科学数据,难以通过计算机实现自动化处理,众包成为有效处理手段。See L(2013)在提供有更多训练或评价反馈的情况下,众包得到的数据结果比专家结果更高。童咏昕等(2017)众包为传统数据管理提供了一种通过汇聚群体智慧求解问题的新模式,并成为当前数据库领域的研究热点之一。众包方式迅速改变了海量数据的收集与处理方式,也为训练机器学习算法提供了更好的训练样本,在海量数据语料标注领域得到了日益广泛的应用(Sayeed,2011;Brew,2010;Kittur,2008; Russel,2008;Muhammadi,2015;NR Asheghi,2016;J Hu,2016;R Meng,2017;S Bougrine,2017)。
三、金融情绪词情感强度模糊量化及模糊推理的一个分析框架
(1)金融领域情绪词库建设。以金融博客、财经网站专栏评论文章,财经新闻、上市公司信息披露的评论文章,中国证券报、上海证券报和证券时报等媒体的金融文本信息作为金融情绪语料的原始来源。采用互联网文本抓爬软件、开发Python语言互联网文本自动获取程序,在抓爬完成之后,对文本进行建模,采取基于Lucene建模。中文分词软件采用中科院开发的ICTCLAS、哈工大的自然语言处理平台IRLAS及N-gram 分词模型。股票的价格会影响到投资者情绪,从网上获取股价数据,对股票价格数据进行符号化处理,将定量的股票价格数据转换为不同市场行情的定性数据,将不同市场行情与文本进行匹配,进行金融情绪词情绪极性分类。
(2)金融情绪词情感强度模糊量化及情感强度模糊计算算法。当前对文本情绪分析大多使用经典数学(清晰数学)的方法进行量化计算,这种量化方法虽然计算方便,但忽视了自然语言的模糊本质,及更人类情感和心理的模糊本质属性。依据模糊集合理论及模糊逻辑作为金融情绪词情感强度众包标注的数学基础。首先结合现有的金融情绪分类和金融评论的情绪语义特点,构建投资者多情绪表达的分类体系,并通过互联网众包获得海量情绪词情感强度标注数据,在此基础上构建金融情绪词汇模糊本体库,对金融情绪词情感强度采用模糊隶属函数的度量方法。之后使用多情绪模糊计算算法,基于模糊集理论中的修饰词含糊语言算子,构建金融情绪词多情感模糊计算算法。针对不同类型的情绪词,分类设计相应的情绪词极性强度量化方法。把金融情绪词分成:基础金融情绪词,即不含程度修饰词、频度修饰词、否定词且字数不超过两个的情绪词。复合金融情绪词,即包含修饰词或否定词的情绪词或字数超过两个的情绪词。引入高斯分布与随机函数,尽管每个众包工作者标注得出的情感强度值可能不同,但存在一个最可能的区间,修正了仅依赖统计方法得出精确情感强度值所产生的误差及情感强度值信息的丢失,使金融情绪情感强度标注结果值体现了情绪词语义情感模糊性的本质。复合金融情绪词的结构较复杂,一般由基础金融情绪词、程度或频度修饰词、否定词等多类词汇组合而成。情感强度量化工作有一定难度,基本思想是利用Sigmoid 函数的反函数,将基础金融情绪词的情感强度值映射为一个极大值,分析修饰词或否定词的对其情感强度的影响,使用极大值完成复合金融情绪词的情感强度量化。最后再使用Sigmoid 函数将此极大值映射到原来的金融情绪词情感强度值区间[-1,1]上。
(3)基于隶属度函数特征参数相似度的金融情绪词情感强度模糊推理方法。从隶属函数特征参数相似性的视角出发,使用一组离散的特征节点数据集刻画各众包标注者所提供的金融情绪词情感强度隶属函数的主要图形特征,构建确定特征节数据的原则。依据各模糊集的隶属度函数的特征数据节点和模糊推理理论构造金融情绪词情感强度模糊推理方法。推理规则是前件模糊隶属函数与通过众包标注获取的隶属函数数据具有相同的特征节点数据集则所对应分割点的隶属函数具有相似的图形。当各众包标注者给出的金融情绪词情感强度的模糊隶属度函数为三角形隶属度函数,则可以取其左右端点及峰点,用这三个节点信息刻画其主要图形特征。当各众包标注者给出的金融情绪词情感强度的模糊隶属度函数为梯形隶属度函数时,可以取其左右端点及峰点的上、下确界,用这三个节点信息刻画其主要特征。当各众包标注者给出的金融情绪词情感强度的模糊隶属度函数不是同一类型或者隶属函数图形没有明显特征时,可以把隶属度函数峰点的上、下确界及支集的上、下确界,分别进行有限分割,把众包标注者所提供的金融情绪词情感强度的模糊隶属度函数在各自的两个区间上具有相同的分割点个数。这些通过众包标注所获得的承载着金融情绪词情感强度值隶属度函数关键信息的分割点构成了最终金融情绪词情感强度值隶属函数的一组特征节点。在此基础上便可以构造出所求金融情绪词情感强度的模糊隶属度函数特征节点数据为未知数的方程组,便可以得出所求所求金融情绪词情感强度的模糊隶属度函数的一组特征数据点集。最后使用折线或者光滑曲线各特征数据点连接起来,就可求出所求金融情绪词情感强度的模糊隶属度函数。
(4)金融情绪词情感强度众包标注的质量管理模型研究。参与金融情绪词情感强度众包标注的工作者为数量巨大的非特定互联网人员,受标注者专业背景、工作能力、工作态度及工作动机等因素影响,导致收集到的标注结果可能存在噪声甚至错误,使用金融情绪词情感强度模糊量化标注方法,并不需要众包标注者给出精确的值,可以允许有一定标注误差,但标注噪音还是需要控制,噪音会使金融情绪词情感强度模糊推理出錯误结果,因此对标注质量的控制是一个关键问题,构建金融情绪词情感强度众包标注的任务管理模型:①标注工作者的动态选择方法;②标注者可信度统计测量模型构建。统计金融情绪词情感强度众包标注工作者在众包测试环节中的表现,给出量化的可信度值,检测标注者是否具备金融领域情绪语料标注的专业能力。③标注质量评估模型。构建金融情绪词情感强度众包标注者间情感强度标注结果的一致性检验模型,计算不同类型标注者之间情感强度标注结果的一致性,检测出一致类型恶意金融情绪词情感强度众包标注者的标注结果。
参考文献:
[1]伍燕然, 韩立岩.不完全理性、投资者情绪与封闭式基金之谜[J]. 经济研究,2007(03): 117-129.
[2]徐琳宏,林鸿飞,杨志豪. 基于语义理解的文本倾向性识别机制[J].中文信息学报,2007(1):96-100.
[3]陈其安, 朱敏,赖琴云. 基于投资者情绪的投资组合模型研究[J].中国管理科学,2012(06):47-56.
[4]丁宇,车万翔,刘挺,张梅山. 基于众包的词汇联想网络的获取和分析[J].中文信息学报, 2013(05): 100-106.
[5]高大良, 刘志峰, 杨晓光. 投资者情绪、平均相关性与股市收益[J].中国管理科学,2015,23(2): 10-20.
基金项目:教育部人文社会科学基金青年项目(16YJC790052)、湖南省哲学社会科学基金项目(14YBA306)资助。