国内外财经文本分析研究综述
2022-04-12牛华勇 窦一轩 夏晓雪
提要:财经领域的过往研究基于计量模型的因果推断,随着大数据与计算机算法的日渐成熟,以文本信息为代表的非结构化数据已可量化并应用到财经领域的研究中。文本信息中的语言特征,如文本可读性、文本语调和文本相似度等逐渐成为学者研究量化的重点,从而使文本分析技术应用到财经领域的研究中。本文从文本语言特征和财经领域的不同研究问题着手,对当前国内外文献进行了梳理,分析文本信息与财务信息之间的关系并指出文本分析技术未来在财经领域的发展方向,为相关领域研究者提供参考。
关键词:文本分析、财经领域、文本信息、文本语言特征
1 引言
财经领域的研究问题与变量设定多围绕数据库统计整理的结构化数据展开,进行以计量模型为基础的因果推断。随着计算机编程算法与大数据技术的发展,非结构化数据中蕴含的信息逐渐得到挖掘,如文本、音视频等。相比结构化数据,非结构化数据来源和形式更加多样,文本信息更是具有体量增长速度极快、时频高等特点(沈艳等,2019),而中文文本在语法与语义上与外国语言文本有较大区别,由于具有“听话听音,听锣听声”的语境特点(林乐、谢德仁,2016),中文文本信息的可挖掘性更强,涌现出许多值得研究的问题,但也具备较大的解构难度。借助计算机语言分析技术,如词典法、词袋法、主题分析法、自然语言处理技术等,将文本信息与文本特征量化为文本数据,是解决研究问题的主要途径。
文本分析研究可追溯至文本语言特征的建构,如文本可读性的定义(Dale amp;"Chall 1949)和基于词频统计和手工计算构建的分析指标,如迷雾指数(Fog Index)(Gunning 1952),Kincaid指数(Flesch 1948)等。随着计量经济学的发展和统计技术的完善,文本分析开始应用于因果推断,但受限于技术水平,多为统计词频进行分析,如通过统计股吧留言与评论,预测股票价格走势(Antweiler amp;
Frank 2004),进行上市公司年报信息的研究综述与相关性分析(Jones amp; Shoemaker 1994),利用市场变量构建文本指数(Baker amp; Wurgler 2006;Qiu amp; Welch 2006)。计算机技术的发展以及大数据应用的成熟,使机器学习方法逐渐成为文本分析的重要工具。词典法、词袋法、自然语言处理技术等利用人工智能手段进行不同特征语言归类的手段开始显现,如Harvard-IV词典对年报情绪语调的整理归类(Tetlock 2007;Tetlock et al. 2008),Loughran amp; McDonald(2011)根据“10-K”文本整理出金融学领域的情绪词典——LM词典。国内学者也在LM词典的基础上,结合中文的语法特征与情绪表达方式,创建了适合中国金融市场使用的情绪词典(姜富伟等 2021;姚加权等 2021)。其他算法应用,如Campbell(2014)首次将LDA模型应用在文本分析当中,从相关文本中提取并构建风险指标,Mikolov et al.(2013)提出的Word2vec技术也逐渐应用到文本分析中来(Gentzkow et al. 2019)。
无论是词频统计还是模型算法,在财经文本分析的研究中,都需要提取一定语言特征进行因果推断或进行预测。本文将简要梳理财经文本分析中常用的文本语言特征,并探讨不同的研究领域中语言特征如何扮演变量角色。
2 文本语言特征
财经领域文本分析的已有文献多从文本语言特征展开,包括文本可读性、文本情绪语调、文本相似度、文本语义特征等,综述类文献也一般以文本语言特征为线索进行整理分类(Gentzkow et al. 2019;姚加权等 2020)。
2.1 文本可读性
文本可读性是描述文本信息的阅读难易程度的指标,反映了受众获取文本信息并能够复现的程度(Dale amp; Chall 1949;McLaughlin 1969)。同一信息下,文本可读性的不同会使读者的理解产生分歧,从而影响最终决策。当前,衡量文本可读性的指标一般有三种:迷雾指数(Gunning 1952)、文件大小和平实英语指标(Loughran amp; McDonald 2014;Bonsall et al. 2017;马长峰等 2020)。
2.2 文本情绪语调
文本情绪语调反映了文本呈现的作者态度,包括观点、喜好、情感等。根据一定的情感词典建立情绪语调指标,可用以判断作者态度是积极还是消极。当前研究中,文本情绪语调主要用于预测研究对象未来价值走向,文本来源较为丰富,相比文本可读性指标,研究关注的范围更广,包括媒体报道文本情绪(Antweiler amp; Frank 2004;Tetlock 2007;Jegadeesh amp; Wu 2013;汪昌云、武佳薇 2015)、电视电话会议音视频语调(Larcker amp; Zakolyukina 2012;林乐、谢德仁 2017;王靖一、黄益平 2018)、社交网络文本(Chen et al. 2014;Renault 2017)、年报语调(Loughran amp; McDonald 2011;曾庆生等 2018;底璐璐等 2020)。
2.3 文本相似度
文本相似度指两个文本在遣词造句或表达含义上的相似程度(姜富伟等2021),在财经领域多用于分析不同企业之间披露文本,如财务报告之间的相似程度(Hoberg amp; Phillips 2010;宋建波、冯晓晴 2022),或者同一企业不同年份的披露文本增量信息的多寡(Brown amp; Tucker 2011;葛锐等 2020)。文本相似度的衡量指标一般可分为三种:N-gram相似度(王贤明等 2013)、余弦相似度(Hoberg amp; Phillips 2016;张勇、殷建 2022)和深度学习模型(Suprapto amp; Polela 2020)。
2.4 文本语义特征与情感倾向
文本的语义特征体现为不同语言中词法句法的不同使用。例如文本采用的不同时态可以作为时间标记判断文本主体对于当下和未来在认知上的距离(Chen 2013;Kim et al. 2021),人称代词的使用体现出性别特征,从而反映出公司是否存在性别角色区分(Santacreu-Vasut et al. 2014;Abdelfattah et al. 2021)、人称代词的省略与否能够表明文本正式程度与权力的距离,在经济决策中表现出不同的参考价值(Licht et al. 2007)。
文本情感倾向主要表现为文本的语气强度和用词的使用语境,如具体性用词(Elliott et al. 2015)、不确定性用语(Loughran amp; McDonald 2013)、极端性(Bochkay et al. 2020)、生动性(Hales et al. 2011)、自发性(Lee 2016)、正式性(Rennekamp amp; Witz 2021)、自我指示性(Asay et al. 2018)等。虚拟语气、祈使句等句式的使用强度反映了文本主体对现实事务的掌握程度,当语言中存在虚拟语气时,个体将会因为感知到更多的不确定性而增加风险规避的倾向(Kovacic amp; Orso 2018)。
3 文本分析在财经领域的应用
基于以上文本语言特征,文本分析在财经领域的应用可以细分为宏观经济与政策分析、金融市场分析、会计信息分析与组织行为分析等。现有针对具体研究问题进行综合整理的文献(沈艳等 2019;刘云菁等 2021)未能将经济金融与会计应用领域完整梳理,而文本语言特征与研究问题也并非一一对应,故本文将在前人的基础上根据不同领域的研究问题进行进一步整理和扩充。
3.1 宏观经济与政策分析
财经领域的已有文献,多采用文本词频统计、文本语调、文本可读性等语言特征进行政策分析,并拓展到宏观经济运行趋势。从具体研究问题角度可以分为政策不确定性研究和预测经济周期两方面。
3.1.1 政策不确定性指数构建与应用
Baker et al.(2016)利用美国新闻媒体数据,通过相关词典进行统计,建立描述经济政策不确定性的EPU指数,并进行领域拓展。EPU指数构建方法的优化与实践成为应用文本分析技术进行政策不确定性研究的重要领域。Tobback et al.(2018)基于SVM模型构建了比利时经济不确定性指数。Azqueta-Gavaldón(2017)基于LDA模型简化了构建EPU指数步骤。中国政策不确定性指标方面,已有文献多是基于《南华早报》构建EPU指数,Jurado et al.(2016)构建了中国金融不确定性指数。Bakas et al.(2016)根据欧洲市场文本研究了政策不确定性如何影响劳动力部门转移;其他也有诸如利用EPU指数研究政策不确定性对股票价格(Brogaard amp; Detzel 2015)、企业投资决策(Gulen amp; Ion 2016)等的影响。国内学者对于中国政策不确定性的影响分析较少,将EPU指数作为研究指标构建模型,研究变量关系的文献更为丰富。顾夏铭等(2018)研究政策不确定性对企业创新的影响,丁亚楠、王建新(2021)发现经济政策不确定性整体上降低了企业信息披露质量。
3.1.2 预测经济周期
文本分析技术为经济周期的预测提供了新的解决思路。现有文献对于利用文本语言特征预测经济周期主要从两个方面展开,包括构建经济周期指数进行预测和探索文本语调与经济周期的相关性。Thorsrud(2019)结合挪威新闻文本与GDP增长率构建经济增长指数并使用LDA模型进行分类预测;Kelly et al.(2021)提出HDMR模型,从央行沟通文本库中提取央行沟通测度指标,预测经济核心变量;文本情绪语调与经济运行周期的关系方面,Shapiro et al.(2020)基于美国16家主流经济金融媒体的新闻数据构建情绪指数,并展开文本情绪语调与经济运行情况的相关性分析。
3.2 金融市场分析
文本分析在金融市场研究中的应用主要在央行政策沟通、股票价格波动与投资决策以及金融市场指数构建与应用三个方面。
3.2.1 央行政策沟通
中央银行向市场传递货币政策目标与规则、经济形势判断以及前瞻性指引等信息由于在预期管理中具有重要作用,因此具备预测宏观经济的潜力。Hansen amp;"McMahon(2016)应用LDA模型,对美国联邦公开市场委员会(FOMC)会议内容进行文本分类并提取文本语调变量,探索其对金融市场是否存在持续性影响;Cieslak et al.(2019)对FOMC公告效应的研究发现其对股票市场超额收益率的影响是周期性的。国内对于央行政策沟通的文本分析研究比较深入,林建浩等(2021)基于文本数据的高维稀疏建模,引入央行沟通文本进行经济预测,发现能够提高预测精度。王琳、刘宏雅(2022)的研究发现,央行沟通、投资者情绪与股市波动之间存在动态时变关系,央行沟通能够有效调节投资者情绪,投资者情绪与股市波动之间呈现明显正向效应。
3.2.2 股票价格投资者决策
政策信息、新闻等文本信息能够反映股票市场的价格波动,而企业财务报告和社交媒体文本能够体现投资者的情绪与决策倾向。已有文献中,利用文本语言特征构建风险指数分析预测股票价格波动和利用文本语调分析投资者情绪的研究较为丰富。Kumar et al.(2022)基于Twitter评论的情绪语调,建立DFA-DBN模型进行估价预测,取得了更好的预测效果;顾文涛等(2020)将财经新闻文本加入金融情绪词典,改善了金融市场收益率预测效果;崔炎炎、刘立新(2022)利用情感分类模型提取金融科技相关股票投资者情绪指标,发现投资者情绪对金融科技类股票收益率预测具有重要作用。
3.2.3 金融市场指数构建
基于文本分析的金融市场指数主要包括以下几类:关注度指数、情绪指数、金融风险指数等。关注度指数构建主要从投资者和新闻媒体两个角度进行。Da et al.(2011)首次使用网页搜索次数衡量关注度,以股票代码为关键字构建投资者关注度指数;Tsukioka et al.(2018)基于雅虎财经论坛各公司下的发帖数量构建投资者关注度指数,发现投资者关注度与日本公司IPO抑价现象有关。石勇等(2017)基于股吧评论数据构建不同平台的关注度指数,包括投资者与新闻媒体,并建立VAR模型进行关注度与沪深300指数的相关性分析,结果表明投资者关注度对股市影响较大,新闻媒体关注度影响较小。
构建情绪指数的文本来源与关注度指数较为接近,对基于公司财务报告的文本语调构建出的情绪指数,本文将在第三部分详述。金融情绪指数构建的一个重要工具是金融情绪词典。哈佛大学通用调查词典(GI)在2000年公开之后,学者们不断创新金融情绪词典,包括Harvard-IV词典、LM词典等。Loughran amp; McDonald(2011)还提出了TF-IDF法,为计算量化金融文本特征提供了一种新的思路。Garcia(2013)应用LM词典构建情绪指数,发现其在经济下行时预测股票价格效果较好。Huang et al.(2015)使用偏最小二乘法(PLS)构建了投资者情绪指数,Petropoulos amp; Siakoulis(2021)基于XGBoost算法和NLP方法构建金融情感指数分析央行政策语调对经济波动的影响。
3.3 会计信息分析
关于会计信息的文本分析,文本来源基本为公司财务报告。针对不同的文本语言特征,对于会计信息的研究方向也各不相同,其中较为突出的是会计信息形式质量。会计信息形式质量是以特定语言和呈报方式准确、清晰、简明地传递会计信息的程度,故文本可读性、情绪语调、文本相似度等文本语言学特征成为会计信息形式质量的重要体现(杨丹等 2018)。整体来看,文本分析主要集中在会计信息形式质量与财务欺诈、投资与预测等方面。
3.3.1 会计信息形式质量与财务欺诈
上市公司的财务报告可能利用不同程度的用词,达到报表粉饰的效果,出现管理层操纵乃至财务欺诈,获得更多盈利的倾向。而随着文本挖掘与大数据技术的发展,财务欺诈的手段也更为丰富(Amani amp; Fadlalla 2017),对识别管理层操纵与财务欺诈提出了更高挑战。会计信息形式质量的一个重要体现是文本可读性。具有较低信息质量的财务报告不仅信息披露不全,文字上也会采取隐晦的描述方式来粉饰意图。Li(2008)和Biddle et al.(2009)使用迷雾指数度量企业会计信息披露质量,得到一组对偶结论,发现可读性高、信息质量高的企业更能提高投资效率,具有较低盈利水平的企业,通过降低可读性进行掩饰。Lo et al.(2017)发现管理层会降低年报文本可读性以迷惑读者,且该特征与盈余水平高度相关。徐巍等(2021)则在中文环境下构建了衡量中文年报可读性的指标,用以分析我国上市企业的信息是否存在财务欺诈现象。
3.3.2 会计信息形式质量、投资与预测
体现会计信息形式质量的文本语言特征不仅影响投资者的投资决策,对分析师预测公司价值,构建和改进企业风险指标亦有较强的参考价值。有学者发现企业财务报告的可读性影响着投资者的情绪反应与决策结果(Miller 2010;Rennkamp 2012),可读性越强,反衬了管理层乐观积极的情绪(Li 2010),对于会计信息形式质量更高的企业,散户投资意愿也更强。Lehavy et al.(2011)和Bassemir et al.(2013)分别通过年报和电视电话会议文本进行研究,发现可读性越差,分析师预测偏离程度越大。刘建秋等(2022)基于信号理论和迎合理论,发现企业社会责任报告正面语调能够降低分析师预测分歧和偏差,同时也降低了公司发生股价崩盘的风险。
3.3.3 其他问题
对于企业财务欺诈和投资决策影响的研究,也有学者从其他文本着手研究,强化了企业财务信息形式质量对财务欺诈和投资预测影响的结论。有学者进一步采用深度学习算法构建识别财务舞弊与财务欺诈的模型,如Lin et al.(2015)比较了多个人工智能算法识别企业财务欺诈的效果,发现决策树模型和人工神经网络明显更优。李哲、王文翰(2021)考察企业“多言寡行”的文本与行动特征是否影响其绿色信贷的获取,结果表明存在显著正向影响。谭建华、王雄元(2022)研究发现企业在出现财务违规后,其年报文本可读性、相似度显著下降,呈现异常积极的情绪语调。
在风险管理指标与模型构建方面,Manela amp; Moreira(2017)根据《华尔街日报》的文本信息构建了新闻隐含波动率指数(NVIX),用以管理企业股价波动风险,预测股票投资回报率。李成刚等(2021)将MDamp;A文本语言特征信息加入信用风险评估模型,结果表明文本语言特征信息与企业信用风险显著相关。阮素梅等(2022)通过对MDamp;A文本的情感语调进行算法建模,发现RF与GBDT模型能够有效识别上市公司财务风险。
3.4 企业组织行为分析
国内外对组织行为领域的文本分析较多,但对该领域的整理与综述研究并不丰富,宋铁波等(2021)对文本分析在企业管理领域的研究进行了编码梳理。这一领域的文本数据来源主要是年报MDamp;A信息与高管公开发言,应用领域可以归纳为两个方面——管理层战略与公司内部治理。
3.4.1 管理层战略
公司年报中的情绪语调可以反映管理层对企业发展战略的态度。吴建祖、赵迎(2012)对公司年报文本进行定性分析,发现公司注意力集中在消费者时,公司倾向于选择多元化战略;MDamp;A的“短期视域”语言反映了企业管理层的短视主义观念,影响了企业的长期发展战略。Brochet et al.(2015)建立短视主义词典对美国盈余电话会议内容进行词语视域分类,发现管理层存在短视主义现象。国内学者针对中文“听话听音”的语境特点进行研究改进。胡楠等(2021)基于Word2vec技术进行改进,发现中国上市公司高管存在短视主义现象,影响了企业的长期投资。王新光(2022)进而发现企业管理层的短视主义抑制了企业的数字化转型。
3.4.2 公司内部治理
公司治理领域的文本分析应用较为分散,学界通过对企业年报的信息披露和实际采访,挖掘企业风险管理,人力资源管理与社会责任承担领域的数据信息与相关性。周婷婷、李维安(2016)分析企业年报中的非财务信息,发现信息环境变动较低时,对企业的风险评估更为准确。McKenna et al.(2016)则针对企业不同性别与职级的员工采访文本,量化性别特征分析不同性别员工的工作生活平衡度与性别歧视现象。张秀敏等(2016)首次将语义分析引入企业环境信息披露的研究中,尽管结论呈现出企业环境信息披露质量与环境规制和公众关注度的相关性,但缺乏财经领域与环境领域的相关词典补充,仍需要对企业环境责任承担能力进一步证明。
4 结语
本文梳理了文本分析在财经领域应用的文献,从文本语言特征来看,文本可读性、文本语调、文本相似度和文本语义特征与情感倾向是文本分析中常用来作为量化指标的参考。从不同的学科领域来看,文本分析在宏观经济、金融学、会计学和企业管理等领域均有丰富的研究,研究问题主要可以分为两方面,包括不同领域的相关性因果推断和指标构建与预测。本文从两个角度进行文献的整理,旨在帮助读者理解文本分析技术在财务领域的应用,针对不同学科领域的具体问题提供不同语言特征的应用思路。
文本分析始于文本语言特征和简单指标的构建,随着计量经济学的发展形成变量参与因果推断或形成知识图谱。随着计算机技术的发展,大数据算法逐渐成为文本分析的重要工具,参与到各学科领域的研究当中。经济学、金融学的传统研究范式基于计量经济学的因果推断模型和检验分析,有赖于研究者组织一手资料或者二手资料形成结构化的数据变量。文本、音视频等信息在计算机算法的帮助下,不仅能够量化为数据变量参与到结构化数据分析中,还能够重新验证甚至拓展原有的研究范式与理论。
当前已有文献证实,文本信息与财务信息之间存在密切的联系。财经领域研究的因果推断显示,文本语调、文本可读性等语言特征,同时也是会计信息形式质量的体现,对企业财务欺诈倾向,投资者意愿和分析师预测精度等都具有显著的影响作用。同时,提取文本信息特征构建的文本指标在财务预测模型中能够提高预测效果也体现了文本信息对财务信息挖掘的补充,能够提高企业风险管理能力。然而,文本信息由于其非结构化的特点,基于计算机算法构建的语言指标的可信度仍然值得检验,且在文本语言特征受到管理层关注下,企业财务报告粉饰作用更为突出,主观性因素反而影响到对财务信息的判断。因此,本文认为文本分析技术的发展方向仍然值得探索:一是多角度开源文本信息,达到相互补充和验证的作用,注重对文本数据的清洗和整理,同时要注重不同领域、不同国别文本语言的特殊性,比如创造不同领域的情感词典等,提高文本信息量化指标的信度和效度;二是创新文本信息指标量化的方法,将最新计算机深度学习算法模型应用到文本信息的量化中来,提高文本信息提取效率;三是更多地将文本信息等非结构化数据应用到结构化数据模型中,验证与完善原有的理论与模型,提高因果推断的准确度,扩大文本分析在财经领域的应用范围。
参考文献
ABDELFATTAH T, ELMAHGOUB A, ELAMER M. Female audit partners and extended audit reporting: UK evidence [J]. Journal of Business Ethics, 2021, 174(1): 177-197.
AMANI F, FADLALLA A. Data mining applications in accounting: a review of the literature and organizing framework [J]. International Journal of Accounting Information Systems, 2017, 24: 32-58.
ANTWEILER W, FRANK M. Is all that talk just noise? The information content of internet stock message boards [J]. The Journal of Finance. 2004, 59(3): 1259-1294.
ASAY H, LIBBY R, RENNEKAMP K. Do features that associate managers with a message magnify investors’ reactions to narrative disclosures? [J]. Accounting, Organizations and Society, 2018, 68, 1-14.
AZQUETA-GAVALDÓN A. Developing news-based economic policy uncertainty index with unsupervised machine learning [J]. Economics Letters, 2017, 158: 47-50.
BAKAS D, PANAGIOTIDIS T, PELLONI G. On the significance of labor reallocation for European unemployment: Evidence from a panel of 15 countries [J]. Journal of Empirical Finance, 2016, 39(B): 229-240.
BAKER M, WURGLER J. Investor sentiment and the cross-section of stock returns [J]. The Journal of Finance, 2006, 61(4), 1645-1680.
BAKER S, BLOOM N, DAVIS S. Measuring economic policy uncertainty [J]. The Quarterly Journal of Economics, 2016, 131(4): 1593-1636.
BASSEMIR M, NOVOTNY-FARKAS Z, PACHTA J. The effect of conference calls on analysts’ forecasts – German evidence[J]. European Accounting Review, 2013, 22(1): 151-183.
BIDDLE G, HILARY G, VERDI R. How does financial reporting quality relate to investment efficiency? [J]. Journal of Accounting and Economics, 2009, 48(2): 112-131.
BOCHKAY K, HALES J, CHAVA S. Hyperbole or reality? Investor response to extreme language in earnings conference calls [J]. The Accounting Review, 2020, 95(2), 31-60.
BONSALL S, LEONE A, MILLER B, RENNEKAMP K. A plain English measure of financial reporting readability [J]. Journal of Accounting and Economics, 2017, 63(2-3): 329-357.
BROCHET F, LOUMIOTI M, SERAFEIM G. Speaking of the Short-Term: disclosure horizon and managerial myopia[J]. Review of Accounting Studies, 2015, 20: 1122-1163.
BROGAARD J., DETZEL A. The asset-pricing implications of government economic policy uncertainty [J]. Management Science, 2015,61(1): 3-18.
BROWN S, TUCKER J. Large-sample evidence on firms’ year-over-year MDamp;A modifications [J]. Journal of Accounting Research, 2011,49(2): 309-346.
CAMPBELL J, CHEN H, DHALIWAL D, et al. The information content of mandatory risk factor disclosures in corporate filings [J]. Review of Accounting Studies, 2014,19(1): 396-455.
CHEN H, DE P, HU Y, HWANG B. Wisdom of crowds: the value of stock opinions transmitted through social media [J]. The Review of Financial Studies, 2014, 27(5): 1367-1403.
CHEN M. The effect of language on economic behavior: evidence from savings rates, health behaviors, and retirement assets [J]. American Economic Review, 2013,103(2): 690-731.
CIESLAK A, MORSE A, VISSING-JORGENSEN A. Stock returns over the FOMC cycle[J]. The Journal of Finance, 2019, 74(5): 2201-2248.
DA Z, ENGELBERG J, GAO P. In search of attention[J]. The Journal of Finance, 2011,66(5): 1461-1499
DALE E, CHALL J. Techniques for selecting and writing readable materials[J]. Elementary English, 1949,26(5):250-258.
ELLIOTT W, RENNEKAMP K, WHITE B. Does concrete language in disclosures increase willingness to invest?[J]. Review of Accounting Studies, 2015, 20(2): 839-865.
FLESCH R. A new readability yardstick[J]. Journal of Applied Psychology, 1948, 32(3): 221-233.
GARCIA D. Sentiment during recessions [J]. The Journal of Finance, 2013, 68(3): 1267-1300.
GENTZKOW M, KELLY B, TADDY M. Text as data [J]. Journal of Economic Literature, 2019,57(3): 535-574.
GULEN H, ION M. Policy uncertainty and corporate investment [J]. The Review of Financial Studies, 2016, 29(3):523–564.
GUNNING R. Technique of clear writing [M]. New York: McGraw-Hill, 1952.
HALES J, KUANG X, VENKATARAMAN S. Who believes the hype? An experimental examination of how language affects investor judgments [J]. Journal of Accounting Research, 2011, 49(1): 223-255.
HANSEN S, MCMAHON M. Shocking language: understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.
HOBERG G, PHILLIPS G. Product market synergies and competition in mergers and acquisitions: a text-based analysis [J]. The Review of Financial Studies, 2010,23(10): 3773-3811.
HOBERG G, PHILLIPS G. Text-based network industries and endogenous product differentiation[J]. Journal of Political Economy, 2016, 124(5): 1423-1465.
HUANG D, JIANG F, Tu J, et al. Investor sentiment aligned: a powerful predictor of stock returns [J]. The Review of Financial Studies, 2015, 28(3): 791-837.
JEGADEESH N, WU D. Word power: a new approach for content analysis [J]. Journal of Financial Economics, 2013, 110(3): 712-729.
JONES M, SHOEMAKER P. Accounting narratives: a review of empirical studies of content and readability[J]. Journal of Accounting Literature, 1994,13(1): 142.
JURADO K, NG S, LUDVIGSON S. Measuring uncertainty[J]. Operations Research: Management science, 2016, 56(3): 265-266.
KELLY B, MANELA A, MOREIRA A. Text selection [J]. Journal of Business amp; Economic Statistics, 2021, 39(4) : 859-879.
KIM J, KIM Y, ZHOU J. Time encoding in languages and investment efficiency [J]. Management Science, 2021, 67(4), 2609-2629.
KOVACIC M, ORSO C. Why do some individuals fear immigration more than others? Evidence from Europe[J]. Working Paper, 2018.
KUMAR S, AKEJI A, MITHUN T. Stock price prediction using optimal network based twitter sentiment analysis [J]. Intelligent Automation amp; Soft Computing, 2022, 33(2): 1217-1227.
LARCKER D, ZAKOLYUKINA A. Detecting deceptive discussions in conference calls [J]. Journal of Accounting Research, 2012, 50(2): 495-540.
LEE J. Can investors detect managers’ lack of spontaneity? Adherence to predetermined scripts during earnings conference calls [J]. The Accounting Review, 2016, 91(1): 229-250.
LEHAVY R, LI F, MERKLEY K. The effect of annual report readability on analyst following and the properties of their earnings forecasts [J]. The Accounting Review, 2011,86(3): 1087-1115.
LI F. The information content of forward-looking statements in corporate filings: a naïve Bayesian machine learning approach [J]. Journal of Accounting Research, 2010, 48(5): 1049-1102.
LI F. Annual report readability, current earnings, and earnings persistence [J]. Journal of Accounting and Economics, 2008, 45(2-3): 221-247.
LICHT A, GOLDSCHMIDT C, SCHWARTZ S. Culture rules: the foundations of the rule of law and other norms of governance [J]. Journal of comparative economics, 2007, 35(4), 659-688.
LIN C, ANAN C, HUANG S. Detecting the financial statement fraud: the analysis of the differences between data mining techniques and experts’ judgments [J]. Knowledge-Based Systems, 2015, 89: 459-470.
LO K, RAMOS F, ROGO R. Earnings management and annual report readability [J]. Journal of Accounting and Economics, 2017, 63(1): 1-25.
LOUGHRAN T, MCDONALD B. When is a liability not a liability? Textual analysis, dictionaries, and 10-Ks[J]. The Journal of Finance, 2011, 66(1): 35-65.
LOUGHRAN T, MCDONALD B. IPO first-day returns, offer price revisions, volatility, and form S-1 language [J]. Journal of Financial Economics, 2013, 109(2): 307-326.
LOUGHRAN T, MCDONALD B. Measuring readability in financial disclosures [J]. The Journal of Finance. 2014,69(4):1643-1671.
MANELA A, MOREIRA A. News implied volatility and disaster concerns [J]. Journal of Financial Economics, 2017, 123(1): 137-162.
MCKENNA B. VERREYNNE M. WADDELL N. Locating gendered work practices: a typology [J]. International Journal of Manpower, 2016, 37(6): 1085-1107.
MCLAUGHLIN G. SMOG grading: a new readability formula [J]. Journal of Reading, 1969, 12(8): 639-646.
MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [J]. Advances in Neural Information Processing Systems, 2013: 3111-3119.
MILLER B. The effects of reporting complexity on small and large investor trading[J].The Accounting Review, 2010, 85(6): 2107-2143.
PETROPOULOS A, SIAKOULIS V. Can central bank speeches predict financial market turbulence? Evidence from an adaptive NLP sentiment index analysis using XGBoost machine learning technique [J]. Central Bank Review, 2021, 21(4): 141-153.
QIU L, WELCH I. Investor sentiment measures [J]. National Bureau of Economic Research Working Paper, 2006, No. w10794.
RENAULT T. Intraday online investor sentiment and return patterns in the US stock market [J]. Journal of Banking amp; Finance, 2017, 84: 25-40.
RENNEKAMP K, WITZ P. Linguistic formality and audience engagement: investors’ reactions to characteristics of social media disclosures [J]. Contemporary Accounting Research, 2021, 38(3): 1748-1781.
RENNKAMP K. Processing fluency and investors’ reactions to disclosure readability [J]. Journal of Accounting Research, 2012, 50(5): 1319-1354.
SANTACREU-VASUT E, SHENKAR O, SHOHAM A. Linguistic gender marking and its international business ramifications[J]. Journal of International Business Studies, 2014, 45(9): 1170-1178.
SHAPIRO A, SUDHOF M, WILSON D. Measuring news sentiment[J]. Journal of Econometrics, 2020,228 (2): 221-243.
SUPRAPTO, POLELA J. The influence of loss function usage at SIAMESE network in measuring text similarity [J]. International Journal of Advanced Computer Science and Applications (IJACSA), 2020, 11(12): 787-792.
TETLOCK P. Giving content to investor sentiment: the role of media in the stock market [J]. The Journal of Finance, 2007, 62(3): 1139-1168.
TETLOCK P, SAAR‐TSECHANSKY M, MACSKASSY S. More than words: quantifying language to measure firms’ fundamentals [J]. The Journal of Finance, 2008, 63(3): 1437-1467.
THORSRUD L. Words are the new numbers: a newsy coincident index of the business cycle [J]. Journal of Business amp; Economic Statistics. 2019: 393-409.
TOBBACK E, NAUDTS H, DAELEMANS W. Belgian economic policy uncertainty index: improvement through text mining [J]. International Journal of Forecasting, 2018, 34(2) : 355-365.
TSUKIOKA Y, YANAGI J, TAKADA T. Investor sentiment extracted from internet stock message boards and IPO puzzles [J]. International Review of Economics and Finance, 2018, 56: 205-217.
崔炎炎,刘立新.网络舆情赋能金融科技股票收盘价预测研究[J].统计研究,2022(6):148-160.
底璐璐,罗勇根,江伟,等.客户年报语调具有供应链传染效应吗?——企业现金持有的视角[J].管理世界,2020(8):148-163.
丁亚楠,王建新.“浑水摸鱼”还是“自证清白”:经济政策不确定性与信息披露——基于年报可读性的探究[J].外国经济与管理,2021(11):70-85.
葛锐,刘晓颖,孙筱蔚.审计师更换影响管理层报告信息增量了吗?——来自纵向文本相似度的证据[J].审计研究,2020(4):113-122.
顾文涛,王儒,郑肃豪,等.金融市场收益率方向预测模型研究——基于文本大数据方法[J].统计研究,2020(11):68-79.
顾夏铭,陈勇民,潘士远.经济政策不确定性与创新——基于我国上市公司的实证分析[J].经济研究,2018(2):109-123.
胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021(5):139-156.
姜富伟,孟令超,唐国豪.媒体文本情绪与股票回报预测[J].经济学,2021(4):1323-1344.
李成刚,贾鸿业,赵光辉,付红.基于信息披露文本的上市公司信用风险预警——来自中文年报管理层讨论与分析的经验证据[J].中国管理科学,2021(4):1-14.
李哲,王文翰.“多言寡行”的环境责任表现能否影响银行信贷获取——基于“言”和“行”双维度的文本分析[J].金融研究,2021(12):116-132.
林建浩,陈良源,罗子豪,等.央行沟通有助于改善宏观经济预测吗?——基于文本数据的高维稀疏建模[J].经济研究,2021(3):48-64.
林乐,谢德仁.投资者会听话听音吗?——基于管理层语调视角的实证研究[J].财经研究,2016(7):28-39.
林乐,谢德仁.分析师荐股更新利用管理层语调吗?——基于业绩说明会的文本分析[J].管理世界,2017(11):125-145.
刘建秋,尹广英,吴静桦.企业社会责任报告语调与分析师预测:信号还是迎合?[J].审计与经济研究,2022(3):62-72.
刘云菁,张紫怡,张敏.财务与会计领域的文本分析研究:回顾与展望[J].会计与经济研究,2021(1):3-22.
马长峰,陈志娟,张顺明.基于文本大数据分析的会计和金融研究综述[J].管理科学学报,2020(9):19-30.
阮素梅,杜旭东,李伟,等.数据要素、中文信息与智能财务风险识别[J].经济问题,2022(1):107-113.
沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[J].经济学,2019(4):1153-1186
石勇,唐静,郭琨.社交媒体投资者关注、投资者情绪对中国股票市场的影响[J].中央财经大学学报,2017(7):45-53.
宋建波,冯晓晴.关键审计事项信息含量与公司债券发行定价——基于文本相似度视角[J].会计研究,2022(3):174-191.
宋铁波,陈玉娇,朱子君.量化文本分析法在国内外工商管理领域的应用对比与评述[J].管理学报,2021(4):624-632.
谭建华,王雄元.上市公司违规与年报文本信息操纵[J].中国软科学,2022(3):99-111.
汪昌云,武佳薇.媒体语气、投资者情绪与IPO定价[J].金融研究,2015(9):174-189.
王靖一,黄益平.金融科技媒体情绪的刻画与对网贷市场的影响[J].经济学,2018(4):1623-1650.
王琳,刘宏雅.央行沟通能否有效应对突发事件“大考”——基于中国人民银行沟通事件的文本分析[J].北京理工大学学报(社会科学版),2022(1):77-89.
王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013(7):716-723.
王新光.管理者短视行为阻碍了企业数字化转型吗——基于文本分析和机器学习的经验证据[J].现代经济探讨,2022(6):103-113.
吴建祖,赵迎.高层管理团队注意力对企业多元化战略选择的影响——基于中国上市公司的实证分析[J].经济与管理研究,2012(9):107-113.
徐巍,姚振晔,陈冬华.中文年报可读性:衡量与检验[J].会计研究,2021(3):28-44.
杨丹,黄丹,黄莉.会计信息形式质量研究——基于通信视角的解构[J].会计研究,2018(9):3-10.
姚加权,张锟澎,罗平.金融学文本大数据挖掘方法与研究进展[J].经济学动态,2020(4):143-158.
姚加权,冯绪,王赞钧,等.语调、情绪及市场影响:基于金融情绪词典[J].管理科学学报,2021(5):26-46.
曾庆生,周波,张程,等.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018(9):143-160.
张秀敏,汪瑾,薛宇. 语义分析方法在企业环境信息披露研究中的应用[J].会计研究,2016(1): 87-94.
张勇,殷健.会计师事务所联结与企业会计政策相似性——基于TF-IDF的文本相似度分析[J].审计研究,2022(1):94-105.
周婷婷,李维安.信息环境波动与董事会风险功能——基于风险信息披露视角[J].经济与管理研究,2016(5):105-112.
通信地址: 100089 北京市 北京外国语大学国际商学院