文本分析技术文献综述
2018-01-23王潇敏
王潇敏
[摘要]文章运用文献综述的方法,筛选多篇文章,对文本分析技术的不同种类与方法进行介绍,并对不同方法在文献中的运用进行梳理,区分不同方法的特征。
[关键词]文本分析; 情感分析; 词袋;可读性
[DOI]1013939/jcnkizgsc201801022
1引言
文本分析技術是指通过文本信息进行挖掘检索,把从文本中抽取出的特征词进行量化来表示文本内容,它是一种基于大数据时代的新兴技术,并广泛用于经济与会计的研究领域。文章将介绍不同的文本分析方法在经济与会计研究方面的应用。
2可读性分析
用可读性进行文本分析是比较常用的方法,文本可读性通常用迷雾指数,Flesch指数 Flesch-Kincaid指数和文本长度来表示,早期的研究大多都是基于小样本的研究。比如[1]Lewis,Parker1986年只用了跨越四个年度的九个公司作为样本,用不同度量方法来研究财务报表的可读性。
第一篇用大样本量研究有关于文本可读性的文章是[2]Li 2008年发表的关于年度报表可读性与公司业绩的关系的文章。这篇文章后被大量引用,他主要就是用年度报表的迷雾指数和包含的单词个数来度量文本的可读性。继Li之后有关于用可读性衡量文本信息的文章层出不穷。[3]Lawrence于2013年发现迷雾指数与年度报表的单词总数与个人的股票持有量相关。[4]Lehavy,Li,Merkley于2011年通过分析发现年度报表的迷雾指数越高那么分析师的偏差越小,盈利预测越准确。
3文本语调分析
另一种常用的文本分析方法为“词袋法”,词袋法在文献中运用比较多的是通过将表达不同情感的词进行归类形成词语列表,比如分别将含有消极、积极、不确定等感情色彩的词进行归类列表。比较简单地用词袋法进行文本分析的方法是目标词匹配法。
Loughran,McDonld和Yun于2009就运用目标词批匹配法考虑“道德”这个词与“企业责任”“社会责任”一起出现的频率与企业的股票状况、公司治理现状和是否可能遭到起诉是否有联系。[5]相比关键词匹配法用词袋法中的词语列表法进行研究的文献更多一些。在经济与会计研究领域共有四种词语列表被广泛应用,例Henry(2008),Harvards GI,Diction,Loughran和McDonald。最早期的研究就主要集中于消极词汇的单词列表,国内的研究主要有[6]谢德仁、林乐同样用词袋法分别在2014年和2015年发表了通过研究业绩说明会中管理层语调分析与市场反应和公司未来业绩的关系。[7]包燕娜通过词袋法研究了管理层语调离差对分析师预测的影响程度。[8]Tetlock于2007年用Harvard词汇列表把华尔街日报中了解市场部分与股票市场水平相联系,他发现华尔街日报中该部分悲观情绪与随后的股票回报率呈负相关与股票市场的波动性呈正相关。继Tetlock之后大量的研究都用Harvard词汇列表进行研究。在度量文本语调的研究中,现在越来越多的研究更偏爱用积极与消极用语单词列表法。但是L M指出Harvard词汇列表和积极与消极用语单词列表法的弊端,比如Harvard词汇列表中75%的消极词汇在经济类文章中并没有消极含义。[9]Loughran,McDonld于2011创造了六种不同的单词列表包括积极的、消极的、不确定的、好争论的、强模式的、弱模式的。LM词汇列表相比于上述其他三种更成熟与完整,大量的文章或新闻都用LM法去度量文本语调。[10]Garcia于2013年利用LM的消极与积极词汇列表来度量1905—2005年纽约时报的经济模块,结果表明新闻内容所传递的情绪在预测未来股票回报特别是在经济萧条时期的股票回报有着至关重要的作用。
相信随着计算机技术的发展和数据大爆炸的到来文本分析技术会运用得越来越广泛,技术也会越来越成熟。
参考文献:
[1]Lewis,NR,LDParker,GDPound and PSutcliffe.Accounting Report Readability: The Use of Readability Techniques[J].Accounting and Business Research,1986(16): 199-213
[2]LI,FAnnual Report Readability,Current Earnings,and Earnings Persistence[J].Journal of Accounting and Economics,2008(45): 221-247.
[3]Lawrence,AIndividual Investors and Financial Disclosure[J].Journal of Accounting & Economics,2013(56): 130-147.
[4]Lehavy R,FLI and KMerkleyThe Effect of Annual Report Readability on Analyst following and the Properties of their Earnings Forecasts[J].The Accounting Review,2011(86): 1087-1115.
[5]Loughran T,BMcdonald and HYunA Wolf in Sheeps Clothing:The Use of EthicsRelated Terms in 10-K Reports[J].Journal of Business Ethics,2009(89): 39-49.
[6]谢德仁,林乐管理层语调能预示公司未来业绩吗[J].会计研究,2015(2):20-27.
[7]包燕娜管理层语调离差策略及其对分析师预测乐观度的影响[D].杭州:浙江工商大学,2016.
[8]Tetlock,PCGiving Content to Investor Sentiment: The Role of Media in the Stock Market[J].Journal of Finance,2007(62): 1139-1168
[9]Loughran,T,and BMcdonaldWhen is a Liability not a Liability? Textual analysis,Dictionaries,and 10‐Ks[J].Journal of Finance,2011(66): 35-65
[10]Garcia,DSentiment during Recessions[J].Journal of Finance,2013(68): 1267-1300endprint