基于文本大数据分析的会计和金融研究综述①

2020-12-29马长峰陈志娟张顺明

管理科学学报 2020年9期

马长峰，陈志娟，张顺明

(1. 上海国家会计学院数字金融研究中心，上海 201702； 2. 浙江工商大学金融学院，杭州 310018；3. 中国人民大学财政金融学院，北京 100872)

0 引言

中共十九大报告提出“推动互联网、大数据、人工智能和实体经济深度融合”，说明大数据研究契合国家经济发展战略，具有重大意义.大数据(2)Gepp等[2]指出大数据特征表现为4V: Volume、Velocity、Variety、Veracity，分别指数据量大、产生速度快、格式或类型多、数据品质和相关性时变.陈国青等[3]是大数据对管理的影响的综述，而Zhu[4]证明大数据能够起到公司治理的作用.多表现出非结构化特征，要求新的数据处理技术(例如机器学习)，能够产生新的发现.大数据包括文本、音频、图像和视频等类型.过去十年，文本大数据对金融和会计研究产生巨大影响.对此梳理相关研究脉络，揭示最新研究动态；比较文本分析的优缺点并展望未来研究方向，提供新的研究视角并激发研究思路.

文本分析是计算语言学、自然语言处理、信息恢复、内容分析等领域的交叉学科.应用文本分析进行会计和金融研究的主要步骤如下：采集文档，解析文档，文本挖掘，指标构建，计量分析.由于通常没有现成的文本大数据可用，研究者一般需要开发网络爬虫采集原始文档.解析文档之前可能需要对原始文档进行格式转换，例如中国上市公司年报是PDF格式，须转换为容易被计算机处理的文本格式.解析文档主要是删除图形、表格、标签(例如HTML标签)和冗余标点符号等噪音从而提供干净文本.正如Loughran和McDonald[5]指出，解析文档难度很大，是关键环节.基于干净文本，采用词袋技术等文本挖掘工具，即可构建可读性(readability)、语调、文档相似性等指标，进而进行计量分析.

随着文本大数据的出现和计算语言学的发展，文本大数据分析成为会计和金融研究的重要工具(3)Teoh[6]对会计研究可用的新数据(不限于文本)进行了分类总结，提出了数据和计量方法的挑战和机遇..根据研究内容，可将相关文献分为两类：第一类将文本分析用于信息品质和数量、信息披露和市场异象等问题的研究，第二类用于构建公司创新、竞争力等新指标.

Li[1]是较早关于文本分析方面的研究综述，但该文限于公司信息披露方面的研究.Lourghran和McDonald[7]范围更广，但该文以研究方法为主线，且未包含许多金融和会计重要领域的研究，特别地，该文并没有包含中文文本分析的研究.沈艳等[8]虽然包含了中文文献，但按照学科梳理文献，与以下按照研究内容的视角完全不同.根据是否与信息相关来梳理文献，这一新视角是对此前文献综述的发展.同时，相比此前文本分析的文献综述多以英文文献为主，此处兼顾中英文文献的综述更全面.

学术贡献为：1)总结了应用文本分析研究会计和金融问题的一般步骤；2)理清了应用文本分析进行会计和金融研究的脉络：按照是否和信息相关，将文献归结为两类；3)对比了文本分析的优势和缺点，有助于研究者全面认识文本分析并规避方法缺陷；4)指出未来应用文本分析技术进行会计和金融研究的可能方向，为后续研究提供参考；5)分析中文文本分析的难度和前景，有利于形成中国特色的会计和金融研究体系.

1 信息相关研究

金融和会计都与信息密切相关，因此有大量文献应用文本分析在信息品质、信息数量、信息披露和与信息相关的市场异象等方面开展研究.

1.1 信息品质——财务文档可读性

作为信息品质的一种度量，可读性反应了投资者获取文档中信息的难易程度，而这与公司信息披露、信息环境和市场对信息的反应密切相关.文献中的可读性指标分为以下三类.

1.1.1 基于词句难度的可读性指标

Fog index是语言学中度量文档可读性的指标，最先被Li[9]引入会计和金融研究.Fog index是句子难度(一句话含词越多越难)和词语难度(一个词音节越多越难)之和，具体公式为

Fog=0.4×(平均单词个数/句+

多于2个音节单词占比百分数)

(1)

Fog index数值代表第一遍阅读一篇文档时，一个人需要几年的教育才能读懂该文.例如，如果一篇文档的Fog index是5，意味着至少5年的教育才能使一个人在第一遍阅读时能读懂该文.由于这个指标提出较早，并且适用于大规模文本分析，因此这个指标在财务文档可读性研究中应用广泛.和Fog index类似，Flesch index将Fog index中的第二项换成单词的音节数，而Flesch-Kincaid index则是将指标变化范围调整到0～100.

与Fog index类似，丘心颖等[10]用笔画数刻画汉字的难度(年报汉字平均笔画数越大，可读性越差)，结合句子难度构造了中文年报可读性(复杂性)，发现年报可读性越差的公司随后被更多分析师跟踪.王克敏等[11]从文本逻辑和字词的复杂性两个角度刻画中文年报文本信息复杂性，发现管理者会操纵年报文本信息复杂性.

作为最早被引入会计研究的可读性指标，Fog index为基础的研究延伸到很多领域.Dyer等[12]用Fog index度量可读性，揭示了1996年～2013年间美国上市公司年报可读性下降的趋势.Bozanic等[13]用Fog index研究律师对信息披露的影响.

Li[9]用Fog index度量年报可读性，检验“管理层混淆假说”(managers obfuscation hypothesis)，发现盈余越低的公司年报可读性越差(Fog index越大)，这是因为管理层为降低市场反应而故意模糊信息.而业绩好的公司年报不存在这样的情况，因此其盈余容易持续.Lo等[14]发现操纵当年盈余高于上一年的公司年报的管理层讨论和分析部分(MD&A)可读性变差.Lo等[14]表明盈余水平和MD&A部分的可读性负相关，而Li[9]表明盈余水平和年报全文的可读性正相关，这说明年报全文和其中MD&A部分的可读性受到管理层区别对待，也表明区分年报不同部分的可读性值得研究，可能的原因是管理层对年报不同部分的关注程度不同.

同样是结合语言学和会计金融的研究，Kim等[15]发现，体现将来时态程度越高的语言的国家更容易出现盈余操纵，其逻辑是体现将来时态程度这种语法特征越明显，语言中越容易明确表明事件发生的未来时间，则公司高管越能察觉到盈余操纵的后果.这是第一个语言时态和盈余操纵方面的研究.

可读性影响投资者交易和市场行为方面，Miller[16]采用Fog index度量可读性，发现年报可读性会导致年报发布期间更多的小额投资者交易活动， Lawrence[17]也发现散户更可能投资年报可读性好、年报短的公司.Rennkamp[18]在实验中研究可读性，发现可读性会导致散户反应过度，不精明的投资者尤其如此.You和Zhang[19]发现年报词数越多，年报发布后12个月内市场反应不足越明显.Lehavy等[20]发现年报可读性越差，随后跟踪该公司的分析师人数越多，分析师预测分歧程度越高，分析师预测准确度越低. De Franco等[21]证明，采用Fog index、Flesch-Kincaid、Flesch Reading Ease度量的分析师研究报告的可读性和交易量正相关.

上述研究表明，强制性财务信息披露的复杂性(可读性的反义词)会恶化公司的信息环境(交易量降低、分析师预测分歧增加和分析师预测准确度降低等).如果公司高管在信息披露时故意降低可读性来隐藏信息，那么可读性差的公司减少(或者不改变)自愿信息披露.然而，如果较低可读性源于公司自身的商业复杂性或者信息披露准则，那么公司高管可能会增加自愿信息披露来减弱信息环境恶化.Guay等[22]证明，为了降低强制性信息披露带来的信息环境恶化，公司高管确实会增加自愿信息披露.Lundholm等[23]发现，在美国交叉上市的公司倾向于发布可读性更好的文档.Li[24]发现高管对未来越乐观，MD&A的可读性越好.Biddle等[25]用Fog index度量财务信息披露品质，发现信息披露品质能够提高资本投资效率.

1.1.2 文件大小作为可读性指标

虽然Fog index被大量文献用于度量财务文档可读性，但是Loughran和McDonald[5]认为，该指标的第二项，也就是单词难度用多音节来度量并不合理，因为多音节单词对于商业领域并不一定很难.例如，“company”虽然是个多音节单词，但是这个词对大多数市场参与者来说却很熟悉.而且他们发现Fog index并不能解释分析师预测分歧程度和意外盈余.因此Loughran和McDonald[5]将可读性定义为投资者或者分析师从一篇财务披露文档中吸收价值相关信息的难度，并且提出文件大小(file size)作为可读性指标.文件大小指的是一篇财务披露文档所占字节数.文件大小作为可读性度量最大的好处是不需要解析财务文档，因此该指标客观，可重复.更重要的是，Loughran和McDonald[5]发现，年报文件越大(可读性越差),随后公司特质波动率越高，分析师对盈余预测分歧程度越高，意外盈余绝对值越大，也就是说文件大小能够度量可读性.Ertugrul等[26]也发现公司年报文件大小度量的可读性越差，外部融资成本越高.Dyer等[12]用LDA(latent dirichlet allocation)技术(4)Jegadeesh和Wu[27]、Hoberg和Lewis[28]和Ganglmair和Wardlaw[29]等文献也使用了LDA技术.发现FASB和SEC要求导致的公允价值、内部控制和风险因素这三个方面是美国上市公司年报长度增加的主要原因.马长峰等[30]发现中文年报文件大小不能预测波动率，但摘要的文件大小能负向预测波动率.

1.1.3 基于平实英语的可读性指标

虽然Loughran和McDonald[5]认为文件大小作为可读性指标易得、准确客观且重复性高，但是Bonsall等[31]却指出，文件大小的时变经常是因为和文本无关的因素(例如HTML、 XML和PDF等相关内容的加入)，进而提出了一种基于平实英语(plain English)的可读性指标，也就是Bog index.该文认为，可读性应该从美国证监会在1998年推出的平实英语要求出发，度量信息披露文档表达是否清楚.而Fog index指标蕴含的句子长度和单词难度仅仅是平实英语的一部分(其他还有语态、动词、俚语、专业术语、抽象词汇、冗余词汇和过度细节等方面)，且词语难度用音节数度量并不合理.Bog index优势在于：第一，根据几乎全部平实英语特征构造指标；第二，以一个20万词汇列表为基础根据每个单词的熟悉程度打分，从而更真实度量词语难度，也改进了Fog index中词语难度度量的问题.的确，该文发现只有Bog index指标在平实英语监管要求出台前后显著变化，而其他可读性指标都不能捕捉这一监管规则变化.Bonsall和Miller[32]采用Bog index度量可读性，发现财务信息披露文档可读性越差，导致公司债券评级越低(违约风险越高)，评级机构之间分歧程度越高，债务资本成本越高.Bonsall等[31]也发现年报公布之前操纵盈余的公司MD&A可读性变差.Li[9]是用可读性(Fog index)预测盈余品质，而Bonsall等[31]却发现盈余品质同样预测年报MD&A部分的可读性(Bog index).Asay等[33]用基于平实英语的可读性证明高管会操纵信息披露中的表达方式.

需要指出，文档可读性(所含信息被理解的难度)很难和公司从事商业活动本身的复杂性分离，因此可读性的某些影响可能是可读性和复杂性共同起作用的结果.

1.2 文本的信息含量

可读性借鉴计算语言学，刻画了文档的一种语言特征，而这种特征影响公司与市场参与者之间的信息交换.那么，除语言特征之外，文档中的文本是否含有信息呢？许多文献发现，除了数字报表，文本也含有信息，能够对市场和投资者产生影响.因此文本信息是相对于财务报表的增量信息.Henry[34]发现盈余新闻稿语调影响投资者反应.

Li和Ramesh[35]发现季报的市场反应限于首次发布，而年报的市场反应则限于季. Loughran和McDonald[36]改进了用于构造语调的负面词汇列表，发现年报全文而不是MD&A部分的负面词汇出现频率能预测年报公布后股票的价格、交易量、波动率等变量，并且能预测高管欺诈.只分析MD&A部分的文本的文献也发现了文本含有信息的有力证据.例如，Feldman等[37]发现年报和季报MD&A部分语调变化引起短期市场反应. Li[24]使用朴素贝叶斯机器学习方法，发现MD&A中高管陈述越乐观，公司未来的盈余和流动性就越好.Brown和Tucker[38]发现MD&A变化引起市场反应，但并不影响分析师预测的修改，因此分析师并不用MD&A的信息.Kothari等[39]研究了公司报告、分析师报告和商业新闻等方面的披露文本，发现信息披露语调乐观(悲观)伴随着公司风险降低(升高)，其中风险包括资本成本、波动率和分析师预测分歧程度.

中文文本信息含量的研究成果非常丰富.赵子夜等[40]研究管理层报告的样板化及其经济后果.谢德仁和林乐[41]发现管理层净正面语调与公司来年业绩显著正相关.林乐和谢德仁[42]证明业绩说明会管理层语调能预测分析师行为.孟庆斌等[43]发现MD&A信息含量越高未来股价崩盘风险越低.薛爽等[44]发现亏损公司MD&A中提及的外部或内部原因越多,下一年扭亏的可能性越小；经营计划中提及的战略性改进措施越多，则下一年度扭亏的可能性越大；当下一年度计划增加研发支出时，会提高扭亏的概率.

De Franco等[45]研究了分析师报告中的股东和债权人利益冲突事件，发现损害债权人利益事件的分析引起信用利差增大，债券交易量增加.Huang等[46]发现分析师的正面文本比负面文本更强烈引起投资者反应，分析师报告文本能预测未来5年的盈余增长.林乐和谢德仁[42]发现管理层净正面语调提高了分析师更新其荐股报告的可能性及更新人数比例, 并会提高分析师荐股评级水平及其变动.

Price等[47]发现季度业绩说明会中高管在问答中的语调为正(负)，则随后3天和2个月的股价上升(下降).Blau等[48]发现业绩说明会语调为正则卖空交易活动会降低，卖空对收益率预测能力变强.Borochin等[49]发现季度业绩说明会语调和期权市场蕴含的不确定性负相关.Doran等[50]研究了REITs的季度业绩说明会，发现业绩说明会语调能很好地解释季度盈余公告当日和随后的超额收益率.Doran等[50]分析了盈余公告相关的业绩说明会，发现公司高管个人(而非集体)的乐观能解释业绩说明会乐观语调(在控制了公司商业因素之后).

Tetlock[51]发现新闻媒体的悲观引发股价下跌，但随后翻转，同时过高或过低的悲观导致交易量增大.这表明新闻媒体并未体现基本面信息而是伴随着流动性交易和噪音交易.Tetlock等[52]发现公司新闻中负面词汇出现频率较高能预测未来盈余较低，虽然股价短期对此反应不足，但是很快就将文本包含的基本面信息反应出来.

1.3 公司高管策略性信息披露行为

Bozanic等[53]发现季度盈余披露中关于盈余的量化陈述和其他陈述都引起投资者和分析师反应，但高不确定性使高管增加其他陈述.Arslan-Ayaydin等[54]发现更多的股权激励会让高管在盈余披露新闻稿中语调变得更积极.程新生等[55]证明进行盈余重述的公司会在MD&A中披露更多的非财务信息.

也有文献研究了文本信息和诉讼风险之间的关系.Levy等[56]发现非董事首席财务官(CFO)在业绩说明会中的语调比董事CFO更悲观，会更早且更保守披露坏消息.这种现象的原因是CFO想规避自己(而不是公司)被诉讼的风险.Rogers等[57]发现乐观的陈述容易引起股东被控告，并且被告公司的盈余公告更乐观.

Hanley和Hoberg[58]研究美国1933年证券法第11款规定的诉讼风险和IPO折价以及自愿信息披露之间的关系(5)美国1933年证券法第11款规定，由于IPO招股说明书材料披露不足导致股价低于发行价产生损失的情况下,投资者可以起诉承销商和发行者.因此，发行者和承销商只要能避免股价低于发行价或者全面披露中的一条即可规避这种诉讼风险..在IPO之前的询价和路演过程中，出现好消息时，信息披露成本高(可能为竞争对手提供信息)，上市公司倾向于用折价来规避诉讼风险；出现坏消息时，信息披露成本低，不披露风险高，公司通过全面披露规避诉讼风险.该文通过文本分析技术揭示，除折价之外，策略性信息披露是上市公司规避诉讼风险的另一个策略，并且IPO信息披露策略和正常时期相反.

1.4 文本分析和财务欺诈

财务欺诈指公司未如实披露法定信息而欺骗股东的行为，是监管者、投资者和审计师都重视的问题.而Amani和Fadlalla[59]指出，财务欺诈是最受益于数据挖掘等大数据技术的财会领域.Loughran和McDonald[36]用财务诉讼词汇占比、负面词汇占比和不确定性词汇占比预测财务报告欺诈.而Purda和Skillicorn[60]则用决策树模型找出最能区分欺诈和真实报告的有序单词列表，基于上述列表中的前200个单词，采用支持向量机(SVM)技术，对每一篇财务报告文档标注真实概率，从而预测财务报告的欺诈可能性.

Gray和Debreceny[61]对数据挖掘(包括文本挖掘)在财务欺诈方面的研究进行了综述，并且对欺诈类型提出了一个分类方法.Glancy和Yadav[62]发展了一种财务报告欺诈探测计算模型.Dilla和Raschke[63]从理论上分析了文本等数据可视化在欺诈交易中的应用.West和Bhattacharya[64]对商业智能为基础的财务欺诈探测技术的探测算法、欺诈类型和效果等方面进行了综述，其中包括文本挖掘技术.Lin等[65]比较了不同技术在探测财务欺诈方面的效果，发现人工神经网络、决策树这两种方法优于Logistics回归.Cecchini等[66]则发现结合文本分析和财务数字预测欺诈能力比其中任何单一技术效果都好.

还有文献分析了欺诈信息披露的特征.Goel等[67]发现欺诈年报比非欺诈年报使用更多被动语态句子、不确定性词汇和词典.Humpherys等[68]发现欺诈性披露比非欺诈披露使用更多煽动性语言和词汇，貌似可信实则没有实质性内容.Hoberg和Lewis[28]发现欺诈公司年报的MD&A过少解释公司绩效来源、过多披露美化公司绩效的信息.

1.5 文本信息和市场异象

许多金融市场异象和信息有关.由于文本信息比传统金融和会计数据更不明确，因此更难被投资者处理.如果市场异象来自信息处理，那么研究者应该考虑用文本信息解释市场异象.

You和Zhang[19]发现年报单词个数过多导致市场反应不足，探讨市场对文本信息反应不足是否PEAD这一异象的成因. Feldman等[37]则分析了年报和季报MD&A中的语调，发现语调变化能预测随后季度的意外盈余和价格漂移. Lee[69]分析了季报可读性是否影响了股价的有效性，发现季报越长(可读性越差)，季报公告后三天股价反应的盈余相关信息越少，同时发现季报可读性差伴随着信息不对称.

对应计异象(accrual anomaly)这个问题，Li[24]发现，如果应计项为正(负)而公司高管在MD&A中对于应计项的语调却是负(正)，那么应计异象消失，就是说应计项和未来收益率不再相关.

文本分析也被用于IPO定价研究.Hanley和Hoberg[70]利用文本分析技术，将IPO招股说明书能被刚刚发生的IPO或者同行业IPO解释的信息作为标准分量，不能被解释的部分作为信息分量.该文发现信息分量(标准分量)越大，定价准确度越高(低)，折价越低(高).其原因在于信息分量减少了投资者在询价中生产信息的成本.Arnold等[71]研究IPO招股说明书(6)美国IPO招股说明书包括：概要、风险因素、募资用途和MD&A.中的风险因素部分，将风险因素中的词数相对于总词数(或者特定内容词数)之比作为不确定性，发现不确定性和IPO首日收益率正相关.Loughran和McDonald[72]研究美国IPO过程中的S-1表格，发现这个文件中不确定性词汇占比越高，首日收益率越高、发行价修正绝对值越大，随后波动率越大.Bajo和Raimondo[73]发现公司在IPO之前的新闻报道正面语调伴随IPO折价，且这种效应随着临近IPO日期更加明显.

2 文本分析产生新指标和新变量

文本分析将研究对象从结构化数据拓展到非结构化文本数据，因此可以对原有变量构建新的度量指标，或者直接构造新的变量.

2.1 财务约束的度量

Bodnaruk等[74]用上市公司年报中和“约束”相关的词汇频率作为财务约束的度量，发现这个基于文本分析的财务约束指标能预测股利缺失或增加、股权回收(equity recycling)和养老金不足等流动性事件，优于传统的财务约束指标.借助于年报中的负面词汇度量财务约束，发现财务约束导致公司追求更为激进的税务策略，包括更高的未确认税收抵扣、更低的有效税率、税收天堂利用的增加和更高的审计调整.Hoberg和Maksimovic[75]也用文本分析构建财务约束指标，Buehlmaier和Whited[76]用机器学习构造财务约束指标.

2.2 创新的度量

Bellstam等[78]收集分析师关于上市公司的研究报告，利用LDA技术将所有上市公司研究报告的词汇分为15个主题，从中选出和主流创新教科书词频最接近的一个主题作为创新主题，然后通过个股研究报告中含有的创新主题词汇的强度来度量公司创新.

2.3 竞争力指标

Li等[79]通过文本分析技术构造了一个新的公司层面的竞争指标.之前的竞争性指标大多采用Herfendahl index和四企业集中度(four-firm concentration ratio)，是行业层面的竞争性指标.然而，同一行业内的公司之间的竞争性必然存在差异，而行业竞争性指标显然不能度量公司层面竞争力.该文通过公司年报中提到竞争对手的频率来度量公司的竞争力.

2.4 知识的度量

Li等[80]分析上市公司业绩说明会的文本记录，通过发言内容来揭示高管发言人熟悉公司的哪些情况(知识)，并且发现知识能够影响高管薪酬.

2.5 经济政策不确定性(EPU)

Baker等[81]将主流报纸包含经济、政策和不确定性词根的文章数对文章总数的占比作为经济政策不确定性指标，发现EPU提高股市波动率，抑制投资.陈国进等[82]和雷立坤等[83]采用EPU研究中国市场.

2.6 产品相似性

Hoberg和Phillips[84]基于上市公司年报产品描述部分的词汇，构建了不同公司之间的产品相似性(差异性)指标，发现产品相似性促成并购，并且能够提升并购后的公司产品独特性(新产品).基于文本分析的相似性可以跨行业比较两个公司的产品相似程度，而行业代码却不能实现这一点.

3 机遇和挑战

3.1 文本分析的优势和缺点

文本分析的优势在于，第一，提供了文本形式的非结构化数据，丰富了数据类型，从而拓展了研究对象和研究范围；第二，文本大数据拓展了原来的研究边界，例如引入语言学开展可读性研究；第三，提供新的工具、变量和指标；第四，提供新的研究视角，例如用文本信息研究IPO定价.

同时，文本分析也有明显的缺点：第一，文本信息本身并不明确，必须经过研究者加工处理才能用于计量分析，而这会引入噪音甚至错误，同时数据处理的可重复性存疑；第二，文本数据大多数缺乏权威来源，数据来源存疑；第三，文本数据量很大，现有的计量分析方法并不一定适用；第四、应用文本大数据分析技术研究会计和金融问题，对研究者的综合能力尤其是编程和数量分析能力提出了挑战.最后，文本既可能含有传统财务数字没有的信息，也可能是管理层操纵文本的表现，这是应用文本分析研究会计和金融学问题的一大挑战.

3.2 研究方向展望

第一，既要重视数据，也要重视算法.未来文本数据量进一步加大，这就要求研究者必须加强两个方面的技能：1)人工智能算法及其实现，尤其是机器学习和深度学习；2)基于大数据的计量分析方法.

第二，中文文本分析的研究空间很大.现有研究大部分针对英文文本，一个自然的借鉴是将英文研究方法用于中文文档.但是，英文和中文是两种不同的语言：英文天生用空格分隔词汇，而中文则没有词汇分隔符.这就导致中文分词比英文分词难得多.幸运的是，Python中已经有结巴这一模块，可以进行中文分词、词性标注等.虽然如此，中文分词仍然不如英文分词准确，因为中文分词基于自然语言处理技术，本质上并不精确.同时，大部分中文财务文档是PDF格式，不能直接用计算机处理.虽然如此，应用中文文本分析的金融和会计研究仍然大有前途.原因有二：1)相对于丰富的英文文本分析的研究成果，中文相关研究成果明显不足；2)也许更重要的是，这对于形成有中国特色的会计和金融研究体系极具价值.

第三，结合中国特有的信息披露规则，利用文本分析挖掘具有中国特色的会计和金融问题.虽然国际会计准则已经存在，但不同国家的信息披露规则并不相同.从不同的法规环境出发，可能找到中国特色的研究问题，甚至能够研究其他国家地区不能研究的议题，例如马长峰等[30]对年报摘要文本的分析.

第四，内生性问题.近年来，寻找天然实验是一种解决内生性问题的好方法.而中国作为发展中国家，法律法规经常变动，因此在这些变动中发掘天然实验，有利于解决经验分析中的识别问题.例如，公司信息透明性是否降低资本成本？另外，现场实验、工具变量、断点回归等方法也需要关注.

第五，词典的构建.现有文献表明，在商科研究中直接采用语言学通用词典并不合适，因此需要商科研究中的专用词典.不论对于公司年报可读性还是情绪分析都是如此.同时，中文不同于英文，因此有必要构建中文专用词典.

第六，分析师受到可读性影响的原因探讨.作为专业信息解读者，分析师被指出未能发挥专业信息解读能力.这种现象的原因可从行为偏差、制度安排和激励机制等方面分析.

第七，文本分析是语言经济学的重要工具.近年来语言经济学指出语言特征影响人的经济行为(7)程博和潘飞[85]分析了语言多样性对分析师盈余预测质量的影响.，而文字包含了语言特征，因此通过文本分析技术挖掘语言特征是发展语言经济学研究的重要手段.