DICTION文本分析工具及其在情感分析中的应用
2018-04-02王立非
王立非 部 寒
(对外经济贸易大学 英语学院,北京 100029)
0 引言
内容分析作为一种定性分析方法,在不同领域得到了广泛应用。文本内容分析不仅可用于识别交流者之间的个体差异(Weber, 1990),而且可以避免回忆偏倚(Barr et al., 1992),具有较高的信度和复现性(Finkelstein et al., 1996)。当前,计算机辅助的内容分析方法越来越多,大多数程序都是基于词频统计。DICTION就是一个建立在语言学理论基础之上的计算机辅助内容分析程序。该程序具有很多引人注目的特性,比如近乎完美的信度、速度和成本效益(Morris, 1994; Rosenberg et al., 1990),可应用于不同领域的研究。本文将对该程序及其操作步骤进行详细介绍,回顾该程序近年来在不同领域文本分析中的应用情况,并呈现完整的研究案例,以期为国内各领域文本分析提供借鉴。
1 DICTION与文本情感分析研究综述
计算语言学的发展为内容分析提供了广阔空间。情感分析作为内容分析的一种,在众多领域得到了广泛应用。政治演讲、新闻报道、微博及众多其他形式的口语、书面语和多模态话语都存在情感表达(Kearney et al., 2014)。借助计算机方法对这些文本情感进行分析,大多依赖情感词表,通过测量情感词表中单词在样本文本中的频数,来测量样本文本的情感特征。DICTION作为计算机辅助的文本分析软件,为情感分析提供了便利(Hart, 2000)。最初开发DICTION的目的是为了分析政治演讲和修辞(Hart et al., 1997),后来行为学研究者发现它可以应用于领导力研究(Bligh et al.,2004a, 2004b),会计学研究者又将其应用于印象管理研究(Rogers, 2005)和交际行为研究(Yuthas,2002)。如今,DICTION在政治学、传播学、语言学、金融与会计研究等不同领域得到了广泛应用,具体来说,主要应用于量化分析企业话语、媒体话语、网络话语和政治话语的情感特征。
在金融与会计领域,近年来,文本分析成为研究热点。很多学者借助DICTION软件,测量商务文本的情感特征,以考察文本特征与各类经济表现之间的关系。部分研究利用情感词表和DICTION软件,发现美国企业信息披露话语情感与市场反应相关(Henry, 2008; Davis et al., 2012; Wisniewski et al., 2015; Arslan-Ayaydin et al., 2016),研究方法往往是内容分析与事件分析相结合。例如,Jancenelle et al.(2016)通过DICTION软件测量管理层话语的确定性和客观性,并通过事件分析法测量投资者反应,发现管理层话语的乐观性和确定性能削弱投资者对收益异常的反应强度。部分研究关注企业信息披露话语情感与企业财务绩效的关系,发现两者显著相关(Mayew et al., 2012; Cho et al., 2010)。部分研究关注企业社会责任话语,考察社会责任话语情感与社会责任表现之间的关系(Arena et al., 2015; Bravo et al., 2012)。还有部分研究借助DICTION考察企业管理层话语中的印象管理行为(Parhankangas et al., 2014; Patelli et al., 2014)。此外,Davis et al.(2012)利用DICTION对比了企业收益报告和年报管理层讨论与分析(MD&A)中的积极与消极话语,发现前者比后者更积极。Engelen et al. (2016)采用文本分析法,通过DICTION测量企业的创业导向与CEO自恋之间的关系,发现CEO自恋会抑制创业导向,不利于创业公司的发展。Tama-Sweet (2014)利用DICTION考察了收益公告的积极语气与内部交易之间的关系。
政治学领域多将DICTION应用于领导人话语的研究。例如,Oliver et al.(2016)借助DICTION,自建“政治民粹主义”“经济民粹主义”和“责备”词表,考察2016年美国大选初选各候选人的话语,发现用民粹主义来描绘美国2016年大选再合适不过,而特朗普是最突出的民粹主义者。Davis et al. (2012)通过DICTION考察布什演讲中的魅力修辞与危机的关系,发现危机是魅力型领导出现的重要条件。Krebs(2015)利用DICTION考察富兰克林·罗斯福总统演讲的话语特征,探讨了领导人话语与国家安全之间的关系。在传播学领域,DICTION多用于测量新闻媒体话语和社交网络话语的情感特征,以考察其对受众的影响(McKay-Semmler et al., 2014; Cho et al., 2003; Hall et al., 2013)。在语言学领域,Huffaker et al.(2005)考察了青少年博客中语言的使用及其与性别、身份之间的关系,其中借助DICTION分析了青少年博客话语的情感和语义特征。Pollach(2012)探究了如何将语料库语言学与计算机辅助的文本分析相结合。
2 DICTION软件介绍
DICTION软件是一个计算机辅助文本分析程序,主要用于基于词典的文本情感分析。该软件自带31个分类词表(表1),词表中不包含短语,只有单词,容量从10个到745个单词不等。针对大小不同的各个词表,DICTION的文本分析报告中会输出标准化后的数值。所有单词不会重复出现在不同词表中。且自带词表不可以被更改或输出。该软件最新版本——DICTION7.0可以识别多种类型的文本:Text Files (*.txt)、MS Word (*.doc)、MS Word 2007 (*.docx)、OpenOffice Writer (*.odt)、Adobe Files (*.pdf)、Rich Text Files (*.rtf), HTM (*.htm)、HTML files (*.html)、XML Files (*.xml)、DICTION 5 Files (*.ini, *dfxml),为大批量语料研究提供了方便。还可以导入自编词典,例如Henry (2006, 2008)设计了自己的词典,然后导入DICITION软件,测量研究文本特征。而Demers et al. (2010) 和 Davis et al. (2012) 使用DICTION自带词表,评估了美国企业季度收益公告的情感。但是该软件暂时无法识别中文词典与文本。
DICTION软件通过统计输入文本所含31个词表中单词的频数,对所得数值进行标准化,得到与词表对应的31个词汇特征值。此外,该软件还会通过计算,得到四个其他文本特征值:一致性、修饰性、多样性和复杂性。
一致性的提出基于“关键词的重复出现表明对秩序和限制的偏好”这一假设。计算公式为:
INSISTENCE = [Number of Eligible Words * Sum of their Occurrences]/10
输入文本中每500词出现三次及以上的名词或名词派生的形容词将被计算,若输入文本很小,则出现两次及以上的名词或名词派生的形容词将被计算。
修饰性是根据Boder (1940)的方法,选择性地对形容词与动词比例进行测量,计算公式为:
EMBELLISHMENT = [Praise + Blame +1]/[Present Concern + PastConcern +1]
多样性是对描述性词与功能词的比例的测量,即类形符比(Wendell, 1946)。计算公式为:
VARIETY = Type / Token
复杂性是对词长的测量,根据Rudolph Flesch (1951)的方法,测量输入文本的平均词长,即平均每个单词的字母数。
表1 DICTION分类词表
通过综合计算上述35个特征值,可测量输入文本的五个语气指标:确定性、乐观性、主动性、现实性和共同性。
确定性指文本语言反映坚定不移、完美无缺的信念和表达权威的倾向。测量公式为:
Certainty = [Tenacity + Leveling + Collectiveness + Insistence]/[Numerical Terms + Ambivalence + Self Reference + Variety]
乐观性指文本语言支持一些个人、组织、概念或事件,或强调其积极方面。测量公式为:
Optimism = [Praise + Satisfaction + Inspiration]/ [Blame + Hardship + Denial]
主动性指文本语言表现运动、变化和思想活动,回避一成不变。
Activity = [Aggression + Accomplishment + Communication + Motion]/ [Cognitive Terms + Passivity +Embellishment]
现实性指文本语言描述影响人们日常生活的、有形的、即时的和可辨识的事物。测量公式为:
Realism = [Familiarity + Spatial Awareness + Temporal Awareness + Present Concern + Human Interest + Concreteness]/ [Past Concern + Complexity]
共同性指文本语言强调团队协调一致,拒绝特异模式介入。测量公式为:
以上计算所得数值都会加上常数50,以消除负数。
除了语气情感特征的识别与测量,该软件还可以进行作者识别,用于研究多作者的文本。
DICTION7.0自带参照语料库,用户分析文本时,可与参照语料库的情感值进行对比,以考察研究文本的情感特征。该语料库由22,027篇文本组成,分为六类:商务、日常、娱乐、新闻出版、文学、政治和学术。用户可以选定研究文本所在类别,然后将分析数据与所在类别参照语料库的特征值进行对比,发掘研究文本的特殊之处。六大类语料又分成财务报告、法律文件、政治报道、竞选演讲、小说等36小类。
3 DICTION操作步骤
3.1文本分析
首先,点击New Project 按钮,按照提示创建新项目,导入研究文本。导入成功后, Project Explorer对话框中出现项目名称及下属的三个文件夹——Project Dictionaries、Input和Output。若需使用自定义词典,右击Project Dictionaries文件夹,导入自定义词典,若使用DICTION自带词典,可省略这一步。单击菜单栏中的Edit可以查看DICTION自带词典,不可修改或导出自带词典。词典导入成功后,开始分析文本。右击Input文件夹(或其中的单个文本),单击Standard Analysis或Power Analysis,对输入文本进行分析(图1)。
图1 文本分析
当输入文件少于1000个时,默认使用Standard Analysis,分析结果将呈现在Project Report Viewer对话框中(图2),若要查看单个文件的分析结果,可双击该文件信息所在行,进入File Report Viewer对话框,查看分析结果,结果中可以看到该文本的语气指标与DICTION的标准语料库的基准指标有何差异(图3)。单击Viewer对话框右上角图标可以将结果输出、保存到.xls和.cvs文件中。查看以往项目结果,可打开Project Explorer对话框中的Output文件夹,点击需查看的Output文件,输出结果将显示在Project Viewer对话框中。当文件数超过1000个时,默认使用更加快捷有效的Power Analysis,分析结果会自动输出到.cvs文件中。若想关闭默认分析方式,可在Global Setting或Project Setting中进行选择。
图2 分析结果呈现
文本分析结果包含了上章提到的35个特征值,以及由这些特征值计算得到的5个语气值。除此之外,结果中还包含如下指标:(1)dentifier(id1-8)(有设置Identifier时会显示该结果);(2)Segment number(在设置时勾选Segment结果会显示段号);(3)总词数;(4)总字母数;(5)平均词长;(6)特殊词;(7)自定义词典数据;(8)Stakeholders (设置内部作者分析时会显示该结果)。
The Seebeck coefficient of the compound Cu1.8S exhibits a maximum at the γ–β transition temperature, indicating a dramatic change in the presence thermopower. This is due to the fast increase in the disorder in the atoms-holes ensemble.
图3 情感指标计算结果
若要查看或编辑某一文本的内容,可双击Input文件夹下的该文本,在Text Viewer对话框进行阅读和编辑。
若对已有项目进行分析,开始时可点击工具栏中的Open Project按钮直接打开已有项目,或点击菜单栏中的Edit,选择Import Project。此外,选择Export Project还可以将项目移除。
图4 文本阅读与编辑
3.2设置
对所有项目进行设置,可以点击工具栏中的“Global Settings”按钮;对单个项目进行设置,可右击该项目,然后选择“Project Settings”。两类设置都包含了“Processing Options”“Identifiers”“User Dictionaries”和“Internal Author Analysis”四种选项。
图5 设置选项
“Processing Options”选项可以设置文本特征测量与报告的标准。对于短小的文本,可以选择报告原始数据或推断数据(标准化为500词的分析数据)。对于大规模文本,可选择仅分析报告前500词的数据,或取每500词分析结果的均值,或将原始文本以500词为单位切分后报告每一单位的分析结果,或计算整个文本的值然后标准化为每500词的值,或直接输出未标准化的原始数据。此外,还可以选择输出哪些描述数据、选择参照语料库、选择是否进行内部作者分析等。
图6 作者设置
图7 按作者区分文本
在“Identifiers”选项中,可以输入识别码来检索并测量赋码语料中的赋码信息。“User Dictionaries”选项中,可以导入、创建、编辑或删除自己的词典。“Internal Author Analysis”选项可以帮助用户选择不同颜色来标注、区分不同作者的文本,并分别测量它们的特征。首先,在“Internal Author Analysis”选项中设置作者的姓名和颜色(图6),然后回到Text Viewer对话框,人工选择作者的相应文本,并标色(图7)。完成标注后,再进行分析,Project Viewer对话框中会同时出现整个文本的数据以及不同作者文本的数据。
4 DICTION应用案例
本文将运用DICTION软件分析中美50强上市公司2005—2015年年报语篇的语气特点,并进行对比分析,以期为该工具应用于实证研究提供借鉴。
4.1研究问题与方法
本案例着重回答以下问题:
中美50强上市公司英文年报文本的情感各有何特点?是否存在差异?
本研究所选语料为2016年福布斯排行榜上中美50强上市公司的2005—2015年英文年报,涉及的企业类型包括金融、石油、IT、公用事业等,共收集中国企业年报405份,总词符为32,788,389。美国企业年报412份,总词符为31,704,530。共计817份,总词符64,492,919。将语料导入DICTION7.0,进入Global Setting 界面进行设置。设置文本特征测量与报告的标准为每500词分析结果的均值,并在Miscellaneous部分选择“Business: Corporate Financial Report”为参照语料库。设置好后对语料进行“Power Analysis”,得到中美企业年报二类语料的情感特征值:确定性、乐观性、主动性、现实性和共同性。然后通过独立样本T检验,对比考察中美企业年报话语情感的异同。
4.2结果与讨论
独立样本t检验显示,中美企业英文年报的主动性存在显著差异(t=9.339, df=807.496, p<0.05),中国企业年报话语主动性远高于美国企业年报(均值差=0.89)(见表1)。
表1 中美企业年报话语主动性测量与对比
独立样本t检验显示,中美企业英文年报的乐观性存在显著差异(t=-4.949, df=815, p<0.05),中国企业年报话语乐观性远低于美国企业年报(均值差=-0.50)(见表2)。
独立样本t检验显示,中美企业英文年报的确定性存在显著差异(t=8.978, df=815, p<0.05),中国企业年报话语确定性远高于美国企业年报(均值差=1.55)(见表3)。
表3 中美企业年报话语确定性测量与对比
独立样本t检验显示,中美企业英文年报的真实性存在显著差异(t=5.874, df=815, p<0.05),中国企业年报话语真实性远高于美国企业年报(均值差=1.15)(见表4)。
表4 中美企业年报话语真实性测量与对比
独立样本t检验显示,中美企业英文年报的共同性存在显著差异(t=2.116, df=815, p<0.05),中国企业年报话语共同性远高于美国企业年报(均值差=2.73)(见表5)。
表5 中美企业年报话语共同性测量与对比
综上所述,与美国50强企业相比,我国50强企业英文年报话语的主动性、确定性、真实性和共同性均显著高于美国企业英文年报,而乐观性显著低于美国企业英文年报。中美企业英文年报话语情感存在显著差异。
5 结语
DICTION文本分析软件界面友好,操作简单,且具有较高的速度和信度,可以大大减少人工标注,降低研究成本,为内容分析提供了很大便利。但在使用过程中发现,该软件仍存在以下弊端:(1)自带词表是普通英语词表,不是专用英语词表,而且其自带的乐观与悲观词表饱受诟病(Davis et al., 2012; Loughran et al., 2015);(2)无法识别中文词典和文本;(3)忽视语境信息。尽管存在这些弊端,该软件还是在不同领域得到了广泛应用。国内鲜有借助该软件进行内容分析的研究。本文有望对国内各社会科学领域的内容研究提供方法启示。
参考文献:
Arena, C. et al. 2015. Environmental Reporting: Transparency to Stakeholders or Stakeholder Manipulation? An Analysis of Disclosure Tone and the Role of the Board of Directors[J].CorporateSocialResponsibilityandEnvironmentalManagement,22(6):346-361.
Barr, P. S. et al. 1992. Cognitive Change, Strategic Action, and Organizational Renewal[J].StrategicManagementJournal,(13):15-36.
Bligh, M. C. et al. 2004a. Charisma Under Crisis: Presidential Leadership, Rhetoric, and Media Responses before and after the September 11th Terrorist Attacks[J].LeadershipQuarterly, (15):211-239.
Bligh, M. C. et al. 2004b. Charting the Language of Leadership: A Methodological Investigation of President Bush and the Crisis of 9/11[J].JournalofAppliedPsychology, (89):562-574.
Bravo, R. et al. 2012. Corporate Social Responsibility as a Vehicle to Reveal the Corporate Identity: A Study Focused on the Websites of Spanish Financial Entities[J].JournalofBusinessEthics,107(2):129-146.
Cho, C. et al. 2010. The Language of US Corporate Environmental Disclosure [J].AccountingOrganizations&Society, 35(4):431-443.
Cho, J. et al. 2003. Media, Terrorism, and Emotionality: Emotional Differences in Media Content and Public Reactions to the September 11th Terrorist Attacks [J].JournalofBroadcasting&ElectronicMedi,a, 47(3):309-327.
Boder, D. P. 1927. The Adjective-Verb Quotient: A Contribution to the Psychology of Language [J].PsychologicalRecord, 3(22):310-343.
Davis, A. K. & I. Tama-Sweet.2012. Managers’ Use of Language Across Alternative Disclosure Outlets: Earnings Press Releases Versus MD & A[J].ContemporaryAccountingResearch, 29(3):804-837.
Davis, K. M. & W. L. Gardner.2012. Charisma Under Crisis Revisited: Presidential Leadership, Perceived Leader Effectiveness, and Contextual Influences [J].LeadershipQuarterly, 23(5):918-933.
Davis, A. K. et al. 2012. Beyond the Numbers: Measuring the Information Content of Earnings Press Release Language [J].ContemporaryAccountingResearch, 29(3), 845-868.
Engelen, A. & S. Schmidt. 2016. Should entrepreneurially oriented firms have narcissistic CEOs? [J].JournalofManagement, 42(3): 698-721.
Finkelstein, S. & D. C. Hambrick. 1996. Strategic Leadership: Top Executives and Their Effects on Organizations [M]. New York: West.
Hall, J. A. P. & N. ennington. 2013. Self-monitoring, Honesty, and Cue Use on Facebook: The Relationship with User Extraversion and Conscientiousness [J].ComputersinHumanBehavior,29(4):1556-1564.
Hart, R. P. 2000. DICTION 5.0: The Text-analysis Program [M]. Thousand Oaks, CA: Sage.
Hart, R. P. & S. E. Jarvis. 1997. Political Debate: Forms, Styles and Media [J].AmericanBehavioralSciences(40):185-122.
Henry, E. 2006. Market Reaction to Verbal Components of Earnings Press Releases: Event Study Using a Predictive Algorithm [J].JournalofEmergingTechnologiesinAccounting, 3(1), 1-19.
Henry, E. 2008. Are Investors Influenced by How Earnings Press Releases are Written? [J].TheJournalofBusinessCommunication, 45(4): 363-407.
Huffaker, D. A. & S. L. Calvert. 2005. Gender, Identity, and Language Use in Teenage Blogs[J].JournalofComputer-MediatedCommunication, 10(2):00-00.
Jancenelle, V. E. et al. 2016. Firm-Specific Risk, Managerial Certainty and Optimism [J].JournalofStrategyandManagement, 9(3): 383-402.
Kearney, C. & S. Liu. 2014. Textual Sentiment in Finance: A Survey of Methods and Models [J].InternationalReviewofFinancialAnalysis, 33(3):171-185.
Krebs, R. R. 2015. Tell Me a Story: FDR, Narrative, and the Making of the Second World War[J].SecurityStudies, 24(1):131-170.
Loughran, T. & B. McDonald. 2015. The Use of Word Lists in Textual Analysis[J].JournalofBehavioralFinance, 16(1): 1-11.
Mayew, W. J. Venkatachalam M. 2012. The Power of Voice: Managerial Affective States and Future Firm Performance [J].TheJournalofFinance, 67(1):1-44.
Morris, R. 1994. Computerized Content Analysis in Management Research: A Demonstration of Advantages & Limitations.JournalofManagement, 20: 903-931.
Oliver, J. E. & W. M. Rahn. 2016. Rise of the Trumpenvolk: Populism in the 2016 Election[J].AnnalsoftheAmericanAcademyofPolitical&SocialScience, 667(1):189-206.
Pollach, I. 2012. Taming Textual Data: The Contribution of Corpus Linguistics to Computer-Aided Text Analysis [J].OrganizationalResearchMethods, 15(2): 263-287.
Robert, E. et al.2011. Verbal Style, Gubernatorial Strategies, and Legislative Success [J].PoliticalPsychology, 32(4):623-642.
Weber, R. P. 1990.BasicContentAnalysis[M]. Sage Publications.
Wendel, J. 1951.PeopleinQuandaries:TheSemanticsofPersonalAdjustment[M]. New York: Harper.