文本感知<br/>——金融研究新动态

文本感知
——金融研究新动态

2011-03-31兰秋军马超群

长沙理工大学学报（社会科学版） 2011年3期

兰秋军，马超群

(湖南大学工商管理学院，湖南长沙 410082)

现代金融研究也许是经济学研究各个分支中最具有实证性的，在该领域，基于不确定性理论的金融计量经济方法被普遍采用，通过采集各种相关金融数据，依赖统计推断，对复杂抽象的金融理论进行总结、阐释或验证。在此过程中，“数据”是研究的关键和基础。为此，各种支持金融研究的数据库相继被各大公司开发并推出，成为金融研究、教学以及实际投资分析与决策的重要“数据平台”。这些数据大致可分为两类：数值型(如金融资产的价格、交易量、收益率、资本规模等)和文本型(如名称、简介、公告、报告等)。长期以来，实质性用于金融研究的绝大部分数据是数值型的。文本型数据大多数只是提供标签、描述和注释等信息供研究者阅读参考以及定性研究，极少参与实际模型的计算与推断，最多也只是作为类别变量参与分类统计或作为哑元变量进入模型，并不涉及文本内容的理解和应用。近年，随着电子文本的大量涌现，计算语言学、自然语言理解和文本挖掘技术相应迅速发展，这种状况正在改变。越来越多的金融界学者开始尝试利用这些近期发展起来的文本理解与挖掘技术来深层次地获取信息，揭示金融市场中的规律，并支持金融理论与实证研究工作的开展。本文拟就这一领域的最新进展及趋势做一概要性的介绍。

一、文本数据的优点

数值型数据具有意义简单明确、结构化存储、规范通用等优点。几乎所有的金融计量模型都是针对数值型数据的。文本数据则直接对应人类的自然语言，其本身存在字词边界模糊、字词歧义、句法复杂、修辞以及输入瑕疵等多种问题，且都以高度非结构化或半结构化形式存在，计算机不能直接理解其真实含义，也无法应用于推理演算。因而在传统的金融研究中，这些信息只能作为定性分析研究的依据。而事实上，文本数据存在一些数值型数据无法比拟的优势：

1.文本数据的来源更广泛，容易获得。文本数据是人们日常沟通交流的主要信息载体和产物。书籍、报纸、杂志、报告、网络新闻等等都主要以文本形式存在。无论金融还是非金融领域，文本型数据相比于数值型数据，在数据量上要大得多。

2.信息完整，失真较少。数值型数据的生成往往需要经过人们的分析、加工、整理才能完成。例如，全国GDP数据，它需要通过对各个月度、各个地区以及各种经济指标数据的累积、加权、归并与计算统计等复杂的过程才能产生，任何一个环节都可能造成信息的失真。而文本数据多数以本来面貌存在，信息更完整。

3.内涵丰富，表达充分。虽然数值型数据可简明扼要地凸显一些问题的本质和特征，然而文本数据通过语言描述，可充分表达数值无法表现的信息内容，其内涵更为丰富。例如，财务报表中的某些数值数据，往往需要文本形式的描述对其产生背景、计算方法、应用领域等的说明。

4.蕴含情感，具有特殊价值。数值型数据本身几乎不含任何情感信息，然而文本数据则可通过其用词、语法、语气、修辞等来表达作者的态度、观点等情感信息。这些信息隐藏于文字中甚至可能连作者本人亦未必意识和察觉到，因而具有某些特殊价值。

二、文本感知与挖掘技术

文本情感特性是语言主观性的一种体现，即话语中含有说话人“自我”的表现成分——说话时表明了自己对这段话的立场、态度、评价和感情，从而在话语中留下自我印记。近年来，网络信息资源中所蕴含的丰富的文本情感知识引发政府、企业以及消费者等多主体的重视，成为体察社会舆情、探测用户需求心理的重要依据。面对海量的文本信息资源，如何克服人工理解方式的低效性，准确、快速、自动获取其中的情感知识以满足多应用需求，针对这一问题的研究形成一个新颖的领域——文本感知挖掘分析。它应用自然语言处理、计算语言学和文本分析技术等来识别和抽取文本源中的主题信息，确定作者对某个主题的总体上的态度、评价和感觉。

文本感知挖掘分析的研究大致可以分成词语、句子、篇章、文档集四个层次。词语分析包括对词语极性、强度和上下文模式的分析。例如Turney(2002)根据词语在语料库中的同现情况反映词语间联系的紧密程度，将词语A和B的PMI(Pointwise Mutual Information，点态互信息量)定义为它们在语料库中的共现概率与A、B概率之积的比值，其值越高，就意味着相关性越大。任意其它词语的语义倾向SO定义为与各褒义种子词PMI之和，减去与各贬义种子词PMI之和。SO的正负号就可以表示词语的极性，而绝对值就代表了强度。句子级分析的处理对象是在特定上下文中出现的语句。其任务就是对句子中的各种主观性信息进行分析和提取。篇章级分析，就是要从整体上判断某个文档的情感倾向性，即褒贬态度。而文档集分析的主要任务是：对从不同信息源抽取出的、针对某个话题的文档集合进行集成和分析，进而挖掘出态度的特点和走势。

文本感知挖掘分析的技术实现主要建立在文本分类基础上。主要就是通过分析文本的感情色彩，从褒贬倾向角度对文本进行分类。如对描述的内容持肯定语气，带有明显的称赞、颂扬、赞赏等意味，则视作正面褒扬类；对事件的描述持客观公正的态度，无明显的个人感情色彩则为中立类；而带有明显的否定语气，含有质疑、鄙视、批评、痛斥等色彩则属负面批评类。其技术实现思想是：当给定一个主题后，先由用户标注一些文章的倾向性，将这些文档作为学习样本，然后通过词汇的情感度量和文档的特征抽取，获取整个文档的特征表达，再使用不同的机器学习方法，如KNN 和SVM 方法，构造分类器。其中词汇情感度量值可通过事先给定一组褒贬基准词，再利用提供的语义相似度和语义相关度计算测试词与这组基准词的语义关系紧密程度而获得。

随着文本感知与挖掘分析技术的迅速发展，一系列的应用相继出现。例如，上海交通大学开发了一个用于汉语汽车论坛的意见挖掘系统。其目的是在电子公告板、门户网站的各大论坛上挖掘并且概括顾客们对各种汽车品牌的不同性能指标的评论和意见，并且判断这些意见的褒贬性以及强度(姚天昉,2006)。香港城市大学语言资讯科学中心T’sou(2005)在LIVAC共时语料库上，进行名人信誉分析研究。他们选择泛华语地区有代表性的中文媒体，对相应的新闻报道进行深层次的人工标注，并在该语料库上开展中文文章正负两极性自动分类研究，通过人物褒贬指数的计算，发布京港台双周名人榜，反映其在三地报章的信誉度。而Kim 等人(2007)通过对美国大选时涌现出来的大量评论文章进行分类汇总,以此推断大部分选民是支持“共和党”还是“民主党”。此外，一些专业应用的软件系统也相继问世，例如Attensity是一个针对客户体验管理(CEM)的软件系统，它通过从来自社会媒体(如Facebook,Twitter)、论坛、客户调查意见、电子邮件等的非结构化的文本数据中抽取事实、关系和情感信息，支持对顾客数据的多渠道分析。其产品已被空中客车、花旗银行、惠普、盖克等知名企业和美国联邦调查局、国家安全局等政府机构采用。类似的软件还有Clarabridge和Lexalytics等。

三、金融文本的感知与挖掘

相对于信息检索和情报领域而言，以文本挖掘分析作为工具的金融研究还是一个极其新颖的事情，不过正引起越来越多学者的兴趣。他们利用网上新闻、财务报告和论坛博客等作为文本数据来源，通过感知与挖掘技术，应用计算机大规模地自动对这些文本进行分析处理，从而获取市场、企业和投资者的有关信息。

1.市场状况的感知

金融市场本质上是信息驱动的，各个投资者根据自己的信息收集、加工和理解并独立决策，最终形成金融资产的市场价格。而新闻是投资者最为关注的信息来源，其对市场的影响也是传统金融实证研究中比较关注的问题。基于文本情感分析技术则可对金融新闻进行大批量的分析处理，实时把握主流的观点倾向、评估新闻事件的影响度，进而推测金融市场走势，分析获取超额收益的可能性。例如，2001年，Desh根据领域专家提供的400个带有情感极性的关键字，采集苏黎世Olsen & Associates的HFDF93数据，以其中的全球金融、政治和经济状况的新闻标题作为对象，通过关键词的统计来感知汇率市场状况，以此预测盘中货币的汇率变动。

2.投资者情绪的感知

投资者情绪的研究是行为金融研究中的一个重要领域，而主要的投资者情绪度量方法是调查法和代理变量法。即通过问卷调查的方式来直接了解投资者情绪或者通过相关代理金融变量作为投资者情绪的间接表示。它们具有成本高、周期长、时间滞后、误差大等缺陷。2004年，Werner和Murray基于消息板块中的投资者讨论信息，基于文本情感分析技术感知投资者对未来市场的情绪，证实股票市场的收益率同留言情绪的好坏存在显著相关。2007年，Das等也将收集的投资者网上留言信息通过文本感知技术将其分为看牛、看熊和中性三类，并进而将一段时期内的这些分类留言进行统计综合，编制出投资者情绪指数，从而为及时、准确、自动地感知投资者情绪提供了新的思路和工具。

3.上市企业经营情况的感知

上市企业的经营状况是投资者决策的重要依据，然而一些研究表明，企业管理者出于各种压力和利益的缘故，在不违背相关法律制度的前提下，倾向于对其工作业绩的进行夸大或粉饰。由于信息不对称，投资者很难了解企业的真实经营情况以及管理层的真实经营能力和意图。文本情感分析技术则为我们提供了新的工具，可一定程度地降低这种信息不对称。例如，财务报告是反映企业财务状况和经营成果的书面文件，国际或区域会计准则都对财务报告有专门的独立准则。一般包括资产负债表、利润表、现金流量表、所有者权益变动表、附表及会计报表附注和财务情况说明书。美国还要求提供MD&A(Management’s Discussion and Analysis，管理当局讨论与分析)，英国也要求提供OFR(Operating and Financial Review，经营与财务评述)，以披露高层管理人员对公司的经营目标和实现这些目标的战略，以及成功应用这些战略的可能性，并对经营管理中用来衡量业绩的关键指标进行讨论和分析。Mark等(2010)通过创建预测公司破产和财务欺诈两类事件的词条目录，以美国上市企业的10-k报表(即年度报表)中的MD&A(管理者评论)为文本数据来源，分析文本隐含的情感语气，以此推测管理层的真实心理，进而构建上市企业的破产与欺诈事件的预测模型。其结果表明其对两类事件的辨别精度最高分别可达到80%和75.4%。Angela等(2008)对1998至2003年间的企业盈余公告进行分析，通过文本分析软件感知经理人员的乐观和悲观语调，证实经理人员的语调透露了其后续经营业绩好坏的信息。国内学者韩春(2008)也使用文本挖掘技术对上市公司年报进行分析，并结合上市公司财务评价指标体系和聚类的方法，给出了一种综合分析与评价上市公司财务状况和经营状况的方法。

4.企业关系的感知

各种各样的新闻报道往往涉及到企业的方方面面，而对一家企业的新闻报道往往又会提到其它企业，这些企业之间极有可能存在某种关系，比如伙伴关系、竞争关系或从属关系等。例如，Bernstein等(2002)使用一个叫ClearForest的商业文本挖掘分析系统，从Yahoo!Business News板块新闻中获取企业实体，构建网络关系，计算其联系紧密程度。而Ma,Sheng和Pant(2009)也注意到这个事实，通过文本感知挖掘技术，构建了公司之间的关联网络图，并应用社会网络分析技术描述各个企业之间的联系强度，以此来推测公司间的盈利关系。通过对87340对样本公司的实证，其精度可达80%。

四、前景与挑战

随着IT技术，特别是网络技术的发展，文本数据正以爆炸式速度在增长、传播和积累。金融文本数据自然不例外，纯粹依赖人工阅读以支持定性分析研究的方式，在汹涌而来、堆积如山的文本数据面前相形见绌，效率低下。依赖于文本感知与挖掘分析技术来充分利用这些数据必然受到金融业者和学者的高度重视。然而其困难也同样存在，目前面临的主要挑战包括：(1)大规模金融文本的实时采集、存储与搜索；(2)大规模金融文本的特征提取、量化与计算；(3)针对特定应用目的的金融主题词典以及语料库的构建；(4)基于文本量化的金融模型的开发与应用。

尽管目前很多技术还只是萌芽，效果还不是很理想，但随着文本感知与挖掘技术的进一步发展，其准确度和精度亦将不断改善，各种应用也将层出不穷，其研究与应用前景是相当广阔的。

[参考文献]

[1]Bernstein, A., Clearwater, S., Hill, S., and Provost, F.Discovering Knowledge from Relational Data Extracted from Business News.Proc.of the KDD 2002 Workshop on Multi-Relational Data Mining,Edmonton, Alberta, Canada, 2002.

[2]Davis, Angela K., Piger, Jeremy M.and Sedor, Lisa M., Beyond the Numbers: Managers’ Use of Optimistic and Pessimistic Tone in Earnings Press Releases (December 3, 2007).AAA 2008 Financial Accounting and Reporting Section (FARS)Paper.Available at SSRN: http://ssrn.com/abstract=875399.

[3]Desh Peramunetilleke, Raymond K.Wong.Currency exchange rate forecasting from news headlines.In:Proc.of the 13th Australasian database conference,2002, (5):131-139.

[4]Kim S.M, Hovy E.Crystal: Analyzing predictive opinions on the Web.In:Proc.of the Joint Conf.on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL).Morristown: ACL,2007.1056-1064.

[5]Ma, Z., Sheng, O., and Pant, G.(2009)Discovering company Revenue Relations from News: A Network Approach, Decision Support Systems, Vol.47, pp: 408-414.

[6]Sanjiv R.Das, Mike Y.Chen.Yahoo! for Amazon: Sentiment Extraction from Small Talk on the Web.Management science,2007,53(9):1375-1388.

[7]Turney Peter, Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews.In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.2002,417-424.

[8]T’sou Benjamin, Kwong Olivia, Wong Wei-Lung, Lai Tom.2005, Sentiment and Content Analysis of Chinese News Coverage, International Journal of Computer Processing of Oriental Languages, 18: 171-183.

[9]Werner Antweiler,Murray A.Frank.Is all that talk just noise? The information content of internet stock message boards.The journal of finance,2004,3,1259-1294.

[10]姚天昉，聂青阳，李建超，李林琳，娄德成，陈珂，付宇.一个用于汉语汽车评论的意见挖掘系统[A].曹右琦，孙茂松.中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集[C].北京：清华大学出版社，2006:260-281.

[11]韩春,田大钢.对股票市场信息的文本挖掘[J].中国高新技术企业,2008(23):6-8.