APP下载

基于文本挖掘和网络爬虫技术度量我国系统性金融风险

2018-12-10吴寅恺陈清萍

江淮论坛 2018年5期
关键词:文本挖掘网络爬虫

吴寅恺 陈清萍

摘要:我们利用文本挖掘和网络爬虫技术从报刊文章中提取有关我国系统性金融风险的信息,构建了用于度量我国系统性金融风险水平的系统性金融风险指数。该指数与金融形势指数相比,能够更准确地刻画近年来我国金融市场的风险变化。在对我国系统性金融风险的来源进行分析后发现2015年和2016年我国系统性金融风险主要来源于银行部门和股票市场,而2017年金融风险的主要来源转移到了银行部门和房地产市场。此外,2015—2017年,我国互联网金融风险呈现出不断上涨的趋势,需要引起重视。

关键词:文本挖掘;网络爬虫;系统性金融风险;金融风险指数;风险来源

中图分类号:F832.5;F832.59 文献标志码:A 文章编号:1001-862X(2018)05-0070-006

一、引 言

2017年习总书记在十九大报告中指出要“健全金融监管体系,守住不发生系统性金融风险的底线”。当前我国经济形势稳中有变,打好防范和化解金融风险攻坚战已经上升为国家战略,因此,构建合理的系统性金融风险指数,对于观测、预警和防范我国发生系统性金融风险有着重要的作用。

目前度量金融风险的方法主要是综合指数法,该方法是通过构建一套合理的指标体系,在选取合适的统计数据的基础上,利用数理统计方法生成一个综合指数,用于反映金融风险水平的变化。具有代表性的这类指数有金融形势指数(FCI)和金融压力指数(FSI)。然而,近年来随着数据的类型和体量呈爆发式的增长,统计数据这类结构化的数据无法体现出诸如政策变化、战争及自然灾害等定性信息,因此统计数据不能涵盖金融市场中所有的信息,这导致综合指数法构建的金融风险指数难以准确刻画出金融市场的风险变化。而非结构化的数据,例如大数据,所涵盖的信息面更广,收集渠道更多元化,因此能够相对更全面地描述和分析金融风险的变化。然而,不同于传统的结构化数据,非结构化数据一般储存在文本、文档、图片或者报表中,这就需要利用各种数据采集、分析方法,例如文本挖掘和网络爬虫技术,提取相关信息和数据。

本文将利用文本挖掘和网络爬虫技术,从国内发行量较大、知名度较高的报刊文章中采集与我国金融市场风险相关的信息和数据,并在此基础上构建出系统性金融风险指数,用于度量我国系统性金融风险并分析其来源和产生因素。

二、文献综述

早期对金融风险的度量方法主要是对各国可能发生的金融风险进行预测,如Frankel和Rose(1996)的FR概率模型以及Kaminsky等(1998)构建的KLR模型。在2008年金融危机之前,政府和金融机构用于对风险的测度主要是通过评估系统性金融风险损失数额和损失概率的方法,代表人物有Baumol(1963),他提出了风险价值模型(VaR)。此外,对于金融风险的度量较为普遍的方法为综合指数法,该方法是通过构建经济金融风险指标体系,计算出能够反应金融风险水平的金融风险指数。具有代表性的就是Illing和Liu(2002)的金融压力指数和Goodhart和Hofmann(2001)的金融形势指数。金融压力指数是通过因子分析,信用权重等方法,将各类指标数据合成一个可以反映国家或地区金融体系压力的指数,当金融风险越大时压力越大,越容易发生金融危机。2008年国际金融危机发生后,Hakkio和Keeton(2009)以及Cardarelli等(2009)在Illing和Liu的基础上进一步完善了金融压力指数,用于衡量系统性金融风险的程度。此外,各国央行和金融监管机构也尝试构建一些能够反映金融市场风险程度的指标,例如,欧洲央行采用的系统压力综合指数(CISS),该指数反映了5个金融市场组合对系统性金融风险的综合效应。许悦(2017) 对系统压力综合指数、金融形势指数、金融压力指数等指数进行效果分析,发现系统性压力综合指数对美国金融风险有较好的监测能力。

国内对度量金融风险的研究成果也颇为丰厚,王玉玲等(2006)比较了VaR和CVaR两种方法对金融风险度量的优劣。沈悦和闵亮(2007)构建了外汇压力指数用于研究单个金融市场的风险。赖娟和吕林江(2010)首次选择期限利差、银行业风险利差、股票市场波动性和EMPI合成指数四个变量构建了中国2002年1月至2009年12月的金融压力指数。许涤龙和陈双莲(2015)通过银行、地产等4个金融市场的18个二级指标,采用CRITIC法构建了我国的金融压力指数。韩心灵和韩保江(2017)利用5个二级指标和22个三级指标加权后得到了我国系统性金融风险压力指数。毛建林和张红伟(2015)利用CCA模型对我国系统性金融风险进行了测度。此外,武鹏和胡海峰(2016)在金融形势指数的基础上选取了短期利率、房地产价格等指标构建了金融风险指数用于衡量我国金融风险水平。桂预风和李巍(2017)选取了宏观维度、银行与货币维度等17个指标,运用动态因子方法构建了我国金融风险指数。

总的看来,度量系统性金融风险的方法多种多样,其中利用综合指数法构建金融风险指数应用较为广泛,然而这种方法也存在着一些不足:首先,综合指数法在构建金融风险指数的过程中对于指标体系的选取没有一个统一的标准:过多的指标不仅增加了运算成本,而且会增加冗余的信息干扰最终结果;而指标过少会导致重要的信息被遗漏。其次,综合指数法构建的金融风险指数大多是基于结构化的统计数据,然而随着大数据时代的来临,结构化的数据有时候已经无法全面反映的金融市场的变化。赵丽丽(2012)认为实际觀测到的统计数据只能分析价格、利润等定量的信息,而经济政策变化、自然灾害、战争等定性信息很难在数据中体现出来,而互联网的财经新闻中就包含了大量的这种定性信息。Wuthrich等(1998)认为在报纸文章中的财经新闻不仅阐述了市场表现的结果,而且包含了其来源和产生原因等潜在信息。

综上所述,我们认为利用文本挖掘和网络爬虫技术从报刊、新闻中提取的非结构化数据能够涵盖更多的信息,能够更加全面地描述和分析我国金融市场的变化。在此基础上构建出的金融风险指数对我国系统性金融风险应具有更强的解释能力。

三、金融风险指数的构建

1.网络爬虫和文本挖掘技术

文本挖掘(textual mining)是从海量的、无结构的文本信息中挖掘出潜在的、有价值的知识和信息的一种计算机处理技术。文本挖掘能够利用一些智能算法并结合文字处理技术,分析大量的非结构化文本源,如网页、电子表格、报刊文章、电子邮件等,提取或标记关键字,并对文本内容进行分类处理,从而获取有用的信息。

网络爬虫(web crawler)是一个能够自动提取网页信息的技术,它通过模仿浏览器访问网络资源,从而获取用户需要的信息。例如,人们在日常浏览网页过程中,经常会看到一些好看的图片或者一些有用的数据,如果想保存这些图片或者数据,通常的方法就是选中想要的照片和数据,然后逐个进行保存,但是如果图片或者数据量比较大(比如想保存1万张图片),那么以上的方法将耗费巨大的时间和精力。而网络爬虫技术可以快速高效地下载并保存所需要的图片或者数据。

我们将两种技术相结合,利用网络爬虫技术批量下载读取网站中的文章,然后利用文本挖掘技术,使用预先准备好的词库采集文章中的重要信息,最后对所得到的数据进行处理和分析。

Baker等(2015)通过人工阅读的方式提取报刊文章中的信息,构建了“经济政策不确定性指数”,他们认为在一段时间内,如果报刊的文章中频繁提及“经济、政策不确定性”等相关词语,说明此时政府经济政策的影响和效果不确定性增加。本文中,我们借鉴了Baker的理论观点,提出了一个新的方法构建我国金融风险指数:我们利用文本挖掘和网络爬虫技术,在全国各大报纸中选取有关我国金融风险的文章和报道,计算出一段时间内与“金融风险”相关的词语在文章中出现的频率,用于衡量金融风险的大小。换句话说,在一段时间内,如果报刊的文章中频繁提及“金融风险”等相关的词语,说明政府和公众对金融风险的关注度较高,这在一定程度上反映了此时市场中的金融风险较大,反之则表明金融市场的风险较小。

基于以上理论,我们选取了《光明日报》和《中国经营报》两家报纸作为文本挖掘和网络爬虫的对象。之所以选择这两家报纸,一是这两家报纸在国内发行量较大、传播较广,具有一定的影响力。《光明日报》作为中宣部主管的中央党报、中共中央机关报之一,其内容具有一定的权威性;而《中国经营报》的主管单位是中国社会科学院,该报是中国最早发行的经济类报刊之一,也是全国发行量最大、版面最多的经济类报纸。二是这两家报纸都提供多媒体数字报刊平台以便于网络爬虫技术下载所需要的文章。(1)

我们选取了自2015年1月到2017年12月的《光明日报》和《中国经营报》所有数字版报刊作为分析对象。系统性金融风险指数的编制过程如下:

(1)我们在2015年至2017年两家报刊中选取各50篇有关金融市场风险的文章和报道,利用人工阅读的方式了解报刊文章都有哪些经常用于描述“金融风险”的词汇,即风险词。根据风险词,我们建立了用于网络爬虫和文本挖掘的“系统性金融风险词库”,其中包括了“(系统性)金融风险”、“系统性风险”、“重大风险”、“区域性风险”、“房地产风险”、“汇率风险”、“债务风险”等在内的37个风险词。由于《中国经营报》为经济类报纸,专业性更强,用于描述金融风险的词汇也更多,因此《中国经营报》的词库是在《光明日报》词库的基础上附加了一组词库,具体的词库如下:

(2)我们利用Python软件编制网络爬虫代码,将2015至2017年的所有电子报刊按照月度的分类爬取到PC终端,在每月发行的报刊中随机选取一定数量的文章(2),计算出“系统性金融风险词库”中的风险词在选取文章中出现的频率,整理为月度数据后,以此作为该报刊的系统性金融风险指数:

综上所述,如果词库中的风险词在文章内频繁出现,这说明了此时政府和公众提高了对金融风险的关注度,意识到了金融风险在不断地累积,而此时我们构建出的金融风险指数也会随之升高;反之,金融风险指数则会降低。

(3)每年的两会等重要的会议期间,会频繁提及防范金融风险等会议事项,使得词库中风险词出现频率剧增,从而导致指数失真。为了避免会议对指数造成的影响,我们将报刊中的“两会特刊”、“十九大特刊”等版面的文章剔除在外,在这些重要的会议期间提取其他版面文章的风险词,并计算其频率。

(4)基于不同的报刊,我们构建了“光明日报金融风险指数”和“中国经营报金融风险指数”,然后将两个指数算术平均后得到一个“系统性金融风险指数”。

图1描述的是《光明日报》和《中国经营报》金融风险指数的走势图,其中实线代表的是《光明日报》金融风险指数,虚线代表的是《中国经营报》金融风险指数。从图中可以看出,这两个金融风险指数走势较为接近,两者的相关系数也达到了0.5。在2015年的“股灾”之前,两个指数一直在相对低位徘徊,而在“股灾”过后的大部分时间里,指数都在相对高位波动,说明了在“股灾”过后,我国的系统性风险水平显著增加。值得关注的是,近年来我国出现了4次系统性金融风险指数较高的时段,一是2015年6月到8月的“股灾”期间,短短3个月上证指数跌幅超过30%,流动性风险加剧,迫使以证金和券商为主的“国家队”开始维稳救市。二是2016年1月由于实施熔断新政,新年开市后的两个交易日内股市遭遇4次熔断,两次提前休市,四天时间内,上证指数下跌了13.8%,一周时间A股市值蒸发逾6万億。三是2016年年底人民币兑美元大幅贬值并伴随着房地产市场泡沫的加剧:2016年全年人民币兑美元贬值近7%,与此同时,2016年前三季度房价大幅上涨,9月份“深圳6平米88万天价房” 更是让房价过高的舆论矛盾进一步激化。国庆节后17个城市先后出台“限购”、“限价”等政策抑制房价过快上涨,欲遏制房地产市场风险增加。四是2017年5月债券市场迎来了偿债高峰期,各类债券偿还总规模超过2.6万亿元,为2000年以来的次高峰,在部分地区经济增长下滑、财政收入减少的情况下,政府的偿债压力增大,债务风险增加。

虽然两个金融风险指数走势大致相同,但也存在着一些区别。例如,《光明日报》金融风险指数在2015年“股灾”期间的数值最高达到了1.03,而在2016年“熔断”期间该数值达到了峰值1.47。而《中国经营报》金融风险指数在 “股灾”期间最高达到了2.08的数值,在熔断期间该数值为1.39。这说明相对于《光明日报》金融风险指数,《中国经营报》金融风险指数认为“股灾”期间的金融风险水平相对“熔断”期间的更高。

为了避免单个指数在编制过程中造成的数值偏差,导致指数的失真,我们将上述两个金融风险指数平均后得到了综合的系统性金融风险指数(如图2所示)。可以看出,综合后的指数与两家报纸的金融指数一样,可以清晰地刻画出近年来我国几次系统性金融风险事件集中爆发的时段。

2.系统性金融风险指数的评估

为了评估我们构建的系统性金融风险指数的可靠性和适用性,我们将该指数与金融形势指数进行了比较。本文中,我们选取了高盛中国金融形势指数作为参考指标,数据来源于彭博(Bloomberg)数据库网站。金融形势指数是由实际短期利率、实际有效汇率、房地产价格指数和股票价格指数等变量通过加权平均构建得到,在一定程度上能够反映金融风险的程度,因此,一些国家和央行以这项指标作为货币政策制定和金融风险衡量的重要参考指标。

如图3所示,图中虚线为金融形势指数(FCI),实线为我国系统性金融风险指数(FRI)。可以看出,在一些时期内系统性金融风险指数和金融形势指数走势较为接近(两者相关系数达到了0.4),特别是在金融风险事件集中爆发的阶段,两个指数都能较好地反映金融风险水平的增加。但是,两个指数也存在一些差别,例如,FCI在2015年年初的数值相对较高,而FRI则较低;FCI对外汇波动及房地产价格上涨带来的金融风险的增加更为敏感,该指数在2016年12月曾一度达到过最高峰105.59,这个数值甚至超过了 “股灾”期间 “熔断”期间的数值。同时,FCI对于债券市场风险的变化较为不敏感。例如, 2017年5月的债市偿债高峰期,FRI大幅升高,而与此同时FCI却是下降的。

造成两个指数走势不完全一致的因素是多方面的。首先,金融形势指数在构建的过程中没有涵盖如债券收益率等与债券市场相关的指标,因此该指数相比系统性金融风险指数缺少对债券市场中债务风险和违约风险水平的衡量,在一定程度上低估了债务风险和违约风险水平。其次,金融形势指数的构建过程中包含了股票、房地产等各类价格指数,虽然这类指标与金融风险有很高的动态相关性,但是单纯价格上涨并不完全代表着金融风险的升高,因此相较于我们构建的系统性金融风险指数,金融形势指数在一定程度上高估了由价格上涨带来的金融风险。综上可以看出,系统性金融风险指数相较于金融形势指数能够更全面地反映我国金融市场风险水平的变化。

3.金融风险的来源分类

为了分析我国系统性金融风险的来源和产生因素,我们将“系统性金融风险词库”进一步细化分类,将风险的来源区分为银行等金融机构部门风险、房地产市场风险、股票市场风险、债券市场风险、外汇市场风险和互联网金融风险等6个维度,爬取《中国经营报》中的文章(3),计算各类风险词出现的次数,从而了解近年来我国系统性金融风险来源的主要因素及其变化。

从表1中可以看出,2015年和2016年我国系统性金融风险主要来源于银行部门的风险和股票市场的风险。这是由于这两年中我国股票市场出现了剧烈的波动,在先后经历了“股灾”和“熔断”后,股市的剧烈波动对银行业系统造成了一定的冲击。这种冲击包括银行持有的上市公司的股票因为股价的大幅下滑而对银行业绩造成的直接影响,同时股市的剧烈波动也对股票质押贷款、投资以及与股票挂钩的银行业务等产生了间接影响,一定程度上增加了银行部门的风险。而在采取了及时的救市措施之后,股票市场的风险在2017有所下降,从而避免了经济危机的发生。与此同时,伴随着近年来房地产价格的大幅上涨,2017年我国系统性金融风险主要来源从银行部门和股票市场的风险转换到了银行部门和房地产市场的风险。可以看出,2017年报刊文章提及“楼市泡沫”、“房地产风险”等风险词的数量为2016年的4倍,是2015年的30多倍。

此外,2017年我国债务风险也相较于2015年和2016年有所提高,这与2017年5月债券大量集中到期有关。在外汇市场风险方面,尽管人民币汇率在近年有一定程度的波动,但是从表格中可以看出,我国外汇市场的风险在近3年中相对平稳,基本没有受到人民币币值波动的影响。值得注意的是互联网金融风险,在2015年底“e租宝”事件发生过后,在近年出现了上涨的趋势,需要引起极大的重视。

四、结论及政策建议

我们利用网络爬虫和文本挖掘技术,对2015年至2017年的《光明日报》和《中国经营报》的文章信息进行了提取,构建了我国系统性金融风险指数用于度量我国系统性金融风险。该指数清晰地刻画了近三年来我国四次金融风险水平较高的时段,在与中国金融形势指数比较后我们发现系统性金融风险指数能够更好更全面地反映我国系统性金融风险的水平。

此外,我们分析了近年来我国系统性金融风险的来源及产生因素,发现了2015年和2016年我国系统性金融风险主要来源于银行部门和股票市场的风险,而2017年我国系统性金融风险转换到了银行部门和房地產市场的风险,特别是2016年在股市波动和房地产价格大幅上涨的双重压力情况下,我国银行部门的风险急剧增加。此外,值得注意的是,在2015年“e租宝事件”过后,我国互联网金融风险在近年出现了不断上涨的趋势。

当前,在国务院机构改革的背景下,银监会和保监会合并组建中国银行保险监督委员会,原来的分业监管模式逐渐向分业和统一的监管方式转变,监管机构能够更加全面地对金融市场进行监管,有效弥补监管漏洞,有利于统筹协调金融发展。在新的金融监管构架下,结合文章所得结论,我们给出了如下政策建议:

1.加强资产管理行业监管。近年来我国银行部门、股票市场以及房地产市场风险的高企,与资产管理行业规模不断扩大有着紧密的关系。各类资管产品相互投资、重复投资等多层嵌套问题日益严重,这加大了金融体系的脆弱性。例如,近年来保险行业利用万能险、投连险大量吸收社会资金,频频在股市举牌,扰乱市场秩序,或者以通道、嵌套等方式开展股权投资计划,使得资金又大量流入了风险较大的房地产领域,进一步推高了房地产泡沫,加大了房地产市场风险。银监会和保监会的合并,有利于部门间的沟通和监管协作,覆盖监管空白,弥补监管漏洞,新组建的银保监会需要加强对资管行业的监管。

2.完善互联网金融监管体系。虽然银监会和保监会的合并有助于改善分业监管效率低下的问题,有利于P2P等网贷业务的发展,但是近年来互联网金融风险不断加大,面对复杂的互联网金融的产品创新,还需要完善互联网金融的监管体系。

注释:

(1)我们也尝试挖掘其他例如《人民日报》、《经济日报》等报刊的文章,但是这些报刊的数字版提供的资源有限,可查询的报刊日期较少,因此编制出的金融风险指数历史数据较少,缺乏说服力。此外,由于个别数字报刊网站建立了“反爬虫”措施,因此无法提取到有效的文字和数据。

(2)《光明日报》为日刊,每月選取500篇文章,《中国经营报》为周刊,每月选取200篇文章。

(3)此次爬取非随机选择文章,而是从头版、要闻、宏观、财经、银行、地产、科技等版面选取所有文章,计算词库中词语出现的总次数。

参考文献:

[1]Baker S R,Bloom N,Davis S J.Measuring Economic Policy Uncertainty[J].Cep Discussion Papers,2015.

[2]Baumol W J.An Expected Gain-Confidence Limit Criterion for Portfolio Selection[J].Management Science,1963,10(1):174-182.

[3]Cardarelli R,Elekdag S A,Lall S.Financial Stress,Downturns,and Recoveries[J].Imf Working Papers,2009,09(100):25-29.

[4]Frankel J A,Rose A K.Currency Erashes in Emerging Markets: An Empirical Treatment[J].International Finance Discussion Papers,1996,41(3-4):351-366.

[5]Goodhart C,Hofmann B.Asset Prices,Financial Conditions,and the Transmission of Monetary Policy[J].Proceedings,2001,114(2):198-230.

[6]Illing M,Liu Y.An Index of Financial Stress for Canada[J].Staff Working Papers,2003,29(03-14).

[7]Kaminsky G,Lizondo S,Reinhart C M.Leading Indicators of Currency Crises[J].Staff Papers,1998,45(1):1-48.

[8]桂预风,李巍.基于动态因子模型的金融风险指数构建[J].统计与决策,2017,(20):150-153.

[9]韩心灵,韩保江.供给侧结构性改革下系统性金融风险:生成逻辑、风险测度与防控对策[J].财经科学,2017,(6):1-13.

[10]毛建林,张红伟.基于CCA模型的我国银行系统性金融风险实证研究[J].宏观经济研究,2015,(3):94-102.

[11]沈悦,闵亮.基于外汇市场压力指数的货币危机界定与识别[J].上海金融,2007,(12):69-72.

[12]武鹏,胡海峰.中国金融风险指数FRI的构建及经济预测的检验[J].统计与决策,2016,(2):120-123.

[13]王玉玲,王晶.度量金融风险的CVaR方法[J].统计与决策,2006,(11):13-14.

[14]许涤龙,陈双莲.基于金融压力指数的系统性金融风险测度研究[J].经济学动态,2015,(4):69-78.

[15]许悦.系统性压力综合指数的有效性研究[J].统计与决策,2017,(2):166-170.

[16]赵丽丽.互联网财经新闻对股市影响的定量分析[D].西南财经大学,2012.

(责任编辑 吴晓妹)

猜你喜欢

文本挖掘网络爬虫
数据挖掘技术在电站设备故障分析中的应用
炼铁厂铁量网页数据获取系统的设计与实现
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量
慧眼识璞玉,妙手炼浑金
网络爬虫针对“反爬”网站的爬取策略研究
文本观点挖掘和情感分析的研究