APP下载

基于微博信息的股票交易预测研究

2017-04-13叶建木

财政监督 2017年5期
关键词:股票交易视网交易量

●胡 婧 叶建木

基于微博信息的股票交易预测研究

●胡 婧 叶建木

本文利用微博信息对股票市场交易进行预测是大数据时代的研究热点,具有明显的现实意义。本文选取我国股票市场上中证100指数成分股的微博数据作为样本,研究了微博数据指标与股票交易量、交易金额的相关性,并利用BP神经网络模型训练了微博数据指标与股票交易指标并对个股的交易量和交易金额进行了预测。结果表明,与传统的基于历史数据预测方法相比,基于微博数据指标的预测模型稳定性更高,预测结果与实际交易量和交易金额更接近,具有一定的应用价值。

微博 股票 相关性 BP神经网络 预测

一、引言

微博(也称新浪微博)是一款为网民提供娱乐、休闲、生活等服务的信息分享和交流平台,其所具备的私信、评论、转发、点赞等功能,极大地便捷了用户间的交流。截至2016年3月底,微博月活跃用户2.61亿,日活跃用户达1.2亿,其中包括大量政府机构、企业、公职人员和其他个人的认证账号。开放的传播机制使新浪微博成为中国的“公共议事厅”。微博时效性强、大众参与度高,可以比较准确和实时地反映社会整体的心理和行为,研究者也能够利用网络爬虫技术从微博获取与股市密切相关的政策、企业信息和投资者情绪等信息,为股票市场预测的研究提供了一个新的方向和途径。

Bollen等 (2010)最早利用微博(Twitter)研究公众情感与股票市场的关系,采用OpinionFinder和GPOMS两种情绪追踪工具对微博进行情感分类,研究发现“冷静”维度的情绪指数与三天后的道琼斯工业指数显著相关。此后的研究者做了大量探讨微博与股票市场指数关系的工作。Zhang等(2011)使用Twitter测量投资者的希望和恐惧程度,得出情绪指数与股指呈负相关,但与市场波动指数(Volatility Index,VIX)呈正相关的结论。Arafat等(2013)建立了一个基于云计算的算法系统,验证了公众情绪与公司市场活力之间的比例关系。国内学者的研究主要借鉴了国外的相关经验,同时结合中国实际情况进行实证分析。多数研究成果,如王美今和孙建军(2004),韩立岩和伍燕然(2007),刘丽文和王镇(2016)等人的研究都支持投资者情绪与市场收益率存在相关关系。

现有的利用微博对不同国家金融市场预测的研究,主要是通过情感分析方法和数据挖掘技术来进行的。情感分析主要依托于词库,然而汉语复杂多变,且词库的更新速度远不及网络语言与情绪的发展速度,词语倾向性很难把握,因此,在研究我国股票市场预测时,利用情感分析建立基于微博等网络平台的投资者情绪指数的研究存在较大的误差和改进余地。基于此,本文研究微博上股票投资者的行为,不使用情感分析,而是通过建立微博指标,寻找其与股票交易信息之间存在的联系。

二、样本选择及处理

沪深300指数是由沪深证券交易所于2005年联合发布的,从沪深证券市场中选取300只规模较大、流动性较强的A股作为样本编制而成的成分股指数,总市值约占沪深市场的60%。中证100指数是由沪深300指数样本股中规模最大的100只股票组成的成分股指数,具有市场影响力突出、社会讨论广泛、引导作用明显的特点。本文以中证100指数的成分股为依据,使用集搜客GOOSEEKER网页抓取工具抓取了2016年1月至6月这100只股票的相关微博总量,并选取该区间内微博讨论量最多的若干只个股作为样本进行研究。经过测试,为了达到排除无关或干扰信息的目的,将爬取关键词设定为“股票代码+股票名称”,以得到较为精准的个股微博数据。

利用集搜客爬取到的数据以Excel电子表格形式储存,删去重复微博并整理计算后可以获得个股每日微博数据指标,如表1所示。

表1 个股每日微博数据指标

三、相关性研究

(一)微博数据与当日股票指标的相关性

为了验证个股微博信息是否能够预测股票走势,首先需要确认微博指标与股票指标是否存在相关性。

本文选取开盘价、最高价、收盘价、最低价、交易量、交易金额、涨幅等七项指标,并从上交所和深交所各选取了一只代表性个股(300104乐视网和000002万科A)与表1中的五项指标分别进行相关性检验。表2和表3给出了乐视网和万科A在2016年6月和2016年8月股票交易日内的微博指标与股票指标的相关系数。

综合表2和表3中的数据可以看出,交易日当日的微博数据指标和其股票表现情况均存在一定的相关性:尽管微博指标与股票价格(开盘价、收盘价、最高价、最低价)的相关性存在个股差异,但是就乐视网和万科A这两只股票而言,微博数、互动数、转发数与股票交易量、交易金额的相关系数均高于0.5,处于较高水平。这说明在社交媒体讨论该只个股的人数越多、范围越广,则该股的成交量和成交金额越大,符合基于常识的预期。值得一提的是,显著的负相关性对研究也是有意义的,利用反向指标进行预测同样具有可行性。

表2 2016年6月乐视网(300104)微博指标与股票指标相关系数

表3 2016年8月万科A(000002)微博指标与股票指标相关系数

近年来,大量的研究显示,与传统媒介相比,社交网络(如微博)作为新兴投资者信息交流平台,能够更加实时、准确、迅速地反映上市公司重大信息披露对公众造成的影响。

2016年6月,乐视网微博数大体上较为平稳,但是3日和30日呈现井喷态势,分别超过当月均值的10倍及4倍。乐视网2015年12月5日停牌筹划重大事项,直到2016年6月3日复牌,复牌当日引发热议,然而表现不佳当日跌停,后续微博讨论骤减;6月30日乐视网涨停,或与乐视成为酷派股东且正积极筹备乐视金融有关,也引发了较大规模讨论。同样,2016年8月,万科A微博讨论数量在4、5两日达到最高值。8月4日,万科A股票涨停,媒体称恒大买入万科股票,比例或超过2%,引发投资者热议并发酵至次日。这些都验证了前人的研究结果,作为国内主流社交网络,微博是网络信息传递的重要途径,能够实时体现社会公众的行为表现,具有反映人们行为及后果的意义。

(二)微博数据与次日股票指标的相关性

个股数据与其微博内容体现的社会特征在同一天的相关性并不能起到预测功能。因此,本文同样检验了乐视网和万科A在2016年6月和2016年8月的微博指标与次日股票指标的相关性,见表4、表5。可以看出,与表2、表3相比,相关系数有所降低,但是投资者的交易行为与前一日的社会行为之间仍然存在着一定联系。交易量、交易金额与微博数、互动总数、转发数的相关系数都保持在0.3以上,对股票交易数据进行预测仍然具有可行性。

表4 2016年6月乐视网 (300104)微博指标与次日股票指标相关系数

表5 2016年8月万科A(000002)微博指标与次日股票指标相关系数

四、BP神经网络预测

上一节的研究结果显示,(T-1)日的投资者微博行为与T日的股票交易行为存在相关性,因此可以利用这一结论来预测投资者的行为,以及该行为其对股票交易价格和成交量变化的作用。

然而,由于股票市场参与者众多,容易受到多方因素的影响,是一个非线性、大规模的复杂系统,传统的利用财务指标进行线性模型预测的方法并不适用。而BP神经网络可以进行大规模并行处理,具有很强的非线性逼近能力及自学习、自适应能力,符合预测的要求。因此本文利用MATLAB R2012b中BP神经网络算法进行股票预测研究,构建四层BP神经网络预测模型,其结构如图1所示。

图1 本文BP神经网络结构

(一)微博指标对股票交易的预测

将表1中的五个微博指标,即微博数、互动参与率、互动总数、互动均值和转发数设定为输入向量,股票交易量和交易金额设定为输出向量。经过多次试验,确定隐层第一层和隐层第二层节点数分别为8个和22个。

将最近30个自然日的数据作为训练样本。为了避免输入、输出变量之间数量级差异造成的误差,对全部样本进行了归一化处理。学习率设定为0.05,目标为0.0000001,设定输入数据的20%为测试数据、20%为变化数据、60%为训练数据,随后进行10000次训练,最后对样本数据反归一化。训练结果如图2所示。由此即得到本文所需的神经网络预测系统Ⅰ。在系统中输入五项个股微博指标,即可对下一交易日的股票交易量及交易金额;进行预测。

图2 万科A2016年8月微博指标训练结果

(二)历史交易数据对股票交易的预测

为了验证该系统的准确性,本文同样建立了基于万科A股票历史数据对股票交易量及金额的BP神经网络预测系统Ⅱ。该系统采取相同的研究方法,五个输入变量分别为(T-1)日、(T-2)日、(T-3)日交易量和(T-1)日、(T-2)日交易金额,两个输出变量为T日的股票交易量和交易金额。同样,将最近30个自然日的数据作为训练样本,其他参数设置与系统Ⅰ一致。训练结果如图3。

图3 万科A2016年8月历史交易数据训练结果

(三)股票交易预测偏差的比较分析

利用神经网络预测系统Ⅰ和系统Ⅱ,分别对万科A的交易数据进行预测。将预测结果与实际股票交易数据进行比较,偏差结果如图4、图5。

图4 两个预测系统对万科A2016年9月交易量预测偏差对比

图5两个预测系统对万科A2016年9月交易金额预测偏差对比

图4 、图5中,百分比表示通过微博指标预测和基于历史数据预测水平与实际交易水平的偏差。0.0%即表示万科A实际成交水平。

观察预测偏差的绝对值,与微博指标预测相比,基于股票历史数据的预测总体上偏差更大,预测结果仅有两天低于实际交易量或交易金额。

微博指标预测偏差较小且比较平稳,预测结果始终在实际交易情况附近变化,偏差幅度绝对值基本不超过100%;基于股票历史数据的预测结果偏差较大且波动明显,偏差最大值甚至分别超过500%和600%。基于微博指标的预测远远好于基于历史数据的预测。

五、研究结论

本文在对相关文献进行梳理的基础上,通过数据挖掘技术分析微博(weibo.com)上投资者的社会行为,寻求个股微博指标与个股交易信息之间的相关关系,最后使用BP神经网络展开预测,构建股票交易情况预测模型。

研究发现,股票的微博指数与其当日及次日的股票信息都具有相关关系,特别是与股票交易量、交易金额之间的相关性较强,投资者股票交易行为和微博体现的社会行为之间有具有一定联系。借助本文构建的神经网络预测模型,可以利用微博指标对股票交易量及交易金额进行预测,效果远好于以股票历史数据为基础的预测。

因此,本文具有一定的现实意义,对股票市场成交量的变化能起到一定的预测作用,对市场投资者和监管层均有较好的启示意义。然而,基于BP神经网络的预测方法仍然非常粗糙,有待进一步改进,以提高预测准确性,增加实际运用价值。

(作者单位:武汉理工大学管理学院)

[1]韩立岩,伍燕然.投资者情绪与IPOs之谜——抑价或者溢价[J].管理世界,2007,(03).

[2]胡军,王甄.微博、特质性信息披露与股价同步性[J].金融研究,2015,(11).

[3]刘丽文,王镇.投资者情绪对不同类型股票收益影响的实证研究[J].金融理论与实践,2016,(02).

[4]宋彧婕.基于网络信息的金融市场预测研究[D].电子科技大学,2015.

[5]汤姚楠,刘亚臣.基于大数据的城市经济学研究方法思考[J].建筑经济,2015,(12).

[6]王美今,孙建军.中国股市收益、收益波动与投资者情绪[J].经济研究,2004,(10).

[7]许兴军,颜钢锋.基于BP神经网络的股价趋势分析[J].浙江金融,2011,(11).

[8]余志红.投资者情绪对个股收益的预测——来自微博大数据挖掘的证据[D].中南大学,2013.

[9]张兰廷.大数据的社会价值与战略选择[D].中共中央党校, 2014.

[10]Arafat J.Analyzing Public Emotion and Predicting Stock Market Using,Social Media[J].American Journal of Engineering Research,2013,(02).

[11]Bollen J,Mao H,Zeng X.Twitter mood predicts the stock market[J].Journal of Computational Science,2010,(02).

[12]Zhang X,Fuehres H,Gloor P A,et al.Predicting Stock Market Indicators Through Twitter“I hope it is not as bad as I fear”[J].Procedia-Social and Behavioral Sciences,2011,(26).

猜你喜欢

股票交易视网交易量
乐视网、贾跃亭 被处“天价罚单”
乐视网因财务造假被罚2.4亿
探究关联交易背后的乐视网
“委托炒股”型贿赂犯罪法律适用研究*
上半年股票交易印花税约1380亿 创历史最高水平
再论波普尔的“预告的不精确性”
大中华区私募股权
中国股票交易总额对货币需求影响的分析pdf