APP下载

大数据下媒体关注度与股票收益关系研究

2016-04-27王春峰李嘉毅房振明

关键词:数据挖掘

王春峰, 李嘉毅, 房振明

(天津大学管理与经济学部, 天津 300072)



大数据下媒体关注度与股票收益关系研究

王春峰, 李嘉毅, 房振明

(天津大学管理与经济学部, 天津 300072)

摘要:互联网的发展使得市场信息更容易获得,互联网已经成为投资者获取有价值信息的主要途径,也对投资者行为逐渐产生影响。通过自主开发的金融数据挖掘系统,采集了15个网站150多个与股票相关栏目的100余万条媒体报道信息,并能够实现对信息更精细的统计,使得媒体关注度能够在日内按照不同时间段进行细分。在此基础上,研究交易时间和非交易时间媒体关注度与股票收益之间的关系。结果表明,交易时间的媒体信息对部分股票收益率产生显著影响,非交易时间媒体信息影响较小,虽然这种情况目前存在于部分股票中,但随着互联网进一步发展,网络信息将逐步成为需要考虑的风险因素。

关键词:数据挖掘; 媒体关注度; 互联网信息; 百度指数

互联网使人们获取信息的速度比以往更加便捷,也使得不同投资者之间拥有信息数量和质量上的差距在不断缩小,平面媒体的影响力逐渐减弱,个体投资者从以往关注报纸、电视报道转向关注互联网信息。然而,目前我国市场相比发达国家在成熟度上还有差距,普遍认为国内个体投资者缺乏对市场的宏观认识,长期投资较少,市场投机氛围浓厚[1]。此外,个体投资者通过互联网获取宏观经济形势和个股的重要信息,并通过在线的讨论与其他投资者之间交换信息,进而逐步调整自身的投资,媒体对个股的报道也将会对投资者的投资决策产生影响[2]。

在大数据背景下,通过自主建立的数据挖掘和检索系统,对抓取的100多万条数据进行关键词(股票代码+股票名称)检索,将个股相关信息发布量直接作为媒体关注度指标。国外在该领域的研究也处在探索阶段,Vlastakis和Markellos(2012)通过google搜索引擎构建每周个股的搜索量指标,研究信息需求、信息供给与市场波动率之间的关系,并发现搜索量的增加会加剧股票的波动[3]。

网络媒体发布数据的获取难度较大,国内的研究主要基于平面媒体和搜索引擎。张雅慧、付雷鸣(2011)通过搜集富豪排行榜上榜事件,研究上榜前后时间窗口内股票收益情况,发现上榜公司股票收益反而降低[4]。张永杰、张维(2011)利用搜索引擎文本挖掘算法研究了每日开源信息与个股收益率的关系,发现网站信息对部分股票有一定解释力,但解释力随个股差异变化较大[5]。俞庆进和张兵(2012)也利用百度指数观察关键词的检索情况,并通过百度指数数据定义投资者关注,研究发现投资者关注能够引起超额收益[6]。本研究准确获取了网站媒体发布信息的情况,将信息的时间精确度从日度提高到了分钟,可以将交易时段和非交易时段的信息进行准确划分,增加了数据的可信度。进而研究收益率与媒体关注度的关系,并考虑了交易量、换手率等因素的影响,以检验我国市场媒体关注度是否能够作为资产定价因素。

一、 金融数据挖掘系统的构建

互联网的数据挖掘是基于人工智能、自然语言处理、模式识别、机器学习、神经网络等,改进传统的数据挖掘分析技术,从大量非结构化、无结构化数据源抽取关键短语,表示数据的特征,按照数据的特征进行分类、聚类、关联等获得有价值的信息[7]。在此项研究中搭建的金融数据挖掘系统从系统构架上主要有数据层、指标层和应用层(见图1),目前完成了数据层和指标层的搭建。

数据层主要工作机制是:运行爬虫程序,读取网页文档;再对已经获取的数据进行过滤清洗,去掉不完整、重复、错误数据,例如只有标题没有内容的数据;然后对标题、内容、本身数据(浏览量、发布时间等)分别进行存储,使采集结果可以结构化输出。利用分词技术对内容进行分析,提取重要特征,建立索引,便于进行关键词检索。

指标层是在数据层的基础上,确定研究的数据内容,其中设定了媒体关注度、行业关注度、专家关注度等指标,媒体关注度由媒体发布的个股相关信息数量构成,也是此次研究中使用的主要指标。

应用层则是在建立指标层的基础上运用特定算法,对数据间的关联和特征进行分析。数据挖掘是一个高度专业的领域,和金融工程相结合,通过互联网数据进行金融领域的研究可以为预测提供新的工具和途径。

二、 数据与模型设计

1. 样本选择

选取了中证500作为研究的股票样本,中证500可以综合反映沪深股市内小市值公司的情况,选择它作为研究样本主要是考虑大市值公司的各类有关事件、消息发布较多,但可能与股票市场无关,无法准确反映媒体信息对股票收益的影响,而中小市值公司平时相关信息发布较少,一旦有信息发布容易引起投资者注意,进而影响投资者的投资行为[8]。中证500的股票样本中剔除了每月连续10天无交易的股票后,数据样本为490家上市公司,数据包含了股票代码、交易时间、每日成交量、换手率、日收益率,数据均来自国泰安数据库。

样本时间是从2012年1月4日到2012年12月31日,主要是因为数据挖掘系统建立时间较短,虽可进行实时数据采集,但回溯采集历史数据难度较大,加之网站经常进行改版增大了系统采集难度,目前已经采集到2012年1月1日至今的数据,包括中国证券报、财经网、21世纪经济报道等15家主要财经金融网站150多个与股票相关栏目的所有新闻信息,共100余万条数据,信息内容均与股票市场有关。因为主要研究个股的媒体关注度与收益关系,因此为确保检索信息与个股有直接关系,选择了“股票名称+股票代码”的关键词组合对已经采集的信息进行检索统计[9],并按照每日0∶00~9∶00、9∶00~15∶00、15∶00~24∶00的3个时间段进行分类,将15∶00~24∶00的信息并入次日数据,作为第2天媒体关注的个股信息数量。

2. 模型设计

模型设计思路主要是将收益率作为解释变量,利用回归的方法检验媒体关注度与个股收益之间是否存在相关关系,同时考虑了股票市场上与收益率有关的其他因素,如成交量[10]、换手率等。在中国市场上已经有很多实证研究表明交易量与收益率存在显著的相关性,并从个体投资者者与机构投资者博弈、过度投机等角度进行了解释[11]。也有学者验证了换手率与收益率之间有着显著的相关性,并随着股票流通市值的不同而呈现差异,小市值股票的相关性更强[12]。

主要关注收益率(R)、超额收益率(A)、媒体关注度(M)、交易量(V)和日换手率(D)5个市场指标,并构造了2个模型。首先根据张永杰(2011)对资产定价与开源信息关系的研究,检验收益率与媒体关注度之间是否存在显著相关性,并考虑了成交量因素,同时检验了媒体关注度对成交量的解释能力是否有影响。其次,还在考虑成交量、换手率等因素时,将媒体关注度分为交易时间和非交易时间两个类别,观察不同交易时段的媒体关注度与收益率之间的关系。

模型Ⅰ为

(1)

模型Ⅱ为

(2)

(3)

三、 实证结果

1. 数据的描述性统计

此次研究,一共选取了490支股票,时间范围是2012年1月4日到12月31日。首先统计每支股票在一年中产生的信息数量,得到一个个股信息量序列,并进行描述。同时研究每日交易时间和非交易时间信息数量的差异,得到描述性统计,并比较这两个序列与股票信息序列的不同。最后对各支股票日收益率的情况进行了统计,并定性分析产生信息较多股票其收益率是否存在规律或特征。变量描述性指标见表1。

表1 变量描述性统计

从数据的统计情况看,个股年度信息量均值较高,信息的数量较多,但不同股票间差异较大,日度非交易时间信息数量的标准差最大,说明每支股票不同日期在非交易时段产生的信息数量差别很大,但交易时间信息数量的标准差相对较小,即每日该时段信息数量波动较小。个股信息量的峰度42大于正态分布的峰度3,偏度也较大,日度信息数据的峰度偏度都较小,说明个股之间存在较大差异,序列分布具有非对称的特征。

在此基础上还比较了个股日收益率均值与其信息总量之间的关系,发现日收益率最高的前100支股票,一年产生的网络信息数量均值为625.05,而收益率最低的100支股票,该均值为372,低于个股年度信息量的中位数385,其中000750“国海证券”尤为显著,年度产生的信息量为3 443,同时日均收益率为0.005,均为最大值。这些结果从定性的角度揭示了信息数量与收益率之间存在着正向的相关关系,在后面将利用模型进一步探究互联网媒体信息数量与收益率之间的相关性。

2. 与百度指数的比对

媒体关注度指标反映了在一定时间内与个股相关的网络媒体信息数量,假设这些信息被投资者观察到,并对其投资行为产生影响,为了验证这点需要将投资者的关注度与媒体关注度进行对比。如果具有一致的趋势说明两者存在着一定联系,同时也从另一个方面证实采集的数据是真实可信的。由于百度指数的数据无法被直接获取,通过采取抽样的方式对个股关注度进行了检验,发现与媒体关注度变化趋势基本一致。为了说明问题,分别给出年度信息量最大的股票和处于中位数水平的股票进行说明。股票000750和600748的用户关注度见图2~图5。

从上图中可以看到抽取的两支股票虽然产生的信息总量存在较大的差别,但就每支股票对应的投资者关注度来看,基本与媒体关注度的变化趋势一致,这说明两者间存在联系,而且也说明数据具有可用性,能够反映出信息的真实情况。

3. 媒体关注度与收益率关系

从实证的描述性统计分析上看,收益与媒体关注度之间存在着正相关关系,日均收益率高的股票,每日平均媒体关注度也比较高。但实际情况中媒体关注度是否真的会影响股票日收益率?下面将利用模型Ⅰ和模型Ⅱ分别从不同的角度进行检验。在研究中没有进行面板数据处理,而是更多地关注了时间序列下关注度与收益率的关系。

在模型Ⅰ的实证检验中,为了更好地比较媒体关注度的影响,分两步进行了回归检验:第一步,直接对收益率和日交易量进行回归,发现490支股票中有439支表现出显著的相关关系,这点和Karpoff的研究结论是吻合的;第二步,将媒体关注度作为风险因子加入模型中,通过回归发现媒体关注度指标M与个股收益率显著相关的股票数量为20支,仅占所有股票数量的4%,由于数量较少,不能证明媒体关注度与收益之间存在直接的相关性,回归结果见表2。

表2 模型Ⅰ的分步回归结果统计

在模型Ⅰ的基础上对信息进行细分,分别考虑交易时间产生的信息和非交易时间产生的信息与收益率之间的关系,也因此发现了一个值得关注的现象。传统的理论认为,隔夜信息会对第2天的交易产生影响,形成开盘时的价格跳跃[13],但是互联网使得信息的传播速度更快,搜集信息的成本降低,使人们对信息的反映时间更短,当有信息出现时就能快速做出反映。研究一个创新点就在于可以区分当期交易时间与非交易时间产生的信息,从而更清晰地说明当期较高的媒体关注度是否会带来收益。

模型Ⅱ中发现部分股票的收益率与交易时间的媒体关注度显著正相关,但与非交易时间的媒体关注度无相关关系,从表2中可以看出,有159支股票的收益率与其交易时间的媒体关注度显著相关,说明交易时间产生的信息更容易对投资者产生影响,引起投资者关注进而改变其交易行为。同时从描述性统计的结果表1来看,非交易时段的信息量超过了交易时间的信息量,结合模型Ⅰ的实证结果,就容易发现非交易时段的信息多数为噪音,按照交易时间和非交易时间对信息进行划分,使网络媒体报道对股票收益的影响被揭示出来。

从媒体关注度与收益率显著相关的159支股票中选取部分股票作为示例来揭示内在的变化(见表3)。

表3 部分个股媒体关注度模型检验示例

从表3 中可以看出,模型Ⅱ的R2好于模型Ⅰ,说明当对不同时段的信息进行细分时,一部分股票交易时段产生的信息能够解释当日的异常收益,同时也可以观察到交易时段媒体关注与收益率正相关,且显著。而模型Ⅰ中每日媒体关注度与收益率未表现出显著的相关性,这点也与赵龙凯等人的研究结果基本一致[14],即每日关注度指标与日异常收益率之间不存在显著关系。

从以上的研究中发现投资者,尤其是个体投资者在交易时间对各类有关市场和个股的信息更为关注,而在非交易时间主动关注信息较少,这些信息对其影响较小,这也从另一个方面反映了中国市场投资者成熟度不高,缺乏长远投资理念,而更多希望获得利好消息进行短线投资,因此对当期信息更加关注。

四、 结语

在此项研究过程中自主开发了金融数据挖掘系统,利用该系统获得了媒体关注度数据,并通过与百度指数比对,证明了数据的可用性,也证实了研究思路,媒体关注度和投资者关注度具有一致性[15],在此基础上开展了媒体关注度和收益率之间的关系研究。通过研究中证500中小企业股,发现日度媒体关注度与收益率之间目前尚不存在显著的正相关关系,又对媒体关注度在日内交易时间进行了细分,分为交易时间媒体关注度和非交易时间媒体关注度,发现部分股票的交易时段媒体关注度与收益率之间有显著相关性,媒体关注度越高,当期异常收益越高,这是一个重要的创新点,说明部分股票的媒体信息中已经包含了有效信息,能够对投资者行为产生影响,而非交易时间媒体信息对投资者影响很小,这也与中国投资者的投机行为有关。

研究没有采用百度指数来研究,而是从媒体信息的角度出发,对日内的关注度进行更细的划分,发现更多有价值的问题,也希望为信息与资产价格行为之间的研究提供一个全新的视角。国内互联网信息在金融领域的研究也处于探索阶段,此项研究也存在一定的局限性,第一,由于百度指数的不易获得,只能通过抽样的方式对媒体关注度与百度指数进行对比,之间的相关性还有待进一步严格检验。第二,研究对象主要是中小企业股,大公司股票需要进一步研究。第三,主要从时间序列层面进行了研究,而横截面上不同行业或不同特点的股票表现出来的特征将是下一步研究的重点,同时将利用金融数据挖掘系统在投资者关注度层面做深入研究。

参考文献:

[1]张健,刘宪.我国股票市场的投机特征[J].价格理论与实践, 2010(4): 67-68.

[2]Carretta A, Farina V, Martelli D, et al. The impact of corporate governance press news on stock market returns[J].EuropeanFinancialManagement, 2011,17(1):100-119.

[3]Vlastakisa N, Markellosb R N. Information demand and stock market volatility[J].JournalofBankingandFinance, 2012,36(6): 1808-1821.

[4]张雅慧,万迪,付雷鸣. 基于投资者关注的媒体报道影响投资行为的实验研究[J].系统工程, 2012(10): 19-35.

[5]张永杰,张维.互联网知道的更多么:网络开源信息对资产定价的影响[J].系统工程理论与实践, 2011(31): 577-586.

[6]俞庆进,张兵. 投资者有限关注与股票收益[J]. 金融研究, 2012(8): 152-165.

[7]王艳,张帆. 基于Web挖掘技术的信息检索系统设计与实现[J]. 情报学报,2007(3): 643-656.

[8]宋双杰,曹晖,杨坤. 投资者关注和IPO异象:来自网络搜索量的经验证据[J].经济研究,2011(S1): 145-155.

[9]Zhi D, Engelberg J, Gao P J. The sum of all fears: Investor sentiment and asset prices. Ssrn elibrary[J].SocialScienceElectronicPublishing,2010(10): 43-59.

[10] 王燕辉,王凯涛. 股市交易量与收益率的关联分析[J]. 系统工程, 2005(23):59-62.

[11] 郑方镳,吴超鹏,吴世农.股票成交量与收益率序列相关性研究:来自中国股市的实证证据[J].金融研究, 2007(3): 140-150.

[12] 周仁才,吴冲锋.股票收益率对于换手率的影响及其动因[J]. 上海交通大学学报:自然科学版, 2009(4): 537-543.

[13] Chordia T, Shivakumar L. Momentum, business cycle, and time-varying expected returns[J].JournalofFinance, 2002,57(2): 985-1019.

[14] 赵龙凯,陆子昱,王致远.众里寻“股”千百度:股票收益率与百度搜索量关系的实证探究[J]. 金融研究, 2013(4): 183-195.

[15] Rubin A, Rubin E. Informed investors and the internet[J].JournalofBusinessFinanceandAccounting, 2010, 37(7-8): 841-865.

Relationship Between Media Attention and Stock Return Based on Big Data

Wang Chunfeng, Li Jiayi, Fang Zhenming

(College of Management and Economics, Tianjin University, Tianjin 300072, China)

Abstract:Thanks to the development of Internet, market information can be easier to obtain, and investors can get valuable information from it. Thus Internet gradually affects the investors’ behavior. One million media reports which are collected by financial data mining system including 15 websites and 150 columns about stocks could be accurately calculated. In this way, media attention can be subdivided according to different period of time in a day. Based on these researches, the author analyses the relationship between media attention and stock return during trading and no-trading hours. The result shows that media information could significantly affect the return for some stocks during trading hours, while less affect during no-trading hours. Internet information will be the important risk factor with the development of internet, though the state has only occurred in some stocks.

Keywords:data mining; media attention; Internet information; Baidu index

中图分类号:F830

文献标志码:A

文章编号:1008-4339(2016)02-103-06

通讯作者:李嘉毅, ljy@tju.edu.cn.

作者简介:王春峰(1966—),博士,教授.

基金项目:国家自然科学基金资助项目(71271146).

收稿日期:2014-11-25.

猜你喜欢

数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
基于Python语言构建名中医医案数据挖掘平台
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于数据挖掘的学业预警模型构建
基于智能化数据挖掘获取知识的工艺规划系统研究
软件工程领域中的异常数据挖掘算法
高速公路联网大数据挖掘应用探析
数据也“疯狂”——高速公路数据挖掘应用分析