APP下载

掘金“舆情”

2015-09-10吴丹

21世纪商业评论 2015年3期
关键词:舆情因子股票

吴丹

如果有一天,基金经理告诉投资者,媒体的页面点击量、公司的正面或者负面报道、股票在微博上的讨论等因素会对其所购买的基金产品收益率产生一定影响,投资者会作何反应?这类基于大数据的互联网基金产品,已在羊年问世。

2014年,资产管理规模超过2000亿的南方基金,联合新浪财经和深圳证券信息公司,编制了南方—新浪大数据100指数、大数据300指数(下称“i系列指数”),在深圳交易所挂牌。羊年新春刚过,备受市场关注的大数据指数基金——南方大数据100指数基金正式获批,该基金追踪i100指数。数据显示,截至2015年3月3日,i100指数今年以来上涨15.14%,近一年上涨69.06%,而拉长时间来看,近三年年化收益率达到53.44%。

无独有偶,广发基金早些时候曾联合百度及中证指数公司推出百发100指数。基金公司热衷推出大数据指数,或许意味“宝宝类”货币基金产品简单拼渠道、拼流量的时代已入尾声,进行大数据挖掘的互联网金融大幕正徐徐开启。南方基金内部人士告诉《二十一世纪商业评论》(简称《21CBR》)记者,媒体统计数据与权益类指数的结合,在国内外都是一个新领域,目前国外尚无类似的指数上市,中国可能是全世界第一个发行上市这类指数型基金的国家。

基于大数据的i系列指数,包括纯价格指数和全收益指数,纯价格指数通过深交所行情系统发布实时行情数据,全收益指数通过巨潮指数网发布收盘行情数据。南方基金发布的i系列指数是建立在近年投资界颇为流行的Smart Beta模型之上,其最大特点是通过从媒体处获得的公司文章点击数、内容褒贬等数据,将其作为市场情绪反应的大数据因子,并加入到整个指数的考量之中。

股票市场的恐慌程度历来是重要的投资判断依据,核心问题在于恐慌程度如何进行量化。美国有一个大名鼎鼎的波动率指数——芝加哥期权交易所波动性指数(VIX),是美国芝加哥期权交易所在1993年设计的一款产品,制作原理是金融机构将大量期权交易的定价收集起来,而期权定价很大程度上反映对未来收益率波动的预期,由此推演出金融市场各参与群体对未来股票的涨跌预期,因此也称“恐慌指数”。

恐慌指数问世之初,成交量很小,到2014年,这款波动率指数的期货交易量已经超过标普500指数本身,表明投资人对市场情绪的关注已超过对标普500指数本身的关注。而i系列指数则是使用媒体对公司的报道作为市场情绪或恐慌程度的反映。

在构成上,大数据系列指数样本股分别由在深圳证券交易所、上海证券交易所上市的100只、300只A股组成,入围标准是首先剔除ST、*ST的A股,再需要有一定上市交易日期,一般为一年以上。南方基金内部人士告诉《21CBR》记者,需要上市满一年是为数据量足够充分,不然大数据平台分析偏差会很大;其选样方法是对样本空间的股票,按照财务因子、市场驱动因子、新浪大数据因子3项得分进行模型优化,然后将计算的综合得分从高到低排序,选取排名在前100名的股票构成大数据100指数初始样本股,排名在前300名的股票构成大数据300指数初始样本股。该人士表示,初始样本股选出后,会由专业人士综合公司的行业代表性、所属行业发展前景、盈利记录等,在综合得分排名相似的情况下,优先选取指标优良的上市公司股票作为样本股。

那么,三大关键因子如何计算得分呢?i系列指数中,最有特点的新浪大数据因子得分根据新浪财经频道股票页面访问热度计算单个股票的热度得分、根据财经频道新闻报道正负面影响计算单个股票新闻报道得分、根据股票在微博的正负面文章影响计算其微博得分,综合上述得分并根据历史回测优化结果作为大数据得分。

在财务因子得分上,指数编制者则计算最新市盈率(PE)、净资产收益率(ROE)、年度营业收入同比增长率、年度净利润同比增长率,剔除PE、ROE排名靠后的股票,剔除营业收入同比增长为负和年度净利润同比增长为负的股票;计算主营业收入和净利润同比和环比预测结果增长相对上期该指标的幅度变化,作为业绩加速得分,通过因子模型计算上述得分作为财务因子总得分。至于市场驱动因子,则计算该股票最近一个月股票换手率、波动率、价格变化率、流动性因子,通过量化因子模型计算得分作为该因子的总得分。

大数据指数在筛选因子时会重点考虑因子的若干属性,比如超额收益、稳定性、行业属性、普适性、易算性,以及因子的内在解释逻辑。根据过去历史的表现衡量各指标,再综合选出比较有效的因子。南方基金内部人士以超额收益和稳定性两个指标为例,如果一个因子A平均超额收益有5%,但是波动为3%,另一个因子B超额收益4%,而波动只有0.5%,指数综合超额收益和稳定性两个指标就会倾向于选择A因子。

类似i系列指数在因子中引入媒体报道反映投资者情绪的指数在中国尚属罕见,其作用到底如何?某全球性指数公司的资深专家告诉《21CBR》记者,这种类型的指数需关注两个关键点:一是要剔除传统的财务因子等因素,单纯看大数据因子对整个指数的影响;二是要仔细分析大数据因子的内核构成,比如到底如何将正负面报道与指数的相关系数结合起来,恐慌程度与媒体报道的关系、个人投资者的参与度、是否较交易所过往的交易数据更具有参考价值等,最好都能对投资者进行一个论证。

大数据指数有一个不可回避的阿喀琉斯之踵——指数太新,导致客观的历史数据不足。回顾A股指数如上证综指、深证成指,均有20余年历史,超过了中国互联网发展史,即便是沪深300等跨市场的指数也有接近10年的历史,而i系列指数的回溯历史不到5年;另外,由于指数采用等权重(赋予每个指数成份股相同的权重)的构成方法,整体上偏向中小盘股票的表现,南方基金的i系列指数更代表了民企和中小盘市场。

该专家告诉《21CBR》记者,对于大数据指数编制者而言,还有一个难点是如何将传统量化投资和新浪财经大数据有机整合,进行大数据深度加工,比如因子库中有大量的因子指标,如估值、成长、质量、事件、成长预期等,不同指标与大数据因子的相关性研究、互补性研究,各种指标组合下的逻辑解释,需要编制者进行深入研究,能否为投资者带来持续的超额收益,也有待验证,但仍不失为一种宝贵的尝试。

值得注意的是,i系列指数中最别致的“新浪大数据因子”部分取决于新闻报道,能否向媒体提供实施新闻监督的良好环境,其实直接关系到报道是否客观反映投资者或者市场对样本股的真实情绪。

猜你喜欢

舆情因子股票
一类常微分方程的解法研究
直径不超过2的无爪图的2—因子
图的齐次因子分解
巧解难题二则
消费舆情
本周创出今年以来新高的股票
本周创出今年以来新高的股票
本周连续上涨3天以上的股票
近期连续涨、跌3天以上的股票
月度最热舆情事件榜11月