基于Web挖掘的新股破发原因探究及预测*
2015-10-20张颖莹李艳红上海财经大学信息管理与工程学院上海200433上海市金融信息技术研究重点实验室上海财经大学上海200433
张颖莹,李艳红(1.上海财经大学 信息管理与工程学院,上海 200433;2.上海市金融信息技术研究重点实验室(上海财经大学),上海 200433)
基于Web挖掘的新股破发原因探究及预测*
张颖莹1,2,李艳红1,2
(1.上海财经大学信息管理与工程学院,上海200433;2.上海市金融信息技术研究重点实验室(上海财经大学),上海200433)
近年来我国创业板股市频繁出现新股破发现象,暴露出创业板市场存在的风险问题。基于行为金融学及有限注意力理论,运用Web挖掘手段和机器学习算法分析股票论坛投资者的文本评论和搜索行为,建立投资者情绪和投资者关注指数,对创业板新股破发进行定量化实证研究。结果表明,除了市场指标、发行指标、机构参与指标和财务指标,从股票论坛和搜索引擎获取的投资者情绪和关注也是影响创业板股票破发的重要因素,据此建立的新股破发预测模型平均准确率达90%。
Web挖掘;新股破发;机器学习;支持向量机;朴素贝叶斯
0 引言
创业板市场是专门为创业型企业融资上市的市场,与主板市场相比,门槛低、风险高。近年来,创业板迎来大面积新股破发的窘境,即新股的上市首日收盘价低于其发行价。破发的损失全部由广大的投资者承担,打击二级市场投资者的信心,不利于新股流通;降低保荐人和承销商信誉度和业务量;影响发行公司信誉,不利于其再融资。探究创业板新股破发成因并对其进行预测具有重大意义。
以往对新股破发问题的研究主要从传统的财务指标和上市公司基本信息出发,未能全面地解释这一现象。互联网上关于上市公司和股民观点的大数据为探究新股破发成因带来了新的思路。本文基于行为金融学和有限注意力理论,利用Web挖掘技术和机器学习算法,从股票论坛和搜索引擎爬取数据进行文本挖掘和情感分析。将建立的投资者情绪和关注指标与传统的金融学指标相结合,全面探究创业板股票破发成因,建立预测模型。本文研究框架如图1所示。实证表明,预测模型准确率达到90%以上,可用于对创业板股票市场行情的早期研判,有助于监管部门提早采取引导措施,避免新股破发带来的危害,推动创业板以及整个证券市场的协调发展。
1 国内外相关研究现状
对新股破发的影响因素,蔡春华认为影响破发最主要的3个因素是每股收益、发行价格和日换手率[1]。肖奇定性地从发行公司、政府、承销商和投资者4个维度去探究新股破发的原因[2]。
在文本挖掘技术兴起之前,对于投资者情绪的度量主要是使用金融市场中其他数据计算得到的间接代表投资者情感的指标,鲁训法选用“每周新开交易账户数”作为反映投资者情绪变化的代理指标[3]。
图1 本文研究框架
有限注意力理论认为存在注意力配置的问题,投资者关注确实会影响其对信息的反应,进而影响决策。WYSOCKI P D发现发帖量能够预测第二天的交易量与异常收益率[4]。
2 影响创业板新股破发的指标体系建立
本文把市场因素、上市指标、机构参与情况以及公司财务状况与投资者情绪和关注相结合,建立起表1所示的指标体系。
表1 指标体系
3 投资者情绪和投资者关注指标计算
3.1投资者情绪指数计算
本文以东方财富股吧作为数据源,爬取45支作为样本的创业板个股上市前后10天的帖子共61 921条,并从中抽取了2 000条进行“积极”、“消极”和“中性”的人工情感标注。用查全率和查准率的综合值f1来比较朴素贝叶斯(NB)和线性支持向量机(LinearSVC)等分类算法的效率,结果如图2所示。最终确定1 500的特征维度下的支持向量机法作为最佳分类器。
3.1.1乐观情绪指数
乐观情绪指数计算公式为:
图3 分类器准确率
3.1.2意见分歧指数
情绪的方差计算公式如下:
意见分歧指标可表示为:
3.2投资者关注指标计算
股票论坛某日发帖量可作为投资者关注的衡量指标,而搜索引擎也是中小投资者获取信息的主要网络渠道。百度在中国平均市场份额远超其他搜索引擎,故选择百度指数作为数据源。对每支个股都将股票名称和股票代码搜索强度加总来描述该股的综合搜索强度。
4 创业板新股破发成因实证分析
4.1样本个股选取及时间范围确定
本文按照与当年上市的创业板新股总量成比例的原则选取了2011年1月25到2014年1月23日之间上市的45支创业板个股。
以股票的首发抑价率作为因变量来衡量创业板新股上市当日的破发程度,抑价率越高,破发的程度越低,计算公式如下:
4.2多元线性回归
4.2.1OLS多元线性回归和多重共线性检验
根据指标体系建立多元逐步线性回归模型,消除模型的共线性和异方差性后,结果如表2所示。
4.2.2多元线性回归结论
创业板指数代表的市场行情与新股抑价率成正比,说明市场行情好的时候股票不容易破发。而在发行指标中,市盈率、首发募集资金以及超募资金均与抑价率成反比,这体现了创业板新股“三高”问题是导致创业板破发的重要原因。限售股的比例与首发抑价率成正比,说明较高的机构参与度往往可以降低股票的破发概率且影响力较大。此外公司本身的盈利情况和资产构成也会影响其是否破发。可以发现网络变量是影响创业板破发的重要因素,首发前5~10天投资者越乐观和关注度越高,股票破发的概率越小。而首发之后的5~10天投资者的情绪和关注对破发的影响大大降低,可能是这段时间内投资者并没有获得更多的新消息。直到上市当天,投资者情绪和关注又会对首发抑价率产生正向影响。当投资者意见存在分歧时,市场的投机氛围弱,股票破发的风险也会降低。
表2 多元逐步回归结果
5 新股破发预测模型
线性回归模型中的显著变量作为特征,以45只个股作为训练集,并以另外20只新股作为测试集,分别以支持向量机(SVM)和朴素贝叶斯(NB)模型建立分类预测模型。采用十折交叉检验的方法,用查全率和查准率的综合值f1作为评价模型准确率的指标。将预测模型与只用传统金融学指标作为特征建立的分类模型进行对比,结果如表3所示。
表3 破发预测模型准确率对比 (单位:%)
6 结论
实证研究中模型拟合优度达到93%,很好地解释了创业板股票破发的成因。市场指标、发行指标、机构参与指标、财务指标、投资者情绪和关注都是创业板破发的重要影响因素。据此建立的新股破发预测模型较传统预测模型准确率从60%提升到90%以上。投资者情绪和关注本身是多因素的综合反映,从这两点入手来研究创业板股票破发问题,开辟了这一问题研究的新视角。
考虑了网络信息后模型拟合优度从57%提升到了93%,说明从网络信息中获取的投资者情绪和关注是影响创业板股票破发的重要因素。基于Web挖掘的预测模型准确率超过90%,可为投资者决策提供参考,减少损失。
根据实证结论给监管部门的建议如下:(1)创业板新股“三高”问题是导致创业板破发的重要原因,要完善创业板股票的发行和定价机制,增加独立中介机构的询价权限,防止机构为了自身利益报价过高;(2)创业板公司需强化信息披露,防止恶意隐瞒其财务和重要信息;(3)网络已经成为股市舆情的重要发源地,有关部门应完善对论坛、搜索引擎等网络平台的监管,加强投资者教育,引导情绪,促进其理性投资。
[1]蔡春华.中国创业板上市公司破发影响因素实证分析[J].现代商业,2013(8):43-44.
[2]肖奇.我国创业板新股破发原因探究[D].成都:西南财经大学,2012.
[3]鲁训法,黎建强.中国股市指数与投资者情绪指数的相互关系[J].系统工程理论与实践,2012(3):621-629.
[4]WYSOCKI P D.Cheap talk on the Web:the determinants of postings on stock message boards[J].University of Michigan Business School Working Paper,1998(98025).
Study on the reason and prediction for IPO underpricing in Chinese GEM based on Web mining technique
Zhang Yingying1,2,Li Yanhong1,2
(1.Department of Information Management and Engineering,Shanghai University of Finance and Economics,Shanghai 200433,China;2.Shanghai Key Laboratory of Financial Information Technology,Shanghai 200433,China)
In recent years,lots of new shares in GEM break on the first trading day,which shows the inefficiency of the IPO pricing in GEM.Based on behavioral finance and limited attention theory,we analyze investors′online review and search queries with Web mining technique,then do empirical study on the determinants for IPO pricing in Chinese GEM from the perspective of investors′sentiment and attention.The result shows that apart from traditional financial factors,investors′sentiment and attention indexes are also important factors influencing IPO underpricing.The accuracy of the prediction model reaches 90%.
Web mining;IPO underpricing;machine learning;support vector machine(SVM);naïve Bayes(NB)
TP399
A
1674-7720(2015)10-0058-03
2015-01-18)
张颖莹(1993-),通信作者,女,硕士研究生,主要研究方向:数据挖掘。E-mail:fjzhzhyy@163.com。
李艳红(1974-),女,博士,副教授,主要研究方向:软件工程。