APP下载

股票投资价值的一种基于层次聚类的实证研究

2015-12-15赵丰云王宗威张世涛

巢湖学院学报 2015年6期
关键词:股票聚类分类

赵丰云 王宗威 汪 舜 张世涛

(安徽工业大学数理科学与工程学院,安徽 马鞍山 243002)

股票投资价值的一种基于层次聚类的实证研究

赵丰云 王宗威 汪 舜 张世涛

(安徽工业大学数理科学与工程学院,安徽 马鞍山 243002)

针对上市公司的基本面情况分析,构建了较为全面的综合评价指标体系。定义了上市公司股票间“相似程度”的一种度量,基于该度量提出了一种新的层次聚类算法对样本股票进行聚类,然后通过聚类结果来分析投资价值确定投资品种或范围。最后,选取上证30指数27家上市公司股票进行实证研究,结果表明所提聚类方法对指导证券投资是实用有效的。

股票;相似度;层次聚类;投资价值

1 引言

随着人们金融投资意识日益增强,股市日益成为众多投资者选择。投资者一直以来使用基本面分析和技术分析的方法进行投资决策,这些方法对实践投资中有一定的指导作用,但是在受许多因素影响的上市公司股票市场中,把握准确的选股标准,仅靠这两种分析方法是不够的。通常有效的投资组合均由高质量的股票所构成,如何从拥有众多股票的股票市场中甄别出投资价值优良的高质量股票,一直以来是投资价值分析过程中的一个重要环节[1-2]。一般来说,高质量股票的选取经常依赖股票的分类。股票合理分类实现的难度主要表现在:第一,股票市场数据庞大,计算复杂度较大;第二,股票的评价指标繁多且含义不同,分类的标准难以统一确定;第三,投资者对股票的先验性知识不足,加大选择的主观性。因此,仅通过上市公司的基本面分析和技术分析,投资者很难在有限的时间、有限成本内对上市公司股票进行有效分类,更无从谈起对上市公司投资价值的进一步分析。

近来,一些学者在基本证券投资分析方法(基本面和技术分析)的基础上结合了一些统计方法深入挖掘了股票的投资价值信息,取得了一些有意义的结果。例如,文献[3]应用聚类分析和因子分析对汽车及配件行业的上市公司进行了综合分析,把上市公司区分为蓝筹股、绩优股、一般股和劣质股,与公司的实际情况相符。文献[4]首先建立了完善的综合评价指标体系,然后通过聚类分析模型来确定投资范围和投资价值。文献[5]利用38家中小企业板上市公司会计和财务数据,运用聚类分析和判别分析方法对其盈利、成长和扩张能力进行定量分析研究,并据此归结出整个板块股票的分类及其特点。文献[6]结合核主元分析和K-均值聚类构造核主元聚类方法对上市公司股票进行了分类,并选择了沪深股市中20支上市公司股票来进行实证分析,结果表明聚类方法有效适用,为上市公司股票分类和评估提供了很好的依据。

考虑到在上市公司样本股票容量较大时,无监督学习的层次聚类过程操作简单且可实现程度较高,在一定的时间成本限制内该法对样本股票分类相对有效。基于此,本文试图建立股票间的一种相似性度量,基于该度量运用多元统计分析[7]中的层次聚类算法对上市公司的股票进行分类,通过分类帮助投资者了解并把握股票的总体特征,锁定一定的投资范围,降低投资风险。为了验证本文提出的聚类分析方法在股票市场分析中的准确性及实用性,本文选取上证30指数27家上市公司的股票进行实证研究,基于聚类方法确定最佳的股票投资类别,从而为投资者提供一些投资参考。

2 指标的选择与样本数据的处理

基于上市公司基本面情况,盈利能力和成长性是支持股价的长期因素,也是判断公司是否具备投资价值的根本所在。所以在上市公司会计和财务指标中,选取了较能反映这些能力的5项重要指标[8-9]。列表如下:

在聚类分析前,为消除原始数据量纲和数量级的差异对结果的影响,采用标准差变换和极差变换将指标值原始数据进行标准化,将数据压缩到[0,1]区间上,以便构造相似矩阵。设有n个样本股,m个指标,每个样本股都有m个指标的观测值,设第i个样本股第j个指标的观测值为xij。首先,将第i个样本股的第j个指标值进行标准差变换,即

其次,采用极差变换法将标准差变换后的数据压缩到[0,1]区间上,即

3 基于股票相似分析的层次聚类方法

定义1 两样本股ei与ej的相似度可定义为:

定理1 定义1给出的样本股相似度满足以下性质:

(1)(规范性)0≤ε(ei,ej)≤1;

(2)(自反性)ε(ei,ej)=1;

(3)(对称性)ε(ei,ej)=ε(ej,ei);

(4)(接近性)样本股ei和ej的性质越接近,ε(ei,ej)值越大,反之值越小。

考虑到层次聚类法[11-12]的优势,如,不需要预先制定聚类数,此外,还可发现类的层次关系等。为此,我们基于上述定义的相似度,采用层次聚类算法对样本股票进行分类。

首先,根据定义1计算两两样本股的相似度,得上三角相似度矩阵∏,

若Gp与Gq合并成新类Gr,则任一类Gk与Gr间的类相似度为:

基于类相似度对n个样本股进行层次聚类,具体算法(记为算法1)步骤如下:

步骤1:将每个指标看作一类,共n类,计算两两指标之间的相似度,得初始类相似度矩阵∏,易知ε(Gp,Gq)=ε(ep,eq)。记L(0)=∏。

步骤2:选L(0)中对角线元素以外的最大元素,设其为ε(Gp,Gq),将Gp与Gq合并成新类Gr={Gp,Gq},据式(5)计算新类Gr与其它类Gk(k≠p,q)的类相似度ε(Gk,Gr)。划去L(0)中所在的第p,q行及第p,q列,将新类Gr作为新行和新列,得到新的类相似度矩阵L(1)。

步骤3:由L(1)出发,重复Step2得到上三角矩阵L(2),依此类推,直到s个决策者聚为一个大类为止。

步骤4:绘聚类谱系图,给定类相似度阈值T确定类的个数。

注:若L(k)中最大元素不唯一,对应最大元素的类同时合并,每合并两类,矩阵L(k)降低一阶。

4 实证研究

选取上证30指数中27家上市公司,依据2012年度证券报告查看其各项财务指标。对影响公司股价因素的盈利能力、成长能力指标收集数据信息(数据来源:锐思数据http://www.resset.cn/cn/;截止日期:2012-12-31)并对原始数据进行标准化预处理(方法见本文第二部分)。原始数据见附件中的表1,预处理后的数据见表2。

步骤1:据表2和公式(3)求解上市公司两样本股股票间的相似度,可得相似矩阵∏(略);

步骤2:据相似矩阵∏利用软件Matlab编程实现算法1得聚类树状图(见图1);

步骤3:取阈值T=0.65,据图1可将27只股票分为四类。为方便起见,不妨记表1中序号为i(i=1,2,…,27)的个股代号为ei,则具体分类结果见表3;

为进一步地观察分类个股的盈利和成长能力,计算了每类5个指标值的均值,列表如下:

表3和表4可看出,

(1)在聚类分析中的第4类(14号),综合评价各项指标值的均值相比其他类都很显著,14号对应的青岛海尔,主营家电,地处青岛,投资环境优良;自上市以来,企业的经营业绩保持稳步增长,是市场公认的蓝筹股。

(2)聚类分析中划分为第2类的公司:五矿发展、江南重工、上海石化,受国际能源和资源环境的影响以及内部管理上的不足,这类公司近期既没有规模效益,也没有在主营业务上业绩突出,在投资效益上亏损,近期表现为劣质股的特征。

(3)每股收益、净资产收益率这两个指标是投资者最为关注的指标,它们是衡量公司获利能力和成长性最好的指标。例如净资产收益率,在一定的净资产条件下,能够产生更高的利润,而当公司将利润留存用作发展时,就可使公司的净资产大幅度增加;如果较高的净资产收益率能够维持,公司后续年度的收益将呈几何级数地增长,相应股东的财富也同步增加。因此,第3类公司从股东的角度来看,投资效率较高,表现为绩优股的特征。

(4)聚类分析中划分为第1类的公司,各项综合指标值不是很突出,特别是主营业务收入增长率不足,表明这类公司在行业内发展的态势不明显,规模效益和投资效率突出呈现虚高,表现为一般股的特征。

5 结论

通过对上市公司基本面情况的分析,构建了较为全面的综合评价指标体系,定义了衡量样本股票“相似程度”的度量,提出了一种基于样本股票相似度的层次聚类算法,运用该聚类方法把上证30指数27家上市公司区分为蓝筹股、绩优股、一般股和劣质股,结合公司基本面状况分类分析他们的投资价值。实证表明,本文采用的分析方法为股票的分析和选择提供了一条很好的途径。

[1]李云飞,惠晓峰.基于支持向量机的股票投资价值分类模型研究[J].中国软科学,2008,(1)∶135-140.

[2]Elton E.J.,Gruber M.J.,Brown S.J.,et al.Modern portfolio theory and investment analysis[M].John Wiley&Sons,2009.

[3]柯冰,钱省三.聚类分析和因子分析在股票研究中的应用[J].上海理工大学学报,2002,(4)∶371-374.

[4]周焯华,陈文南,张宗益.聚类分析在证券投资中的应用[J].重庆大学学报,2002,(7)∶122-126.

[5]陶冶,马健.基于聚类分析和判别分析方法的股票投资价值分析——关于中小企业板的初步研究[J].财经理论与实践,2005,(138)∶45-48.

[6]余乐安,汪寿阳.基于核主元聚类的股票分类[J].系统工程理论与实践,2009,(12)∶1-8.

[7]何晓群.多元统计分析[M].北京∶中国人民大学出版社,2012.

[8]严俊,王钟.上市公司投资价值综合评价指标体系及评价[J].数学的实践与认识,2001,(4)∶394-398.

[9]郭显光.上市公司市场价值评价分析[J].数量经济技术经济研究,2001,(11)∶94-97.

[10]白雪.聚类分析中的相似性度量及其应用研究[D].北京∶北京交通大学,2012.

[11]Mirzaei A.,Rahmati M.&Ahmadi M.A new method for hierarchical clustering combination[J].Intelligent data analysis,2008,(6)∶549-571.

[12]Wu J.,Xiong H.&Chen J.Towards understanding hierarchical clustering∶A data distribution perspective[J].Neurocomputing,2009,(10)∶2319-2330.

责任编辑:陈 侃

附件:

AN EMPIRICAL STUDY OF STOCK INVESTMENT VALUE BASED ON HIERARCHICAL CLUSTERING

ZHAO Feng-yun WANG Zong-weiWANG Shun ZhANG Shi-tao
(School of Mathematics,Physics and Engineering,Anhui University of Technology,Ma'anshan Anhui 243002)

A more comprehensive evaluation index system is constructed based on the analysis of the basic situation of listed companies.A measure of the similarity degree on the stocks of limited companies is defined.Based on the measure,a new hierarchical clustering algorithm is proposed to cluster the sample stocks.Then the results of clustering are used to analyze the investment value and determine investment products or range.Finally,empirical studies on 27 shares of listed companies from the SSE 30 Index are carried out.The results show that the proposed clustering method to guide investment in securities is practical and effective.

stocks;similarity degree;hierarchical clustering;investment value

O212.4

A

1672-2868(2015)06-0014-07

2015-03-05

安徽工业大学青年科研基金(项目编号:QZ201018);安徽工业大学大学生创新训练项目(项目编号:201410360094)

赵丰云(1994-),男,安徽阜阳人。安徽工业大学数理科学与工程学院,硕士研究生。研究方向:应用数学。

猜你喜欢

股票聚类分类
分类算一算
基于K-means聚类的车-地无线通信场强研究
分类讨论求坐标
数据分析中的分类讨论
教你一招:数的分类
基于高斯混合聚类的阵列干涉SAR三维成像
本周创出今年以来新高的股票
本周创出今年以来新高的股票
本周连续上涨3天以上的股票
近期连续涨、跌3天以上的股票