APP下载

模糊聚类和传统聚类分析在证券市场应用上的比较

2016-09-14谢桂标

福建商学院学报 2016年4期
关键词:股票聚类分类

谢桂标

(五邑大学经济管理学院,广东 江门,529020)



模糊聚类和传统聚类分析在证券市场应用上的比较

谢桂标

(五邑大学经济管理学院,广东 江门,529020)

为探究模糊聚类分析方法在证券投资中是否是一种比传统聚类更有效的指导方法,以16家上市银行为研究对象,分别采用模糊聚类和传统聚类方法对选取的10个重要财务指标进行分析,然后对报告期后三个月各银行股的收盘价按分类结果进行风险和收益分析。结果发现,传统聚类分析中的4种分类方法分类效果欠佳,不能满足特定风险类型投资者的投资要求;而模糊聚类分析的分类结果能满足不同风险偏好投资者的投资要求,减少特定风险类型投资者的选股范围。为获得比较符合客观实际的分类结果和避开在多种传统聚类方法中进行选择,建议投资者采用考虑样本间关联的模糊聚类分析方法对股票进行分析。

模糊聚类分析;传统聚类分析;证券市场

现今证券市场已经成为人们重要的理财场所,但股市有风险,入市须谨慎。面对股票市场里上千支股票,投资者需要细致分析、理性投资才能有效规避风险,增加投资收益。常用的证券投资分析技术主要是基本面分析和技术分析。基本面分析通过研究整个国家的宏观经济政策走向、具体上市公司的经济行为和经营状况来判断公司股票是否值得投资;技术分析则是通过研究股票的指标,如切线、K线等量价走势资料来研判该股近期或长期的走势。对广大投资者而言,宏观经济变动和上市公司的经营运行状况难以被准时准确地把握,技术分析也有可能被“庄家”利用而导致投资者做出错误的投资决策,所以应用这两种方法做证券投资分析操作困难较大,效率不高。为了提高投资决策的科学性和可操作性,不少学者从不同角度及投资策略中研究出一些投资理论和选股方法,聚类分析便是其中一种有效的选股方法。

一、文献综述

聚类分析是一种定量数学方法,根据样本指标的数值特征对样本进行分类,能够辨别样本之间的亲疏关系并将具有一定相似性的样本归为一类[1],从而减少人们的选择范围,提高分析效率。到目前为止,聚类分析方法已经有了很大的发展,在证券市场上应用比较广泛的是传统聚类方法和模糊聚类方法。

传统聚类分析方法最初应用到证券市场时,聚类的股票是随机选择的,并没有考虑行业因素。周焯华、陈文南、张宗益(2002)在非ST、PT股的1062支股票中随机选取50支股票作为样本进行系统聚类分析,结果表明,聚类分析方法能帮助投资者准确地了解股票的总体特性[2]。丁浩(2008)随机选取20支股票,采用类平均法对其进行聚类分析,结果显示,聚类分析能帮投资者准确地把握股票的总体特性,预测股票的发展潜力[3]。后来为了得到更好的分析效果,有学者将聚类分析和其他分析方法联合起来使用。冯伟(2009)将聚类分析和方差分析技术结合,对32支不同行业的股票进行了投资分析[4]。但是不同行业股票的聚类分析对投资者的指导意义不大,因为投资者往往比较关心的是在一个发展前景看好的行业中哪些股票更具有投资价值。有不少学者以行业为分析基础,将聚类分析和其他分析方法结合进行投资分析。马安丽、吴天瑶、马京丽(2013)把因子分析和聚类分析应用到我国文化传媒板块上市公司业绩综合评价上,通过因子分析把选取的18个财务指标降维为6个公因子,然后利用这6个公因子将35家公司通过聚类分析分成5类,其分类结果能为企业债权人、公司管理层以及投资者提供投资和决策的参考依据[5]。郭俊峰(2015)用两步聚类法和系统聚类法对十家计算机行业上市公司的股票进行聚类分析,其研究表明,聚类分析和时间序列分析技术结合是一种新的简单有效的数据挖掘方法,能够较合理地发现投资机会并规避风险[6]。

模糊聚类方法是现今模糊理论应用最富成果的技术之一,在证券分析中,有学者直接运用模糊聚类分析方法将股票进行分类。谭成波(2011)通过对有色金属 9家上市公司的财务状况进行研究,利用模糊聚类方法对9家上市公司进行分类,并按季度指标对其进行动态分析,通过分析分类结果并判断公司的财务状况和经营改变情况,在一定程度上对投资者起到帮助和指导作用[7]。靳大力、姚萌、陈溪(2013)应用模糊聚类分析研究银行业板块的价值错估问题,他们首先对银行业板块中16只个股进行模糊聚类分析,然后以个股60日收盘均价作为排序指标,分析显著远离其分组的个股,为投资者发现具有投资价值的股票[8]。亦有学者根据股票数据的特点,在常用方法的基础上构造新的分析方法,建立模糊相似关系进行模糊分析。许宗燕(2007)在夹角余弦法和海明距离法的基础上构造新方法“夹角余弦+海明距离法”建立模糊相似矩阵,然后进行模糊聚类分析,通过比较分析发现,在构造的相似度函数下聚类结果更具有合理性[9]。除了创新建立模糊关系的相似函数,也有学者将模糊聚类分析与其它分析方法结合,创造新的聚类方法对股票数据进行分析。李星(2012)在灰色系统理论和模糊理论的基础上提出区间灰数的灰色动态聚类模型,通过对12家上市公司进行灰色聚类,并对聚类结果进行分析,发现两种方法的综合应用提高了分类精确度而且分类结果更符合客观现实[10]。

通过以上文献可以发现,传统聚类分析和模糊聚类分析方法在证券投资领域有深入的研究和广泛的应用,在股票分类上都取得了不错的分类效果。然而传统的聚类分析只能对事物做出硬划分,将每个待归类的对象进行界限分明的归类,而经济管理中分类界限往往是不分明的,用传统的聚类方法来分析界限不分明的对象,分析结果会与实际情况有较大的偏离。而模糊聚类能对事物做出科学的软划分,模糊聚类分析考虑了样本分界不明显的特点,通过建立模糊相似关系对样本进行分类,更能反映样本的客观情况[11]。理论上一般认为,在研究界限不明的样本分类中,模糊聚类分析的分类效果会比传统聚类分析更符合实际。

二、聚类结果和分类效果比较

(一)分类对象和指标

本文进行聚类分析的对象是中国证券市场上银行板块的16家上市银行,选择的指标一共10个。每股收益、每股净资产、每股未分配利润这三个指标是股票市场上与股价息息相关的重要指标。每股收益反映获利能力的强弱,收益越高,获利能力就越强;每股净资产代表公司净资产价值,是支撑股票市场价格的重要基础;每股未分配利润反映企业未分配利润与总股数量的比值,每股未分配利润越高,上市公司提供回报的潜在能力也越强。每股净资产和每股未分配利润都是反映上市公司股本扩张能力的重要指标。营业收入和毛利率是两个代表企业成长能力的指标。营业收入是企业取得利润的重要保障,对企业的经济效益有着举足轻重的影响;毛利率是毛利与营业收入的百分比,是判断上市公司是否盈利的重要标准。营业收入和毛利率越高,表明上市公司有较强的成长能力,预示企业未来会有较好的发展前景。加权净资产收益率和摊薄净资产收益率是上市公司盈利能力指标,这两个指标体现了自有资本获得净收益的能力,指标值越高,说明投资带来的收益越高,上市公司有较强的竞争能力和获利能力。经营现金流/营业收入是盈利质量指标。当期收入与现金流入同步,说明盈利质量较高,这个指标的数值越大,上市公司盈利质量和资金利用效果越好。总资产周转率是综合评价企业资产管理效率、资金运营效率的重要指标,周转率越大,总资产周转越快,公司资产运营效率高。资产负债率是财务风险指标,反映上市公司的资产安全性和长期偿债能力。综合考虑与股价关系密切的因素和上市公司的成长能力、盈利能力、资金运用能力及抗风险能力,共选取这10个具有代表性的指标组成上市银行股票的综合评价指标体系进行聚类分析。数据来源于东方财富股票软件上公布的2015年9月30日各大上市银行财务报表。

用stata12.1 对数据进行描述性统计,结果如表1所示。其中var1-var10分别对应指标每股收益-资产负债率。

表1 数据描述性统计

(二)两种聚类方法的分类结果

在投资学中,一般把投资者分成三种类型:风险偏好者、风险中性者和风险厌恶者。据此,把16家不同的银行分成三类,以更贴合投资者的风险特性来进行分析。首先应用模糊聚类分析方法把16家上市银行分成三类。模糊聚类分析的步骤是先对选取的财务指标进行标准化处理,然后建立模糊相似关系矩阵,在此基础上求具有传递性特点的模糊等价矩阵,最后取不同的λ确定不同的分类数。

采用绝对值减数法将数据标准化,将数据压缩到[0,1]区间上,以便构造模糊相似矩阵。绝对值减数法公式如式(1)。根据数据实际情况取c=0.0001,m=10,i、j=1~16,然后运用matlab7.1求得模糊相似矩阵R。

(1)

求得模糊相似矩阵R后,用模糊乘法和平方法计算R对应的模糊等价矩阵B。最后确定λ的值将16家上市银行进行分类。当λ等于0.95时,16家上市银行分成五类;λ等于0.9时,分成三类;λ等于0.855时分为两类。所以λ值取0.9,把16家上市银行分成三类。

应用传统聚类方法将16家上市银行分成三类。传统聚类分析分成两个宽泛的类别,包括划分聚类分析和层次聚类分析。划分聚类分析方法的基本思想是将观察到的样本划分到设定好的不重合的分组中去,常用的是K个平均数的聚类分析方法,通过迭代过程将聚类样本分配到具有最接近的平均数的组。层次聚类分析方法的基本思想是根据一定的标准使得最相近的样本聚合到一起,然后逐步放松标准使得次相近的样本聚合到一起,最后把所有的样本汇集到一个组中[12]。常用的层次聚类分析方法有:最短联结法聚类分析、平均联结法聚类分析、中位数联结法聚类分析、重心联结法聚类分析和ward联结法聚类分析。层次聚类分析方法虽然有很多,但不同方法间最大的不同是类与类之间的距离定义不同。如最短聚类法定义类之间的聚类为两类最近样本的距离,重心法定义两类之间的聚类就是两类重心之间的距离。

应用Stata 12.1对样本进行传统聚类分析。在进行聚类分析之前要先对数据进行标准化处理以消除变量间在数量级和量纲上的不同,标准化后数据的描述性统计如表2。

表2 标准化后的数据的描述性统计

用标准化后的数据进行传统聚类分析,各聚类方法的聚类结果如表3。

表3 聚类结果

续表3

(三)分类结果的比较

在证券投资中,投资者非常关心投资的风险和收益,对股票的深入研究都是希望找到风险小而收益相对较高的股票或收益高而风险相对较小的股票。根据这一投资现象,以各分类的风险和收益的情况来分析分类的效果。股价的方差是衡量股价波动的一个数据,能用来代表股价的风险,收益则能用股价增长率来反映。取上市银行2015年9月29日-12月28日的收盘价进行方差和股价增长率的统计,结果如表4。

表4 各分类的方差和股价增长率

从表4能看出各聚类分析中第一类的方差最小,第三类方差最大。这是因为在表4的分类中将分类的结果进行了便于分析的编排。如在表4中,用重心联结聚类分析兴业银行在Stata的分类类型是第三类,但为了方便比较,根据其股价方差的大小将其排在第二类。这个重新编排只改变了各类的分类类别,并没有改变各类内的对象,对分类结果没什么影响,而且有利于观察比较各分类的方差和收益情况。

表4中可以看出,模糊聚类分析和K个平均数聚类分析方法的分类效果比较好,因为在三类中第一类方差最小,股价增长率也最小,第三类的方差最大,股价增长率也最大,能体现低风险低收益、高风险高收益的特点。在层次聚类分析方法中,四种将兴业银行归为单独一类的分析方法的分类效果都不太理想,第三类的风险比第二类大而收益却比第二类小。而ward联结聚类分析的分类效果则比较好,能很好地划分不同风险类型的股票,并且收益也随着风险的提升而增加。ward法的基本思想来自方差分析,分类的结果使同类样本的离差平方和较小,类与类之间离差平方和会比较大[3]。ward联结聚类分析的分类效果比较好跟其分类原理有关。

四、结论

从表4的分析中可以看出,模糊聚类分析方法能将股票分成风险类型不同的三类,而且这三类股票对应的平均收益跟其风险有关,风险小的收益小,风险大的收益大。这样的分类能满足不同风险偏好的投资者的投资要求,减少特定风险类型投资者的选股范围。传统聚类分析中比较常用的方法有6种,其中分类效果较好的是K个平均数聚类分析方法和ward联结聚类分析方法。其它四种分类方法的分类结果显示第三类股票风险较大其收益率却小于风险较小的第二类股票的收益率,这样的分类不能满足特定风险类型的投资者对收益的要求,所以分类效果欠佳。

由以上分析可以看出,模糊聚类分析和传统聚类分析在证券市场上都可以取得符合投资者投资特性的分类结果,但模糊聚类分析方法比传统聚类分析在应用上会更有效率。主要是因为传统聚类分析方法在具体常用的方法上选择较多,并不是所有的常用方法都能取得较好的分类结果,投资者需要花费一定时间去选择一个合适的方法。但本文发现,若要按照投资者风险特性来分类,ward联结聚类分析和K均值聚类分析方法是传统聚类分析方法中两个能取得较好分类效果的分类方法。ward联结聚类分析适用于多因素、多指标的分类。该方法基于方差分析的思想以欧式距离作为标准,先将每个样本自成一类,然后计算类重心间方差,将离差平方和增加的幅度最小的两类首先合并,直到所有的样本归为一类为止。ward联结聚类方法的类与类之间的离差平方和较大,在一定程度上能较好地区分风险特性不同的股票。K个平均数的聚类分析方法要求在聚类分析之前要先指定样本聚类的精确数目,本文根据投资者风险特性的不同将分类数确定为3类,对应地分类样本也能比较符合实际情况地分为3类,所以应用K个平均数的聚类分析方法的分类效果也比较好。

从聚类过程中也能看到,模糊聚类分析过程中考虑了样本之间的关联,而传统聚类分析则没有。模糊聚类分析过程中建立的模糊相似矩阵就是16家上市银行模糊相似关系的矩阵表示。 建立模糊等价矩阵是为了建立模糊等价关系进行聚类,并不改变样本之间的性质,在分类过程中根据样本亲疏程度和相似性来判断分类,分类结果会比较符合实际情况;传统聚类则把样本看成点,测算点与点之间的距离来衡量样本间的相似程度,没有考虑样本之间的联系,类别的划分界限分明,分类结果相对来说会与实际情况有一定的偏离。经济管理中的分类界限往往不分明,证券市场上同行业的股票之间界限也有很大程度的模糊性,建议投资者在用聚类方法进行证券分析时采用模糊聚类分析方法,因为模糊聚类分析的分类结果通常比较符合客观实际同时又可以避免在传统聚类方法中花费成本选择合适的方法。根据投资者关注投资风险和投资收益的特点利用风险和收益检验分类后的分类效果是本文的一个创新点。本文也存在一定的缺陷,只选取报告期后三个月的股票收盘价进行分析,而聚类分析是对股票价值的长期挖掘,用短期的股价检验可能未能体现聚类分析对股票长期投资价值的分类效果。

[1]李庆东. 聚类分析在股票分析中的应用[J]. 辽宁石油化工大学学报,2005,(03):94-96.

[2]周焯华,陈文南,张宗益. 聚类分析在证券投资中的应用[J]. 重庆大学学报(自然科学版),2002,(07):122-126.

[3]丁浩. 数据挖掘技术在证券分析中的应用研究[D].武汉:武汉理工大学,2008.

[4]冯伟. 聚类分析在金融数据分析中的应用研究[D].大连:辽宁师范大学,2009.

[5]马安丽,吴天瑶,马京丽.我国文化传媒板块上市公司业绩综合评价—基于因子分析和聚类分析[J].西安工业大学学报,2013,(9):737-746.

[6]郭俊峰. 聚类分析下的股票投资价值挖掘研究[D].大连:大连海事大学,2015.

[7]谭成波. 用模糊聚类方法分析企业经营财务状况及股票价格波动[D].济南:山东大学,2011.

[8]靳大力,姚萌,陈溪. 模糊聚类分析对银行业板块的估值评价[J]. 赤峰学院学报(自然科学版),2013,(11):58-60.

[9]许宗燕. 混沌与模糊理论在股票数据分析中的应用[D].天津:天津工业大学,2008.

[10]李星. 模糊聚类与灰色聚类在我国证券投资中的应用[D]. 株洲:湖南工业大学,2012.

[11]谢季坚,刘承平.模糊数学方法及其应用[M].武汉:华中科技大学出版社,2015.

[12]张甜.Stata统计分析与行业应用案例详解 [M].北京:清华大学出版社,2014.

(责任编辑:杨成平)

Comparison of Fuzzy Cluster Analysis and Traditional Cluster Analysis in Application of Securities Market

XIE Gui-biao

(Economics and Management College, Wuyi University, Jiangmen 529020, China )

This article studies 16 listed banks, uses fuzzy clustering and traditional clustering methods to analyze 10 important financial indicators, and then makes risk and benefit analysis on the closing price of bank shares in three month after reporting period according to the classification results. The result shows that traditional clustering analysis methods can not meet the investors’ investment requirements, while classification of fuzzy clustering analysis can meet the requirements, and reduce risk investors’ stock range for the particular type. In order to obtain more objective classification results and avoid choosing among traditional clustering methods, it’s recommended for investors to make fuzzy clustering analysis to study the stock.

fuzzy clustering analysis; traditional clustering analysis; securities market

2016-05-22

谢桂标(1992.10—),男,广东云浮人,研究生。研究方向:金融工程。

F830.91

A

1008-4940(2016)04-0001-07

猜你喜欢

股票聚类分类
分类算一算
分类讨论求坐标
数据分析中的分类讨论
基于DBSACN聚类算法的XML文档聚类
教你一招:数的分类
本周创出今年以来新高的股票
本周创出今年以来新高的股票
本周连续上涨3天以上的股票
近期连续涨、跌3天以上的股票
基于改进的遗传算法的模糊聚类算法