模糊聚类分析在股票分类中的应用
2017-07-20胡晓阳
◎胡晓阳
模糊聚类分析在股票分类中的应用
◎胡晓阳
对事物进行评价首先需要确定参考系,目前对股票进行评价的参考为历史数据以及专家建议。本文评价股票的角度选择为所选样本股票,通过选定股票的走势来预测与其相似度较高的股票的走势,获得相似度的方法是模糊聚类分析技术,数据处理工作利用MATLAB软件来完成。同时创新对指标的选取,本文从股票的表现情况与公司的财务情况两个角度各选取五个侧重点不同的指标,能够较全面地反映股票整体表现情况。
我国可供交易的股票数量与日俱增。另一方面,评价股票的指标侧重点各不相同。模糊聚类分析能够对各个指标进行综合考量,比起只用一类指标进行判断所得到的结果更加的科学。同时,模糊聚类分析可以得出股票之间的相似程度,相似程度越大的股票,出现相同走势的概率越大,又因为个股对影响股市的事件敏感程度是不同的,那么就可以借助已经做出反应的股票对其相似度较高的股票进行预测。
本文首先选择模糊数学理论中最适合对股票进行聚类分析的方法,通过上市公司的基本数据,并选择两类侧重点不同的指标,分别对所选股票进行聚类分析,得到动态聚类结果进行分析。
模糊聚类的步骤
数据标准化方法。选择出所要分类的股票之后,将指标写出构造成矩阵的形式即:
本文运用平移·极差变换即令:
模糊相似矩阵的建立。本文选择倒数距离法用于建立模糊相似矩阵。
从整体来看,该方法逻辑较为简单,不需要太多的人为工作,尤其是其具有递归调用的特性,那么在对数据进行处理时,所用算法在程序编写上相对容易些,因此本文采用该方法进行聚类。
聚类指标的选取
股票行情会受到诸多因素的影响,同时对股票价值进行评判的指标之间各有利弊。为了能更全面客观地反映股票的情况,本文从两个角度出发,选取出了十个指标用于对股票的聚类分析。
股票表现指标。本文从股票的盈利水平,发展潜力,风险情况三个方面选取了五个较为常见且具有长期参考价值的指标进行分析研究。分别为市盈率、市净率、净资产收益率、每股未分配利润和每股经营现金流。
财务数据指标。本文从考察公司的盈利能力、成长能力、运营能力和财务风险四个方面分别选取指标,以对上市公司的整体情况进行比较判别。分别为:净利率、毛利率、营业收入增长率、总资本周转率和资产负债率。
表1 表现指标动态聚类
图1 动态聚类图
实例应用
本文选取的20只股票以中小盘股为主,按所划分的两个层次分别进行聚类分析。
表现指标动态聚类。
原始数据见表1。
经MATLAB处理后得到动态聚类图。
财务数据动态聚类。
原始数据见表2。
得到动态聚类图。大其准确度越高。在两个层面上的聚类结果越相近其准确度越高。其中纳尔股份与北化股份在股票层面上当λ=0.6138时可认为是一类。在财务层面上当λ=0.7562时可认为是一类。两个层面的λ值都比较大,取平均值后即有68.5%的概率认为纳尔股份和北化股份有相同的走势。
在图上也可以看到,若想得到有效的分类数,需要选取的值较小,而且大部分股票集中于一类之中。在两个层次下的分类都存在有不同类别的股票之间差异比较悬殊,各类所包含的股票在数量上的差异比较明显的现象。本文猜想可能是由于选取的这20只股票所处类别的情况恰好比较
表2 财务数据动态聚类
图2 动态聚类图
从两张图中λ值的分布情况来看,可以看到在两个层次下小范围内存在有相似度较高的两只股票或多只股票。另外,由于股票对各类影响行情的因素的敏感性是不相同的,那么就存在借助其中一只股票的走势预测与它相似度较高的另一只或几只股票的理论基础。在同一层次下λ值越符合正态分布的,即大部分股票的表现处于平均水平,表现优异的和表现特别差的数量均比较少所造成的。从本次研究中也可证明股票的表现情况之间差异还是非常大的,各个指标完全相似的情况不太可能。
(作者单位:河北省黄骅市北斗星电脑有限公司)