数据挖掘技术在股票数据分析中的应用
2022-06-04黄海波
黄海波
数据挖掘技术是一种从数据本身进行考虑的分析技术,能够对数据进行科学分类、数据估计、分类预测、关联分组以及时序数据列序模式挖掘,通过一系列的挖掘流程运用,得出更加具有价值和意义的数据,为决策提供良好的支持。数据挖掘技术在股票数据分析当中也具有一定的應用价值,数据挖掘技术在股票数据分析中应用,需要深入不同类别算法的特点和算法,从而发挥其运算优势,得出更加准确地股票数据分析结果,为股票投资提供更加可靠的依据。
数据挖掘技术是一种先进的数据处理手段,能够通过计算机算法的应用,对数据完成收集、清理、变换等操作,在挖掘运算中实现数据的科学分析,从而挖掘有价值的数据内容。数据挖掘技术在很多行业上都有良好的应用,包括市场分析、价格变动等,而股票数据作为一种具有多样性、隐蔽性特点的数据类型,在预测上难度更大,利用数据挖掘技术的优势为股票数据进行分析,也可以进一步提升其数据分析的准确性,从而为股票投资提供有效的帮助。当前很多股票数据分析中通过引入数据挖掘技术的优质算法,实现对股票上市公司的股价涨跌情况预测,并进行走向趋势分析。而数据挖掘技术中不同算法的应用也存在一定区别,只有深入了解股票数据的特点,对算法进行合理的选择与优化,才能够保证其分析结果的准确性。
数据分类
数据挖掘技术具有数据分类功能,可以根据数据的关联性和数据特征等,对数据进行科学分类。数据挖掘技术的数据分类功能一般需要遵循一定的原则和要求,比如将数据集合的一个特征或者与其他相似特征相比较,并根据其类别的异同进行合理分类,数据分类越准确,数据挖掘技术的应用效果通常也越好。
数据估计
数据挖掘技术具有数据估计的功能,可以根据样本数据集的模式进行关键数据解释,并进行科学的数据估计。数据挖掘技术中运用了智能化算法对数据进行分析和处理,在这一过程中能够对数据的属性和特征进行分析,并通过其关联性推测和获取某一未知特性,进而完成数据估计。
分类预测
数据挖掘技术能够进行分类预测,通常是通过历史数据的挖掘,通过模型样本的构建,并通过样本数据集的模型分类,进而完成分类预测,决策树、神经网络等都是其中比较常用的算法。
数据关联分组
数据关联分组可以将相关性较高的数据归为一组,进而构建更加科学的关联群组,高效快速汇总某一类数据信息,提高数据分析能力。
时序数据列序模式挖掘
数据挖掘技术中时序数据列序模式挖掘也是比较重要的内容,指通过时间序列模式采集样本,并根据时间序列进行样本数据的分析,从而推测数据在未来可能发生的变化状态,对于股市走向、股价变动预测具有重要的意义。
确定挖掘对象
确定挖掘对象是数据挖掘技术的首要任务。数据挖掘技术通常作用于各类数据分析,明确数据分析的目的和意义,以此为基础选定挖掘对象是极为重要的内容,数据挖掘通常需要遵循相应的流程,由于挖掘结果具有不可预测性,因此明确的挖掘对象通常是尽可能保证结果科学性与合理性的重要条件。不同类别的数据挖掘在挖掘对象选择中需要进行特定的分析,比如在股票数据分析中,挖掘对象通常为股票历史价格、上市公司财务数据等与预测结果具有一定关联性的数据内容,而在实际进行挖掘对象选定中,还需要技术人员结合业务领域、工作经验等进行综合分析,保证挖掘的有效性。
收集数据
收集数据是数据挖掘技术应用的重要条件,在这一过程中需要对各类相关数据进行全面收集与合理甄别。收集数据过程并不是将所有无意义数据进行汇总,在数据收集中需要遵循一定的规则和原则,为了保证后续数据挖掘中运算效率的提升,应该加强对无效数据的筛选和优化,尽可能的在收集数据的阶段保证数据的价值,从而提升后续挖掘效率,保证数据与目标信息的相关性,更有效的完成数据分析工作。比如股票数据分析中,收集数据中应该结合本次数据挖掘所采用的算法,对其相关指标数据进行收集,对与本次数据挖掘相关性较低的数据进行筛选,以便后续更高效的开展数据挖掘工作。
数据预处理
数据预处理是数据挖掘技术的重要流程。当完成数据收集工作后,并不意味着可以立即将数据导入相应的算法中进行运算,由于收集到的数据在内容上比较复杂,格式上未必完全同意,因此还需要对数据进行预处理,进行数据转换以及错误剔除等一系列工作。数据预处理是将各项指标转化为统一度量后,便于后续信息数据挖局的操作,在这一过程中需要将数据从高维空间转换到低维空间,完成数据的归一化处理,并且对错误数据加以剔除,减少后续数据挖掘中的负担,更好的提升数据挖掘的质量。
数据挖掘
数据挖掘技术中正式进行数据挖掘需要运用到挖掘的有效算法。目前数据挖掘算法中,神经网络、遗传算法、决策树算法、粗集法、模糊集法等,都是比较常用的操作方法。数据挖掘算法的选择对于数据挖掘结果的准确性具有一定影响,因此在进行数据挖掘时,需要关注对数据类型和挖掘目标的合理分析,在特定的时候运用特定算法解决问题,保证数据挖掘的科学合理性。
信息解释
信息解释是数据挖掘流程的重要步骤。数据挖掘技术所得到的结果通常为一连串无意义的数字,只有在进行信息解释后,才能够得出最终的结论,因此信息解释工作流程必不可少。当数据挖掘完成后,需要选择简单、明了的图表模式,对挖掘结果进行展示,并且结合文字叙述等方式对挖掘得到的数据结果进行科学分析,提升挖掘结果的价值性。
关联规则的应用
关联规则是数据挖掘技术中比较常用的操作方法,能够通过不同事物之间的关联和依赖性分析,找寻不同特征之间的影响力,从而保证数据分析结果的准确。关联规则在股票数据分析中具有良好的应用,通过关联规则的利用能够帮助投资者进行股票相关数据的分析,输入股票上市公司营业总收入同比增长率、上市公司总资产净利率、公司负债合计、总资产周转率以及经营活动产生现金流等各类数据,运用关联规则对上述数据内容进行分析,探究其与股票上涨或下跌的关系,即可更好的对股票上市公司的股价走向进行分析。在现实应用中,想要确定股票上涨关联度较高的指标,需要对关联规则进行有效分析与合理应用,由于股票上市公司数据属于连续性变量,在挖掘关联规则时,往往无法直接挖掘,因此需要根据相应的规则和流程进行数据的预处理。对上市公司财务指标频繁项集以及规则数目进行数据收集,并且采用离散化处理方式进行处理。去除收集数据当中的噪声数据、重复数据以及不完整数据等,用得到的价值属性较高的数据开展下一轮的深层数据挖掘分析,从而计算各类平均值。关联规则的数据分析中,得出各项指标平均值后,可以通过比较平均值与股票数据,将大于平均值和小于平均值的股票数据进行字母转化,并利用筛选的方式进行涨跌划分,从而选定上涨关联度高的指数。在相关研究中,股票上市公司营业总收入同比增长率、上市公司总资产净利率、公司负债合计等,都是与其股票涨幅相关的指数,应该在股票数据分析中引起足够的重视。
决策树的应用
决策树是数据挖掘中常用于进行预测模型的算法,能够将大量数据有目的分类,从而找到具有价值的信息,具有分类简便、速度快等优势,决策树算法在股票数据分析中也具有良好的应用价值。运用决策树算法可以對上市公司股票进行简单快速的分类,通过涨跌值的评估分析,选择优质的股票池,从而进行投资。决策树在快速筛选股票种类中具有良好的效果,但为了保证股票数据分析的准确性和有效性,在决策树的具体应用中同样需要注重算法的优化,合理进行股票数据集指标特点的分析,进行信息增益计算,利用信息熵以及增益值等计算结果为数据分析提供良好条件。股票数据信息熵计算一般需要根据其数据集合进行运算,在得出信息熵的计算结果后,然后完成信息增益值计算,而后对股票数据指数中增益值进行比较,尽可能选择增益值大的指数作为决策树的根节点,为后续决策树的发展奠定良好基础。在同类型研究中,利用决策树进行上市公司股票信息增益值计算,结果显示,信息增益值量最大的是总资产净利率。因此在进行决策树构建时,可以考虑将总资产净利率作为根节点,根据其取值不同进行子集划分,而后完善本枝上的叶节点,并以其他股票指标作为决策树分枝,依次完成决策树的构建。决策树能够通过相对简便、快捷的方式对股票进行分类,运用算法的优势为投资者选择优质股票,从而实现资产收益的优化。
聚类算法的应用
聚类算法也是数据挖掘技术中具有良好分类作用的一种算法,能够根据一定的分类规则对数据进行分类,从而实现对资产聚合构造的优化,更好的完成数据的分析,在股票数据分析中聚类算法的应用效果也比较好。聚类算法是一种并没有事先确定物体类别的分组方式,聚类算法在分类规则上更加具有自主性,可以根据自己定义的规则进行数据特征的划分,将不同事物根据其特征进行分类,而后进行数据的挖掘,在聚类算法应用中聚类组内的数据越接近,组间差异越明显,其聚类结果也越准确。目前比较常用的聚类算法有K均值、EM算法、DBSCAN等,在进行股票数据分类时,通常会考虑与股票涨跌相关的财务指标等作为分类集合。而在具体进行如现金与约当现金、应收款项、存货、非流动资产、应付款项、负债占资产比率等不同指标聚类运算时,则需要根据其财务指标的范围、度量单位等进行有效研究,在保证各项指标转化为统一度量后,再进行聚类划分,这样能够更好的提升聚类算法的准确性。聚类算法用于股票数据分析,可以通过数据标准化处理,将各类数据指标进行运算,通过聚类方式的应用让优质股票聚类,从而为投资者提供更加准确股票投资指导,提高股票预测的价值。
神经网络的应用
神经网络是数据挖掘技术中应用价值极高,能够为各类数据提供系统分析的算法类型,神经网络具有鲁棒性、自组织自适应性、并行处理以及分布式储
存等优势,能够帮助数据挖掘进行分类、预测以及模识别等各种优质活动。神经网络技术在股票数据分析中也具有良好的应用效果,是现阶段用于分析股票变化趋势的有利条件,神经网络可以通过导入股票历史价格,通过非线性变化趋势的分析与储存,对股票的未来走向进行预测。神经网络对股票价格变化趋势的分析是相对科学的,在利用神经网络技术进行数据挖掘时,需要在神经网络输入元中进行开盘价、最高价、最低价、收盘价、成交量、成交额、移动平均线等数据的输入,需注意由于神经网络数据分析上的特点,在进行原始数据输入时,一定要注意数据的归一化处理,完成数据预处理后再应用神经网络进行分析。而通过神经网络运算,能够在网络输出元得到预测的股票收盘价,从而实现股票走势的预测。神经网络算法中,各类分析预测的神经网络模型可靠性与先进性,是保证其准确性的重要条件,art模型、koholon模型、hopfield的离散模型、连续模型等都是神经网络算法中比较常见的类型,而在股票数据预测中,有研究选用了BP神经网络模型进行运算。BP神经网络是一种包含隐含层数、隐含层数单元数和其他参数的设定环节,将股票相关数据导入BP神经网络中进行运算,并将输出结果代入MATLAB系统,可利用系统计算其股票价格预测结果。而研究结果显示,BP神经网络在股票价格走势预测中有良好的效果,但为了进一步减少误差,仍需要进行算法的不断优化,提升其精度。
数据挖掘技术在各行业发展中都有较高的应用价值,而在股票数据分析当中也具有良好的前景。数据挖掘技术能够对股票上市公司数据进行深挖,综合分析其公司总资产净利率、公司负债合计、总资产周转率以及经营活动产生现金流等各类与股票涨跌具有相关性的内容,通过数据的处理与分析得出更加准确地股票的上涨下跌情况,预测股票发展趋势。数据挖掘技术中,关联规则、决策树、聚类算法以及神经网络等技术的应用,能够通过算法优化,帮助进一步提升其数据分析的准确性,发挥数据挖掘技术的优势。
(重庆交通大学数学与统计学院)
参考文献:
[1]张雪英.软件工程中数据挖掘技术研究[J].网络安全技术与应用,2022, 17(04).
[2]薛阳.经济统计中数据挖掘技术应用分析[J].质量与市场,2022,03(03).
[3]阿不都艾尼·阿不都肉素力.计算机数据挖掘技术的开发及其应用研究[J].电脑知识与技术,2022,18(03).
[4]王颖颖,晁绪耀.数据挖掘技术在股票数据分析中的应用研究[J].科技创新与生产力,2021,25(10).
[5]李思佳.基于Python的股票数据可视化分析——以新能源汽车行业为例[J].河北软件职业技术学院学报,2021, 23(03).
[6]张鹭.大数据挖掘技术在财务分析中的应用[J].轻工科技,2021,37(07).
[7]汪欣雨.基于Apriori关联规则的材料领域股票数据分析[J].全国流通经济,2019,20(20).
[8]杨娜,张艳敏.基于粗糙集聚类算法的股票数据分析方法研究[J].科技经济市场,2017,11(06).
[9]郭宇澄,许思远,魏正亚.数据挖掘技术在股票预测中的应用探讨[J].电子世界,2017,24(10).
[10]孙晓宇,李卓然.基于线性时间序列模型对金融数据分析——以云南白药股票数据为例[J].时代金融,2016, 20(14).