APP下载

基于Logistic回归的股票操纵识别模型的应用

2022-08-03北方工业大学信息学院张涛赵宝鑫

数字技术与应用 2022年7期
关键词:换手率股票价格股票

北方工业大学信息学院 张涛 赵宝鑫

为了判断国内二级市场未知股票是否被人为操纵,本文以 2017—2022年期间的证监会行政处罚决定书中的案例为基础数据,将Logistic回归模型(即逻辑回归模型)与MACD、换手率等指标相结合,用机器学习方法训练出以Logistic回归模型为基础的股票操纵识别模型,模型总体识别准确率最高达到91.80%。

中国股市成立30年以来,涉嫌操纵股价的案件层出不穷,这些案件既严重影响了证券市场的公平公正,导致股票市场动荡破坏金融市场的稳定,阻碍了我国社会主义市场经济的良性发展。所以,研究股票走势是否被别有用心的机构和个人操纵就有了深远的意义。操纵者为了获得超额的收益,逃脱法律制裁,其有组织有计划制定操纵策略,使用隐蔽性强的操纵技术,使监管者难以发现他们的存在。如果利用机器学习对未知股票进行人工智能筛查,可以极大加快对违法操纵者的锁定,监管者破获此类案件的时间和数量都会显著提升,可有效震慑投机客,为中国证券市场的健康稳定发展提供坚实的保障。

在我国持续快速经济发展中,不断向西方学习的同时也不断在走中国特色社会主义道路,发达国家在股市发展中遇到的问题,我们往往也会遇到,这其中我国新兴市场对股票操纵的担忧也在不断地增加。一些人为了获取巨额利益,不断在证监会的监管下打擦边球企图逃避监管,他们精心设计操纵方案,使监管变得困难。所以及时发现股市的操纵行为,对保护投资者的利益与维护股市公平交易有深远意义。基于Logistic回归模型的股票价格操纵具有足够的能力来提高操纵检测的准确性,它可以显著地降低监管者的成本,于是机器学习的发展为股票价格操纵识别提供了一种新的选择。

1 文献综述

在人们意识到了股票价格操纵的危害以后,国内外大量研究人员纷纷开始了对股票价格操纵的检测方法研究。Robert A. Jarrow[1]通过反复实验建立了一套早期理想市场价格模型,通过不断模拟真实交易,总结出机构可以利用自有资金优势与内幕消息,让股价朝着对自己有利的价格波动,印证了股市操纵存在的可能性;Karl[2]使用一种回归模型对已知被操纵股票进行历史走势分析,并对芬兰的国家股市进行了股票价格操纵的检测;蒋贤锋[3]在研究某只被操纵股票的操纵程度时,认为股票换手率与其操纵时间是衡量相关关系检验的重要指标,其中操纵时间对其检验的解释力最好;周春生[4]等详细阐述了一只被操纵股票会有显著的建仓期与抛盘期,在其操纵期间该股票的换手率将升高,股价涨跌幅度变大;王震[5]从我国二级市场被证监会处罚的操纵股票为基础样本中分析,通过数据对比指出使用将多种指标同时使用,可能会降低识别被操纵股票成功率。

国内在Logistic回归模型检测股票价格操纵案例上,也有一定的分析研究。张许宏[6]验证了Logistic回归模型对检测股票操纵识别内幕操纵案例的适用性,确定了作为自变量的判别模型中Logistic回归模型在以共线性较强的市场反应指标具有优越性。张宗新[7]等从我国二级市场发生内幕操纵案例为样本,以市场反应指标作为研究变量,用Logistic回归模型进行操纵行为的检测,并对模型做出来对比分析。陆蓉[8]等认为在股票被操纵期间存在Beta系数偏低的现象和收益率与人均市值较高的现象,认为在换手率、成交量、波动率和成交额在操纵前后有一些差异。熊熊[9]等在建立了一种Logistic回归模型,用以检测我国港股股指期货被操纵的可能性,将市场波动性与市场流动性指标放在所构建模型中,形成股指期货操纵事件的预警系统。夏文学[10]使了SPSS统计软件对股票价格操纵案例进行构建Logistic回归模型,总结出衡量被操纵股票的共有的四个指标特征,并对建立的模型进行了检验。张建锋[11]等在通过Logistic回归模型,发现具体市值小、户均市值低等七个特征更易于被不法分子操纵,模型准确率可以达到63.89%。

当前虽然很多论文采用Logistic回归模型对股票价格操纵行为进行了分析,但均缺少非法交易者操纵策略本质的特征分析,使用数据无论是历史分时数据还是历史日交易数据都拥有局限性。本文从操纵案例出发,引入能够真正影响股票价格走向的历史数据,希望得到更高更好的股价操纵识别检测的准确率。

2 模型构建

2.1 数据采集

在中国证券监督管理委员会官网中的政府信息公开中查询到上千份的行政处罚决定书,将在 2017—2022年期间的案例进行手工采集记录如表1所示,对进行初步筛选去除操纵期内因停牌导致交易数据不连续的上市公司。所有被操纵股价的上市公司历史日交易数据采用Tushare数据库的免费开源Python财经数据接口包,利用Python语言操作建立MySQL数据库,将Pandas的DataFrame实现与MySQL的交互,用以搭建分析数据库。

表1 中国证监会行政处罚决定书(示例)Tab.1 Decision on administrative punishment of CSRC (example)

将数据下载到本地,将操纵起止时间超过半年和小于3日的数据从样本中去除。因其中操纵时间导致股票波动过于稳健或激进,此类极端样本易导致数据过拟合。最后将操纵起始时间前30日数据标记为未被不法分子股票价格操纵区间。

2.2 Logistic模型

本文利用Logistic回归模型进行对构建,它在大数据和经济学中被广泛应用,并且属于广义线性回归中的一种。线性回归模型在全体实数范围内产生预测值,Logistic回归模型则在1与0的范围内产生预测值,主要是用来解决二分类问题。设因变量y,值为0时表示该A股上市公司不易被操纵股票价格,值为1时表示该A股上市公司容易被操纵股票价格,其中x1,x2,x3,x4,…,x(n-1),xn表示的自变量受导致股票价格改变的n个元素影响,如果公司被不法分子操纵概率为P,则:

令θ0为常数,θ1,θ2,θ3,θ4,…,θ(n-1),θn为偏回归系数,假设分布为hθ(x),则线性回归:

在[0,1]映射区间内转换,使用Sigmoid函数:

与线性回归公式联立:

即:

设定概率分布p(x)与q(x),使用交叉熵作为Logistic回归的损失函数:

二元逻辑回归真实分布y与假设分布hθ(x),用来计算所有样本的损失之和的平均值:

梯度下降更新初始化参数θ,由:

J(θ)对θj求偏导:

有:

为了保留所有特征减小某些非相关特征的权重,使用正则化来降低过拟合,把数据中的噪点过滤掉,当L2正则化后梯度下降更新,则有:

2.3 预判指标

在预判指标的选择上,坚持实践是检验真理的唯一标准,于是在经过不断多次的反复实验论证后,在程序输入换手率与MACD指标后,得出的实验效果更好。实践证明如果多种指标同时使用,会降低识别被操纵股票成功率。换手率定义为日交易时间段内股票的成交量与发行总股数比值的百分比,在我国为日交易时间段内股票的成交量与流通股股本比值的百分比,也称为是周转率,换手率也是反映投资活跃程度与市场交易技术指标中的其中之一。往往每日换手率排名高的前几只股票,在日K线图中反应出跳跃性的走势,于是在选择输入预判指标中换手率必不可少。MACD利用收盘价的短期指数移动平均值(一般12 d)与长期指数移动平均值(一般26 d)反映该时间段内的股票走势,以此可以对买进、卖出时机作出研判的技术指标,在判断长期趋势中MACD在长线投资的准确率更好而且在实际应用中更多,于是在选择输入预判指标中MACD也是必不可少。

2.4 优化器

本文采用Python编写引入机器学习中的Logistic模型算法,选用优化器也是为了获取更高准确率必不可少的环节。传统机器学习的经常把学习率变为常数项,或者将学习率的调节参照训练次数的多少进行一定的调整,不容易更好的提升学习率,忽视了其变化。有了自适应学习率优化算法后,对提升学习率有了显著帮助,更减少了训练时长,主流的Adam优化算法就是其中一种。

以上β1动力值一般为0.9,β2动力值一般则为0.999。为一阶动量项为mt的修正值,为二阶动量项为vt的修正值。θt为时间t的迭代模型的参数,代价函数在第t次θt处产生的梯度大小为gt=ΔJ(θt)。ε为使分母不等于0,一般取1e-8。

3 实验结果分析

实验训练前,最终筛选出股票220只,划分出训练集交易天数46202条,验证集16450条,测试集14350条。

采用MACD与换手率指标为预判指标,Adam优化器,binary_crossentropy损失函数,两种激活函数为如图1所示ReLU函数与如图2所示Sigmoid函数,ACC评价指标,训练次数初步设定为100次。

图1 ReLU函数图Fig.1 ReLU function

图2 Sigmoid函数Fig.2 Sigmoid function

训练开始后,准确率随训练百分比增加而增加最终准确率为0.9180,如图3所示。损失值随训练百分比增加而减少损失值为0.2637,如图4所示。

图3 准确率Fig.3 Accuracy

图4 损失值Fig.4 Loos value

最后输出模型各层的参数状况,通过计算产生3个全连接层,总共37个参数。第一个全连接层,输入数据维度为2,有4个神经元,共12个参数;第二个全连接层,输入数据维度为4,有4个神经元,共20个参数;第三个全连接层,输入数据维度为4,有1个神经元,共5个参数。

4 结论

在2021年中央金融工作会议中,表示要“进一步深化金融改革”,并明确指出“加强金融法制建设”与“加强金融监管”[12]。说明随着我国经济的不断发展,对股票价格操纵的违法行为予以监管并制止是符合我国当前利益的。从最后结果来看,91.80%准确率符合预期,本文所建立的Logistic回归模型对股票价格操纵识别有较好的检测效果。通过换手率指标与MACD指标可以暴露出股票价格操纵者的真实意图。在将来的模型优化中如果尝试扩大历史与未来数据量,会使Logistic回归模型识别准确率进一步加强。

猜你喜欢

换手率股票价格股票
基于GARCH族模型的重庆啤酒股票价格波动研究
本周创出今年以来新高的股票
本周创出今年以来新高的股票
本周连续上涨3天以上的股票
近期连续涨、跌3天以上的股票
论股票价格准确性的社会效益
我国股票价格指数与“克强指数”的关系研究
基于多元回归与技术分析的组合股票价格预测
2013年A股换手率、成交额前100名