ID3算法在证券投资中的应用研究
2012-11-17徐晋辉
徐晋辉,冯 菁
(淮北职业技术学院基础部,安徽淮北 235000)
ID3算法在证券投资中的应用研究
徐晋辉,冯 菁
(淮北职业技术学院基础部,安徽淮北 235000)
决策树是数据挖掘中简单常用的分类算法,它是一种以实例为基础的归纳学习算法,来发现数据模式和规则[1,2]。根据ID3算法,对股指期货自然人投资者数据样本进行分析,获得不同属性上的信息增益,最后生成决策树,可将此树转换成一个if-then规则的集合,并找到数据建模的规律和模式,提取有价值的信息,为证券公司扩展业务,增加客户,规避风险做出科学的决策支持。
数据挖掘;教学质量评价;ID3算法;决策树
1 引言
我国证券业经过二十多年的发展,已经成企业融资的重要渠道。各证券公司为了扩展业务,吸引客户,纷纷采取各种措施,加强对客户的管理。利用ID3算法来分析个人投资者相关资料,不仅简单、快捷,而且可以有效地规避来自个人投资者财务状况、诚信状况方面的风险。
2 数据挖掘
2.1 数据挖掘(Data Mining)的定义
随着计算机数据库管理应用的普及和MIS的广泛应用,对数据库中记录进行简单查询存取,已远不能满足应用,人们要从大量记录信息中找寻出隐藏在背后的重要信息,如关于这些数据的整体特征描述及预测其发展趋势[3]。
数据挖掘,简单地说就是从大量的数据中挖掘出人们所需,有用的知识。在庞大的没有进行过处理的数据中,提取隐藏在内的、人们没有发现的、但又是潜在有用的信息和知识的过程[3,4,5,6]。人工智能领域称为知识发现,而数据库领域则称为数据挖掘[3]。
2.2 决策树方法
决策树是数据挖掘中的一种分类算法,它是一种以实例为基础的归纳学习算法[2],针对一些看似无序列,无规则,无关联的数据集合,从中分析,获取有价值的分类规则,并由决策树直观表示,树中路径则代表了一定的规则和结果。算法生成的决策树中每个分支或路径表示决策规则集合,这些规则是通过先前的大量数据集分类发现的规则,树分支上的每个节点代表数据记录上的某个属性的取值,叶子结点代表一个类别。树的每一个分支或路径则代表了测试的一个结果。在建树的过程中,需要使用剪枝来剪去数据中的噪声和孤立点[7],从而提高在未知数据上分类的准确性。常用的决策树算法有ID3、C4.5、CART[1,4,8]等。
3 ID3算法
树的生成算法(ID3)
设S是s个数据样本的集合,假定决策属性,具有m个不同的值,即表示有m个不同类别Ci,(i={1,…,m}),si是类Ci中的样本数。对一个样本分类的期望信息可由下面公式1给出:
如果以属性A作为决策树的根,属性A具有v个不同值{a1,a2,a3,…av},它将S分成v个子集{S1,S2,…Sv},其中Sj包含S中这样一些样本,它们在A上具有值aj。则这些子集对应于由包含集合S的节点生长出来的分枝。对于给定的子集Sj,有公式2:
熵值越小,子集划分的纯度越高。在属性A上分枝将获得的信息增益公式4:
ID3选择Gain(A)最大的属性A作为分枝属性,各分支集合递归使用ID3方法再建立决策树结点和分支[2,10],直到某一分支子集中的例子属于同一类。这种方法使生成的决策树平均深度最小,能够较快生成一棵决策树。
4 股指期货的概念
股指期货在2010年1月8日获得国务院的审批。是一种以股票价格指数作为标的物的金融期货合约。股指期货是一种把股票与期货两种产品属性结合在一起的新型投资产品。在国际市场上已经有20年的发展历史。投资者不妨把它理解成股票指数的一种新的交易方式。中国股市一向只能做多,不能做空[11]。也就是说,我们只能巴望着股票上涨,才能赚钱。于是,涨的时候大家疯买,跌的时候大家狂卖。而股指期货呢,既能买空,也能卖空。简而言之,如果预期未来价格下跌,将手中借来的股票按目前价格卖出,待行情跌后再按照合约价格买进,归还给股票借出方。反之如果看涨,亦可以按照目前价格借入股票,等涨价了再卖出去,两种方法都能赚取差价。
4.1 股指期货自然人投资者综合评价表
股指期货投资设置了一个准入门槛,股指期货比股票的风险还大。问题是得考虑自己是否输得起,并且不存在严重不良诚信记录。中金所(中国金融期货交易所)推出的首只期指将是沪深300股指期货,即选取沪深,规模大,流动性强的最具代表性的300只成份股作为编制对象。
各个证券公司为扩展业务,增加客户,也要进行必需的综合评价。
表中大致要求如下:综合评估满分为100分。
评估专员应坚持“客观全面、审慎严谨、明确责任”的原则对每位投资者进行评估。认真填写《股指期货自然人投资者适当性综合评估表》,不得为综合评估得分在70分以下的投资者申请开立股指期货交易编码。
4.2 数据收集及预处理
4.2.1 数据收集
我们收集了五十条记录,并按要求打好分数,给出评价结果,存放Access数据库中。
为了把问题简单化,把年龄学历作为一个字段,还有投资经历字段,财务状况字段,诚信状况字段,评价结果。
4.2.2 数据预处理
建立决策树时考虑表中年龄学历,投资经历,财务状况,诚信状况等属性(字段)对总体结果的影响,提取的五十条数据。在分析表中发现,表中数据有些是连续数值,不便于直接分类,首先将这些连续值进行“离散化”,
如年龄与学历属性,划分两个等级,高(>=10),低(<10分)。
投资经历划分两个等级低(<=10),高(>10分)。
财务状况分为低(分值<20),中(分值在20与40之间),高(50分)。
诚信状况为良好(>=10),低(<10分)。
4.3 ID3算法实现
对所有属性进行信息增益计算,先计算该样本对于评价结果类别属性的期望信息。
分析表中数据,其中结果为“是”,“否”人数各为26,24。则有:
I(26,24)=(26/50)*log2(26/50)0.99885
计算每个属性的条件信息熵与信息增益。
财务状况得分<20的客户,是否人数分别为0,12,
财务状况得分在20~40之间,是否人数分别为23,11
财务状况得分在50的,是否人数分别为3,1。
H(财务状况)=12/50*I(12,0)+34/50*I(23,11)+4/50*I(3,1)=0.6824648
同样求出:H(学历年龄)=0.9263218;H(投资经历)=0.92366
H(诚信状况)=0.90867。
它们的信息增益分别为:Gain(财务状况)=0.3163852;Gain(投资经历)=0.07519;
Gain(学历年龄)=0.07253;Gain(诚信状况)=0.090175。
因为财务状况的信息增益最大,先按财务状况进行分类。
如图1:根结点
图1 根结点
财务状况为“低”中的例子属同类“否”,得出此子树已是叶子结点,不用在划分。
以财务状况为“中”,“高”这两个分枝继续ID3算法,计算年龄学历属性值为”>=10”,“<10”中,类别属性为“是”,“否”的条件熵的计算。
I(23,8)=0.82381
I(3,0)=0,H(学历年龄)=0.75112Gain(学历年龄)=0.07269
投资状况为高,低,类别属性为“是”,“否”的条件熵的计算。
I(18,3)=0.59167
I(5,8)=0.96124,H(投资)=0.73297Gain(投资状况)=0.09084
相对于诚信状况属性,I(23,9)=0.85715,I(0,2)=0
H(诚信状况)=0.80673Gain(诚信状况)=0.01708
对于每一棵子树,按照以上方法进行递归计算,最后得出的决策树如图2所示。
图2 最终生成决策树
为了增加决策树的可读性及可理解性,需要对决策树进行修剪。我们设计一个允许最大误差率,得到一棵经过剪枝后的决策树。
根据决策树提取分类规则。这五十个样本生成的分类规则如下:
1.If财务状况得分为低then评价结果为否
2.If(财务状况得分为高and诚信为良好)then评价结果为是
3.If(财务状况得分为高and诚信为低)then评价结果为否
4.If(财务状况得分为中and投资经历为高and诚信为高)then评价结果为是
5.If(财务状况得分为中and投资经历为高and诚信为低)then评价结果为否
6.If(财务状况得分为中and投资经历为低and学年为低)then评价结果为否
7.If(财务状况得分为中and投资经历为高and学年为高and诚信为高)then评价结果为是
8.If(财务状况得分为中and投资经历为高and学年为高and诚信为低)then评价结果为否
5 结束语
证券公司要在激烈市场竞争中获胜,充分占有市场。就要增加现有客户满意度,吸引潜在客户,提高客户交易水平。本文主要讲述了决策树在实际中的应用,根据申请表提供的样本记录,利用ID3算法,做了一个简单的决策树,并提取分类规则。证券公司分析决策时对数据的依赖性和敏感度越来越高,数据挖掘技术作为分析与辅助决策工具已越来越得到国内券商的重视。
[1]郭亮山.浅淡数据挖掘技术在公安领域中的应用[J].福建警察学院学报,2008(4):32-36.
[2]杨静,张楠男,李建,刘延明,梁美红.决策树算法的研究与应用[J].计算机技术与发展,2010,20(2):114-116.
[3]张友生,徐峰.系统分析师技术指南[M].清华大学出版社,2004.9.
[4]邵峰晶,于忠清.数据挖掘原理与算法[M].中国水利水电出版社,2003.8.
[5]肖志明.决策树算法在高校教学评价中的应用研究[J].广西轻工业,2008,(11):164-167.
[6]覃宝灵.决策树技术在教学质量评价中的应用研究[J].电脑知识与技术,2007,3(13):191-192.
[7]Han Jiawei,Micheline Kamber.Data Mining:Concepts and Technique(数据挖掘——概念与技术)[M].北京:高等教育出版社,2001.
[8]袁燕.决策树算法在高校教学评价系统中的应用[J].浙江海洋学院学报,2006,25(4):440-444.
[9]李霞.ID3分类算法在银行客户流失中的应用研究[J].计算机技术与发展,2009(3):158-160.
[10]Quinlan J R.Induction of decision tress[J].Machine learning,1986,81-106.
F833/837TP301.6
A
1671-8275(2012)02-0060-03
2012-01-30
徐晋辉(1973-),女,安徽淮北人,淮北职业技术学院基础部实验师。
何玉付