APP下载

基于ID3决策树改进算法的稿刊推荐研究

2017-11-02贾笛笛陈智勇

软件导刊 2017年10期
关键词:数据挖掘

贾笛笛++陈智勇

摘要:在科研工作者的科研活动中,发表论文是其中非常重要的部分。论文承载着科研工作者的研究成果,只有发表在出版物上,才能得到世人的认可。现有稿刊推荐研究的推荐结果少,而且推荐结果的准确度不高,投稿人很难从推荐结果中发现适合投稿的期刊。鉴于此,提出利用改进的ID3决策树算法对期刊与稿件相关度进行分类建模,利用得到的分类规则为投稿人推荐合适期刊的方法。实验结果表明,基于ID3决策树改进算法的稿刊推荐方法推荐准确率较高。

关键词:稿刊推荐;数据挖掘;ID3算法;多值逻辑;KMeans聚类

DOIDOI:10.11907/rjdk.171695

中图分类号:TP312文献标识码:A文章编号:16727800(2017)010004205

0引言

稿刊推荐是向有投稿需求的科研工作者推荐适合其投稿的期刊。国外关于出版物与稿件的研究主要有两个方面:推荐与科研工作者研究领域相符的文献[12];推荐与科研工作者稿件研究领域相符的出版物[38]。Luong Hiep、Klamma R、Luong H等[34]通过社交网络的方法,探索网络中与稿件作者在同一个研究领域内的其他稿件作者所出版过的刊物;2015年,Medvet Eric、Bartoli Alberto[5]建立期刊查询系统,通过稿件标题和摘要进行期刊推荐;2015年,Anas Alzoghbi[6]提出将研究者简介作为多元线性回归问题的模型,利用元数据实现有效的出版物推荐;2016年,Tran Hung Nghiep、Huynh Tin[7]使用研究人员引用的出版物构建数据样本,进行出版物推荐。国内关于稿刊推荐的研究方法,主要是建立稿件与期刊研究方向的关系。2014年,徐镇[9]提出基于垂直搜索引擎的论文投稿推荐系统研究;2014年,秦臻等[10]提出基于合著作者网络的期刊推荐方法;2015年,王亮等[11]提出基于主题模型文本挖掘的期刊推荐方法,大大提升了期刊推荐的准确度。

上述出版物推荐方法为有投稿需求的用户提供了方便,但也存在不足之处,总结如下:

(1)现有出版物推荐方法数据样本有限。已有的推荐方法是建立与稿件作者具有合著关系的稿件作者关系网,这样导致推荐结果的数量少,有可能科研工作者真正需要的出版物并不包含在其中。

(2)现有出版物推荐方法没有考虑出版物与稿件的关联度。现有推荐方法没有量化推荐的出版物与稿件的研究方向是否一致,没有考虑出版物与稿件的质量是否相符。如果推荐的出版物质量与稿件质量不符合,稿件很难成功出版。

(3)现有出版物推荐方法不适合没有投稿经验的科研工作者。基于社交网络的出版物推荐方法是建立与稿件作者具有合著关系的作者关系网。没有投稿经历的科研工作者无法得到合著关系网,也就无法得到推荐结果。

1材料与方法

分析整理JCR(Journal Citation Reports)中所有的SCI(Science Citation Index)期刊数据,建立期刊数据库。利用多值逻辑理论改进传统ID3算法,并利用改进后的ID3决策树算法,对期刊数据样本分类,提取分类规则,然后按照提取的分类规则进行稿刊推荐。

1.1ID3算法分析

1966年,Hunt E B在概念学习系统CLS(Care Life of Science)[12]中首次应用了决策树方法,是决策树发展的基础;1975年,J.Ross Quinlan提出了一个决策树算法,称作ID3算法[13],后来的决策树算法都是在ID3算法基础上得到的。ID3算法利用信息增益[14]的度量标准选择结点属性,算法学习能力较强,适合处理大规模数据。ID3算法原理简单易懂,可以生成易于理解的分类规则,而且算法的分类速度快[15]。但ID3算法也有自身缺陷:对连续型数据无法处理,对属性值缺失的数据也难以解决;在选择信息增益时,一般选择取值较多的属性。

针对ID3算法的不足及本研究需要,现从以下两个方面加以改进:

(1)连续属性离散化。因为ID3算法无法处理连续型变量,但期刊与论文相关度的数据样本中,数据属性是连续型数据,如期刊刊登范围与论文研究方向相关度、5年影响因子和载文量。

(2)确定属性取值。一般决策树算法处理数据集的类别属性是布尔类型的数据,只有是与否的对立情况,但在现实生活中两个对立的取值并不能解决问题。由于原有的ID3算法中决策属性的取值个数不一,造成分类后的决策树分类不均,会产生异常点或孤立点。

1.2多值逻辑对ID3算法的改进

多值逻辑是一种非经典的逻辑系统。在经典逻辑中,每个命题取值为真或假。在客观世界中,有些事物无法由二值逻辑描述,于是产生了多值逻辑[16]。多值逻辑指一切逻辑值的取值数大于2的逻辑,它由二值逻辑扩展而来。

ID3算法依据多组决策属性的值判断一个实例属于某个类别,若此时属性的取值用集合表示,记成V={v1,v2,v3,…,vm}。假设m=2,属性取值为2,属于二值逻辑,只有一个为真,另一个为假。在稿刊推荐中,若用“1或0”两个值表征属性的取值,分类结果将生成只有两个分枝的决策树,造成树的深度过大、分枝过少。若m=N,N为一个足够大的值,导致生成的决策树分枝过多。由生成的决策树得到大量的分类规则使得ID3算法的使用变得复杂。

属性取值个数决定着ID3决策树算法生成的决策树模型分枝,因此要控制属性取值的个数。本文利用多值逻辑理论改进ID3算法,以限定属性取值的个数。

以期刊与稿件关联度分类问题为例,利用多值逻辑改进ID3算法的步驟如下:

(1)计算类别属性的信息熵。若期刊信息样本集合S中有n个样本。利用多值逻辑理论将期刊与稿件的相关度信息的类别属性分为0,1之间的m个取值:v1,v2,v3,…,vm。此时类别属性C有m个不同的取值即Ci(i=1,2,…,m)。设si为Ci中的样本数,可得样本集S对应类别属性C的信息熵为:endprint

I(s1,s2,…,sm)=-∑mi=1pilog2(pi)(1)

其中,Pi表示任意样本属于分类Ci的概率。

(2)计算决策属性的信息熵。选择样本集S中一个决策属性A,若A有k个不同的取值,决策属性A将样本集合S划分为k类别。由此,属性A划分样本集S的信息熵为:

E(A)=-∑kj=1A1j+A2j+…+AmjnI(sj)(2)

其中,Aij(i=1,2,…,m;j=1,2,…,k)表示子集Sj中类Ci的样本数量。因为决策属性的取值是连续变量,本文利用多值逻辑理论离散化决策属性的值。首先利用KMeans聚类算法将决策属性的值分组,按照多值逻辑的m个值:v1,v2,v3,…,vm,对每个分组分别赋值。

(3)计算信息增益。这样可以根据以上信息计算属性A的信息增益,公式如下:

Gain(A)=I(S)-E(A)(3)

最后选择信息增益最大的决策属性作为树的根结点,由此结点产生多个分枝,形成子树。每个子树根结点的选择也如此,以递归的方式最终生成一棵完整的树。

1.3稿刊推荐数据准备

本文数据来源于ISI(Institute for Scientific Information)2015年出版的JCR。JCR对收录的全部SCI期刊数据进行统计、运算,并对每种期刊定义了影响因子、5年影响因子、即引指数、载文量、引半衰期等指数。为了方便科研工作者的投稿需要,利用网络获取期刊网址和审稿周期。本文花费大量的时间对期刊引证报告中期刊的研究方向进行划分,由于时间和个人能力有限只完成了计算机方向相关工作。计算机领域的期刊划分是依据中国计算机学会(CCF,China Computer Federation)中研究方向分类要求进行分类。分类后建立期刊研究领域与论文研究方向之间的关系,作为数据样本的一个数据属性(期刊与论文研究方向关联度属性,J_Category)。

期刊引证报告是世界权威性的综合数据库,涵盖了世界上大部分影响力较大的科技期刊,集合了各学科的重要研究成果。因此,利用JCR建立期刊库,满足用户需求。5年影响因子和载文量是期刊影响力和发展程度的重要指标[17]。为了建立期刊与稿件之间的关系,选取期刊引证报告中期刊的5年影响因子和载文量作为样本数据的属性。在数据样本中,5年影响因子的属性名为J_IF,载文量的属性名为J_Articles。整理好的期刊数据如表1所示。

2实验与结果

本文利用改进后的ID3算法进行稿刊推荐实验。以《计算机学报》上刊载的论文《朴素贝叶斯分类中的隐私保护方法研究》为例,影响因子范围定为0.6~2.6,论文关键词:数据挖掘、隐私保护、朴素贝叶斯分类、随机处理、特征重构。

2.1数据预处理

通过计算期刊的刊登范围标签与稿件关键词标签的相似度,近似计算期刊与稿件之间的研究方向相关度J_Category的值。{A1,A2,A3,…,Am}表示期刊A的标签集合,{B1,B2,B3,…,Bn}表示稿件B的关键词标签集合,{a1,a2,a3,…,am}表示期刊A向量,{b1,b2,b3,…,bn}表示稿件B向量,k=min(m,n)。由于期刊的标签数量大,期刊标签与稿件关键字匹配完成后,按照大小降序排列,截取前n个值定为向量B,然后计算它们之间的标签相似度。假如稿件B的关键词标签为{数据挖掘,隐私保護,朴素贝叶斯分类,随机处理,特征重构},期刊A的标签为{数据挖掘,分类,估计,熵,朴素贝叶斯分类,相关性分组,关联规则,聚类,特征重构,决策树}。A与B匹配之后用向量形式表示为:A(1,1,1,1,1),B(1,0,0,0,1,0,0,0,1,0)。将B向量倒序排列,截取和A一样的长度,得B(1,1,1,0,0)。利用式(4)计算A与B的相似度结果为0.77,然后按照此方式获得J_Category的其它值。

Sim(A,B)=∑nk=0ak×bk∑nk=0a2k∑nk=0b2k(4)

利用KMeans算法对研究方向相关度(J_Category)、5年影响因子(J_IF)、载文量(J_Articles)进行聚类,聚类结果如图1、图2、图3所示。其中J_Category聚为5类,每个类别按照多值逻辑的5个值即1、0.75、0.5、0.25、0

图1研究方向聚类结果(J_Category)

图2载文量聚类结果(J_Articles)

图3影响因子聚类结果(J_IF)

依次赋值。J_Articles属性一部分取值聚为4类,每个类别按照多值逻辑的4个值0.75,0.5,0.25,0依次赋值,J_Articles属性剩余的数据赋值为1。选取J_IF在0.6~2.6范围内的所有值聚为4类,范围外的所有值赋值为0,聚类后的每个类别按照多值逻辑的值即1、0.75、0.5、0.25进行赋值。利用多值逻辑处理后的数据样本如表2所示。

2.2数据建模

利用Java语言在Eclipse平台实现改进后的ID3算法,并生成决策树模型,如图4所示。本文分类结果的准确度由Weka[18]工具分析,如图5所示。由图4可得决策模型分类规则,按照分类规则获取数据集中类别属性值大于0.25的所有期刊数据,输出结果如图6所示。投稿人可以将图6的输出结果作为参考选择适合自己的期刊进行投稿。

3结果分析

本文运用多值逻辑理论改进了ID3算法,使原本杂乱无序的属性值变得有规律可循,使得生成的决策树模型层数减少,而且分类更加均匀合理。本文从3个方面对改进ID3算法的分类结果进行分析:

(1)改进前后ID3算法对比。改进前的ID3算法对连续型数据的数据样本无法处理。从图4可以看出,利用多值逻辑改进ID3算法生成的决策树,分布均匀,树的分枝减少,从众多的分枝减少到有限的几个分枝,属性取值也从无序变为有序。endprint

(2)期刊与稿件相关度。改进ID3算法生成的决策树以研究方向相关度(J_Category)作为树的根节点,将该属性作为更重要的属性,符合稿刊推荐首先要求期刊与稿件研究方向一致的条件。

(3)准确度。如图5所示,由Weka平台输出结果可知,对333个实例进行分析,有321个正确的分类结果,5个错误结果,分类准确率为96.39%。分类准确率较高,因此改进后的ID3算法适合稿刊推荐的分类工作。

4结语

针对现有期刊推荐方法推荐结果准确率不高的问题,将多值逻辑理论改进的ID3决策树算法应用到稿刊推荐研究中,节约了投稿人大量的科研时间。本文利用改进的ID3决策树算法处理海量数据,符合投稿人的推荐结果更多,推荐结果准确率也高。但由于时间有限,本文仅开展了计算机领域相关工作。在后续工作中,将在期刊数据库中增加更多核心期刊,扩大数据样本,为投稿人提供更多选择;同时增加每个期刊对应的标签库,提高推荐的准确率。

参考文献参考文献:

[1]PERA MARIA SOLEDAD,NG YIU KAI.A personalized recommendation system on scholarly publications[C].Proceedings of the 2011 ACM International Conference on Information and Knowledge Management, CIKM'11,Glasgow,2011:21332136.

[2]LE ANH VU,HOANG HAI VO,TRAN HUNG NGHIEP,et al.SciRecSys: a recommendation system for scientific publication by discovering keyword relationships[J].Lecture Notes in Computer Science,2014, 8733:7282.

[3]KLAMMA R,CUONG P M,CAO Y.You never walk alone: recommending academic events based on social network analysis [M].Complex Sciences. Springer Berlin Heidelberg,2009:657670.

[4]LUONG HIEP,HUYNH TIN,GAUCH SUSAN,et al.Exploiting social networks for publication venue recommendations[C].Proceedings of the International Conference on Knowledge Discovery and Information Retrieval,KDIR, Barcelona,2012:239245.

[5]MEDVET ERIC,BARTOLI ALBERTO,PICCININ GIULIO.Publication venue recommendation based on paper abstract[C].Proceedings of International Conference on Tools with Artificial Intelligence,ICTAI,Limassol Cyprus,2014:10041010.

[6]ANAS ALZOGHBI,VICTOR ANTHONY ARRASCUE AYALA,PETER MFISCHER,et al.PubRec:recommending publications based on publicly available metadata[C].Proceedings of the LWA 2015 Workshops: KDML, FGWM, IR, and FGDB,Trier,Germany,2015:1118.

[7]TRAN HUNG NGHIEP,HUYNH TIN,HOANG KIEM.A potential approach to overcome in scientific publication recommendation[C].Proceedings of 2015 IEEE International Conference on Knowledge and Systems Engineering, Ho Chi Minh City,2015:310313.

[8]HUYNH TIN,NGUYENTRACTHUC,TRAN HUNGNGHIEP.Exploiting social relations to recommend scientific publications[J].Lecture Notes in Computer Science,2016,9795:182192.

[9]徐鎮.基于垂直搜索引擎的论文投稿推荐系统研究[D].兰州:兰州大学,2010.

[10]秦臻.学术社会网络建模和学术资源推荐方法研究[D].北京:北京邮电大学,2015.

[11]王亮,张绍武.基于主题模型的文本挖掘的研究[D].大连:大连理工大学,2015.

[12]PORTER BW,BARESS E R,HOLTE R.Concept learning and heuristic classification in weak theory domains[J].Artificial Intelligence,1989,45:229263.

[13]QUINLAN J R.Induction of decision trees[J].Machine learning,1986(1):81106.

[14]王小巍,蒋玉明.决策树ID3算法的分析与改进[J].计算机工程与设计,2011,32(9):30693076.

[15]黄爱辉,陈湘涛.决策树ID3算法的改进[J].计算机工程与科学,2009,31(6):109111.

[16]刘任任,欧阳建权.多值逻辑函数结构理论研究[M].北京:科学出版社,2010:220.

[17]陶维丽.科技期刊的综合评价比较研究[D].武汉:华中师范大学.2012:130.

[18]孟晓明,陈慧萍,张涛.基于WEKA平台的Web事务聚类算法的研究[J].计算机工程与设计,2009,30(6):13321334.

责任编辑(责任编辑:孙娟)endprint

猜你喜欢

数据挖掘
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
数据挖掘技术综述与应用
基于GPGPU的离散数据挖掘研究
利用数据挖掘技术实现LIS数据共享的开发实践
高级数据挖掘与应用国际学术会议
高级数据挖掘与应用国际学术会议