APP下载

加权朴素贝叶斯模型在高校学科评价中的应用

2016-03-25夏燕徐娜舒健冯晖

微型电脑应用 2016年1期
关键词:学科分类评价指标数据挖掘

夏燕,徐娜,舒健,冯晖



加权朴素贝叶斯模型在高校学科评价中的应用

夏燕,徐娜,舒健,冯晖

摘 要:学科评价是高等教育评估的重要内容,是加强高校学科建设的重要手段。如何采用科学的方法开展学科评价,客观地对学科进行分类,遴选优势学科和潜力学科在学科建设中至关重要。提出了一种基于加权朴素贝叶斯模型的高校学科分类方法,依据不同权重的学科评价属性和互信息量计算综合权重,构造高校学科分类器,实现了一个自动化的高校学科分类预测系统,并对上海高校学科样本进行应用分析。实验结果表明,应用基于加权朴素贝叶斯模型的高校学科分类预测系统对学科进行预测分类,准确率达到86.67%,为高校学科综合评价提供了基本依据,为新一轮学科发展战略的制定奠定了基础。关键词:数据挖掘;朴素贝叶斯;评价指标;学科分类;学科评价

0 引言

学科是高校的基本组成单位,学科建设是高校各项建设的核心,是提高学校人才培养、科学研究和服务社会能力的基础。目前中国大部分高校已基本完成学科布局调整,确定学科结构规模,将进入提高学科建设质量、培育学科特色、形成学科优势、促进学科发展的阶段[1]。在这一阶段,积极发展高校的优势学科和潜力学科极其关键。因此,如何采用科学的方法开展学科评价,客观地遴选优势学科和潜力学科至关重要。目前,高校学科评价的指标体系,由师资队伍与资源、科学研究水平、人才培养质量、学科声誉等4大方向组成。借助权威数据库对各方向的客观数据进行分析,通过数据挖掘的方式确定优势学科和潜力学科是学科建设过程中常用的方法。目前,常采用的数据挖掘方法为文献计量法,通过与论文相关的各指标对学科进行评价,确定优势和潜力学科。但是,仅从科学研究水平中论文的视角进行评价,难以真正实现科学全面的学科评价[2]。因此,建立一套基于客观数据的学科评价体系,科学地对高校学科进行分类,使教育主管部门和学校便捷地了解学科发展的现状,促进我国高等教育的健康快速发展,已成为高等教育研究的一个热点课题。

本文提出了一种基于加权朴素贝叶斯模型的高校学科分类方法,依据不同权重的学科评价属性和互信息量计算综合权重,构造高校学科分类器,实现了一个自动化的学科分类预测系统。探索了数据挖掘技术在高校学科评价中的应用,为高校学科建设提供了基本依据。

1 相关工作

优势学科和潜力学科是世界一流学科发展的基础,它们在学科集群化发展过程中担当主体学科,利用学科间的优势互补,带动相关学科共同发展。目前可通过学科评价的方式确立优势和潜力学科。高校学科评价的研究工作,可分为以下几类。基于大学专业排名的学科评价,如英国泰晤士高等教育排名(THE)[3],美国新闻与世界报道排名(USNWR)[4],中国教育部学位与研究生教育发展中心学科排名(CDR)[5]。基于科学映射的学科评价,如荷兰莱顿大学科学研究中心(CWTS)启动的“基于映射的文献计量”项目[6]。基于发展态势研究的学科评价,如法国科学研究中心(CNRS)长期以来对高校学科进行的价值评价[7]。基于科学基金管理的学科评价,如英国生物技术与生物科学研究理事会(BBSRC)对其资助的生物类学科开展的评价工作[8]。以上各类学科评价主要采用传统的专家评价法和文献计量法相结合的方式,对高校学科进行评价,存在评价流程复杂,评审结果容易受到主观性影响等缺陷。

为了解决目前学科评价工作中存在的问题,本文提出了一种基于加权朴素贝叶斯模型的高校学科分类方法,构建了一个自动化的高校学科分类预测系统,并对上海高校学科样本进行应用分析,为教育主管部门和高校进行学科综合评价和制定学科发展战略提供基本依据。

2 基于加权朴素贝叶斯模型的高校学科分类方法

基于加权朴素贝叶斯模型的高校学科分类方法,依据学科评价属性的权重和互信息量计算综合权重,构造高校学科分类器。

2.1 基本定义

其中sik 是评价属性Ak中具有值xk 的类别属性Ci 的样本数,si是样本数据集S中类别属性为Ci的样本数为公式(7):

定义6 考虑到不同评价属性对分类的影响不一致,对评价属性按其重要性赋予不同的权值,未知数据样本X的目标类别定义扩展为公式(8):

其中,wi表示评价属性的权重。权重越大,该评价属性对分类决策的影响越大。

定义7 评价属性Ai的权重wi定义为公式(9):

其中,λi可依据高校学科评价指标体系中不同评价指标的权重进行度量。δi可根据评价属性Ai与类别属性Cj的互信息量计算,

2.2 方法流程

根据上述相关定义给出基于加权朴素贝叶斯模型的高校学科分类方法,流程描述如方法1所示:

方法1: 基于加权朴素贝叶斯模型的高校学科分类方法DCM-WNBM (Discipline Classification Method based on Weighted Naive Bayes Model)输入:训练样本集Samples,评价属性集E_Attributes,类别属性集C_Attributes输出:加权朴素贝叶斯分类器方法:DCM-WNBM(Samples, E_Attributes, C_Attributes) Begin扫描训练样本集Samples,统计类别属性集C_Attributes中各属性的概率概率学习:根据式(5-1)和(5-2),对评价属性集E_Attributes中各属性计算所有划分的先验概率权重值学习:根据式(7),对评价属性集E_Attributes中各属性计算权值生成加权朴素贝叶斯模型的概率统计表和权重值统计表。调用概率统计表及权重值统计表中数据,根据式(6),生成基于加权朴素贝叶斯模型的高校学科分类器。End

3 基于加权朴素贝叶斯模型的高校学科分类方法的应用

3.1 高校学科评价指标体系

本文以教育部学位与研究生发展中心颁布的2012年学科评估指标体系[10]为依据,选取相应指标作为评价属性。学科评价指标体系如表1所示:

表1 教育部学位与研究生发展中心颁布的2012年学科评估指标体系

3.2 高校学科评价指标数据选取

为确保数据的真实性、可靠性和权威性,与指标体系相关的原数据,可直接或间接从教育主管部门信息数据库、高校行政部门信息数据库、第三方电子文献数据库中获取,主要包含可度量的三级指标。将数据集成到数据库的高校学科基本信息表中,表结构如表2所示:

表2 高校学科基本信息表结构

共定义了76个评价属性。另需设置概率统计表和权重值统计表,存储评价属性的概率大小和权重值。

从源数据库中获取的数据,易受到空缺、不一致、冗余等现象的影响,需要对数据进行清理、集成、变换、规约,做好预处理工作[11][12]。

3.3 高校学科分类预测系统

3.31 高校学科分类预测系统架构

基于加权朴素贝叶斯模型的高校学科分类预测系统的架构如图1所示:

图1 高校学科分类预测系统架构图

基本过程如下。

建立模型:应用DCM-WNBM方法,在已知样本集上进行训练,构造高校学科分类器;

优化模型:对于已构建的分类器,采用测试样本进行评估分析和优化。

应用模型:利用优化的分类器,对新数据样本进行分类。

3.3.2 设定高校学科分类训练样本集

本文将研究重点放于上海高校学科评价上,对上海高校各学科进行分类。依据教育部学位与研究生教育发展中心2012年学科评估结果,将上海高校学科分为4类,顶尖学科、优势学科、潜力学科、一般学科,在数据库中设立类别属性。对于极少量未参加2012年学科评估的学科,由上海教育行政部门专家,根据该高校历年学科建设的基本数据和2012年学科评估指标体系,进行综合评价,判定其类别属性。

上海高校学科分类训练样本集示例,如表3所示:

表3 上海高校学科分类训练样本集示例

表3中选取了上海26所高校的98门学科作为样本,其中,属性,为“高校学科基本信息表结构”中定义的评价属性。将应用DCM-WNBM方法对上海高校学科分类样本集进行训练,生成基于加权朴素贝叶斯模型的高校学科分类器。

3.3.3 建立高校学科分类器

运行高校学科分类预测系统,分类预测模型从数据库表文件“上海高校学科分类训练样本集示例”中选择并抽取样本,应用DCM-WNBM方法,构建基于加权朴素贝叶斯模型的高校学科分类器。高校学科分类器预测的部分评价属性的重要性以及评价属性A1的先验概率,如图2所示:

图2 高校学科分类器预测的部分评价属性重要性及先验概率

其中,左侧红色为类别属性结点,右侧蓝色为评价属性结点。运行分类器后,使用不同深浅蓝色标记评价属性的重要性高低。点击评价属性结点后,显示其先验概率。分类器预测的部分评价属性重要性的三维分布图及投影图如图3所示:

图3 高校学科分类器预测的部分评价属性重要性的三维分布及投影

3.3.4 评估并优化高校学科分类器

评估分类器的准确性非常重要。需使用测试样本集,对基于加权朴素贝叶斯模型的高校学科分类器进行评估。将分类器的预测结果与实际结果进行比较,当准确率达到80%以上,表明使用该分类器进行高校学科分类,是可行和有效的。

选取2012年上海高校一流学科数据作为测试样本集,包含22所高校的161门学科[13],从数据库中抽取典型的60条记录作为测试样本。应用基于加权朴素贝叶斯模型的高校学科分类预测系统,导入测试样本,运行分类器,对预测结果的准确率进行分析,如图4所示:

60条测试样本中50条样本预测正确,预测准确率达83.33%。重合矩阵比较了各类别属性预测值和实际值的差异,置信度报告说明了预测值的精准度。

对基于加权朴素贝叶斯模型的高校学科分类器进行评估分析后,为进一步提高分类器的准确性,可对权重计算公式的权重系数进行微调,得到优化的贝叶斯分类器。经高校学科分类预测系统评估分析后,其准确率提高到86.67%,如图5所示:

图5 优化后的高校学科分类器评估结果

3.4 应用高校学科分类预测系统对高校学科进行动态评价

基于加权朴素贝叶斯模型的高校学科分类预测系统通过对客观数据的读取,预测高校学科的类别属性,为构建基于客观数据的学科质量评价体系奠定了基础。对于首次进入数据库的上海高校学科样本进行初始化和分类,对于已进入数据库的高校学科样本进行动态监测和评价。通过对学科的动态评价,教育主管部门能更便捷地了解上海高校学科的布局结构和发展现状,为今后拓展发展性评估奠定基础。

4 总结

在对现有的高校学科评价方法进行广泛调研、认真分析的基础上,我们提出了一种基于加权朴素贝叶斯模型的高校学科分类方法,构建了高校学科分类预测系统,并对上海高校学科样本进行应用分析。此方法的研究和应用,有助于揭示高校学科的发展趋势及所处的发展阶段,预测未来可能取得的进展和突破,为教育主管部门和高校制定新一轮的学科发展战略提供基本依据。

在未来工作中,希望根据高校学科的特点,进一步开展贝叶斯网络在高校学科分类中的研究,对高校学科进行更科学合理的评价。

参考文献

[1] 韩文瑜,梅士伟.把握学科规律培育学科文化促进学科发展[J].中国高等教育,2011(7):22-24.

[2] Hood W.W, Wilson C.S. The literature of bibliometrics, scientometrics,and informetrics [J]. Scientometrics, 2001, 52(2): 291-314.

[3] Marijk van der Wender. Ranking and Classification in Higher Education: A European Perspective [J]. Higher Education, 2008(23): 49-71.

[4] Jamil Salmi, Alenoush Saroyan. League Tables as Policy Instrument: Uses and Misuses[J]. Higher Education Management and Policy(OECD), 2007, 19(2): 24-62.

[5] 教育部学位与研究生教育发展中心.学科评估工作简介[EB/OL].

http://www.chinadegrees.cn/xwyyjsjyxx/xxsbdxz/ 276985.shtml, 2013-12.

[6] Moed H F. Bibliometric Rankings of World Universities [R]. The Netherlands: Centre for Science and Technology Studies (CWTS), Leiden University, 2006.

[7] Center national de la recherche scientifique. Missions [EB/OL]. http://www.cnrs.fr/en/aboutCNRS/overview.htm, 2014-10.

[8] Aghion P, Dewatripont M, Hoxby C, et al. The governance and performance of universities: evidence from Europe and the US [J]. Economic Policy, 2010, 25(6): 7-59.

[9] Jiawei Han, Micheling Kamber, Jian Pei. Data Mining: Concepts and Techniques [M]. 3rd ed. Morgan Kaufmann, 2011: 390-395.

[10] 教育部学位与研究生教育发展中心.2012年学科评估指标体系 [EB/OL].

http://www.chinadegrees.cn/xwyyjsjyxx/xxsbdxz/ 277134.shtml, 2013-3.

[11] Carlo Batini. Data Quality: Concepts, Methodologies and Techniques [M]. Springer-Verlag Berlin and Heidelberg GmbH & Co. K, 2010: 133-143.

[12] CAI Z, Identifying product failure rate based on a conditional Bayesian network classifier [J], Expert Systems with Applications, 2011, 38(5): 5036-5043.

[13] 上海市政务门户网.上海高校一流学科名单公布[EB/OL].http://www.shanghai.gov.cn/shanghai/no de2314/node2319/node12344/u26ai33230.html, 2012-9

Application of Weighted Naive Bayes Model in Discipline Evaluation

Xia Yan1, Xu Na2, Shu Jian3, Feng Hui1
(1.Shanghai Education Evaluation Institute, Shanghai 200031, China; 2.Shanghai Municipal Education Examinations Authority, Shanghai 200235, China; 3.Shanghai General Motor, Shanghai 201206, China)

Abstract:Discipline evaluation is an important part in higher education evaluation. It plays a significant role in discipline construction in colleges and universities. It is significant challenge how to adopt scientific discipline evaluation to choose advantageous disciplines and newly-emerging ones. This paper proposes a discipline classification method based on Weighted Naive Bayes model. It establishes Discipline Classifier according to weighted discipline evaluation attributes and mutual information. An automatic discipline classification system is implemented, verifying the method and analyzing data from universities in Shanghai. Experimental results show that the used scheme can achieve about 86.67% accuracy in forecasts. It provides advice and guidance for discipline evaluation, and establishes foundation for discipline development strategy.

Key words:Data Mining; Naive Bayes; Evaluation Indicator; Discipline Classification; Discipline Evaluation

收稿日期:(2015.11.02)

作者简介:夏 燕(1981-),女,上海市教育评估院,工程师,硕士,研究方向:数据挖掘、高校学科评价等,上海,200031 徐 娜(1982-),女,上海市教育考试院,工程师,硕士,研究方向:软件工程、教育信息系统等,上海 200235 舒 健(1982-),男,上海通用汽车有限公司,工程师,硕士,研究方向:数据挖掘、自动化控制等,上海,201206 冯 晖(1970-),男,上海市教育评估院,副研究员,博士,研究方向:系统评价、高等教育管理等,上海,200031

基金项目:上海市教育委员会上海高校青年教师培养资助计划(编号:ZZPGY14002)

文章编号:1007-757X(2016)01-0015-04

中图分类号:TP181

文献标志码:A

猜你喜欢

学科分类评价指标数据挖掘
探讨人工智能与数据挖掘发展趋势
高校二级学院科研管理模式研究
基于并行计算的大数据挖掘在电网中的应用
审计学成为一级学科可行性研究
第三方物流企业绩效评价研究综述
基于UML的高校思想政治教育工作评价系统的分析与研究
公共文化服务体系评价指标的国际经验与启示
资源型企业财务竞争力评价研究
中医药信息学教育发展历程回顾与学科发展现状分析
一种基于Hadoop的大数据挖掘云服务及应用