APP下载

基于K-means聚类技术的博士招生质量研究

2018-11-26

沈阳大学学报(社会科学版) 2018年5期
关键词:同质生源博士

姜 云 飞

(福州大学 研究生院, 福建 福州 350116)

随着我国经济由高速增长阶段向高质量发展阶段转变,创新成为第一动力, 而人才是创新的第一资源,作为学位与研究生教育最高学历层级的博士研究生教育,应真正肩负起培养高层次人才的使命, 培养出高质量拔尖创新人才。 2017年1月,教育部、国务院学位委员会印发的《学位与研究生教育发展“十三五”规划》再次强调, 我国学位与研究生教育改革发展要以“服务需求、提高质量”为主线。 博士研究生教育不能单纯追求规模发展, 更应注重质量提升, 这是社会经济发展之需。

研究生教育分为招生、培养、学位三个主要环节,各环节相互影响,相互作用,其中招生是基础,是提升研究生教育质量的首要环节。博士研究生招生环节的选拔方式、考生来源、指标分配等都更为复杂,如何科学合理地优化选拔方式、提升生源质量,是博士研究生招生工作研究的重点,也是提升博士研究生教育质量的关键。

一、 博士研究生招生现状

近年来,我国不断深化博士研究生招生制度改革,赋予招生单位相对更大的自主权,在传统的普通招考、硕博连读、直接攻博三种方式的基础上,积极推进完善“申请-考核”制招生选拔机制,四种方式具体的招收对象和选拔方法见表1。

根据招生方式的不同,招收对象和选拔方式也有所不同。招生方式、专业、对象和选拔方法,会直接影响招生单位招生的结构质量、生源质量和选拔质量,从而影响到宏观的研究生招生质量。如果通过分析研究生招生的历年数据,能够发现优质生源的特征,找到研究生招生的结构质量、生源质量和选拔质量的影响因素,就可以在研究生招生环节采取有效措施,科学优化各种招生选拔方式方法,从而有效地提升研究生招生质量。

表1 博士研究生招生方式情况表

二、 招生数据聚类分析

1. K-means聚类技术

K-means聚类技术是一种经典的聚类算法,它将数据对象分成类或簇,最终使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异[1]。K-means聚类过程具体概括为:从数据集D中任意选择k个对象作为初始簇中心;重复上述过程;根据簇中对象的均值,将每个对象(再)指派到最相似的簇;更新簇均值,直到均值不再发生变化。

博士研究生招生是一项周期性工作,招生阶段会产生大量的数据,借助K-means聚类技术,发掘数据背后蕴藏的规律,可以有效辅助招生工作。

2. K-means聚类实验

各招生单位博士研究生招生的各个环节,都必须采用教育部统一制定的全国博士研究生招生标准信息库,统一的标准数据结构为有效地进行数据聚类分析提供了必要条件。全国标准信息库结构是多维的,涉及67个字段,但并不是每个字段都是直接有效数据。通过查阅文献[2]、反复实验和借鉴以往工作经验,更考虑到博士生毕业成绩等相关数据的可得性,本实验采用2012—2014年某高校博士研究生录取数据库数据,以便考察博士生在学期间的全部学习、科研等指标,以及毕业时的成绩状况,更有效地评价考生的整体素质,进而证明实验的有效性。

实验筛选了年龄、性别、学科、录取信息、学历信息、考试成绩、考试方式、考生来源、就读学校、就读专业与录取专业相近度等35个字段。具体实验过程包括:数据预处理、通过测试确定K-means算法的K值、使用K-means算法聚类和聚合类簇的有效性分析等步骤。

3. 实验结果分析

聚类结果的评估指标主要有聚类准确率、同质度、分离度等[3],针对算法应用层面,博士研究生招生数据类别具有模糊性,无法用准确率指标判断实验有效性,只能采用同质度、分离度指标分析聚类结果。同质度通过计算属于同一特征类中的各点与中心点的平均距离,反映同一类数据之间的紧密程度;分离度通过计算各个特征类的中心点之间的平均加权距离,反映不同特征类之间的分离程度。同质度越小,分离度越大,数据聚类的质量就越好。

实验进行了29次迭代,最终聚合形成4个类簇,每个类簇的同质度、分离度都达到了稳态,具体情况见表2。其中,类簇内部对象分布相对紧凑,如图1所示。最小同质度为5.903,最大同质度为27.880,大部分同质度都分布在0~30之间,分布相对集中;类簇间的类中心相距较远,最小分离度为114.586 4,最大分离度为246.715 5,分布相对疏远。每个类簇的分离度都远大于同质度,分离度与同质度的最小差值为90.259 4,最大差值为240.812 5。同质度相对较小,分离度相对较大,实验的聚类结果质量良好。

图1 类内平均距离分布图

4. 实际意义解读

从研究生招生的时间顺序来看,研究生招生质量可解构为结构质量、生源质量、选拔质量三种重要的质量内涵[4]。K-means聚类算法应用于博士研究生招生质量分析,除了聚合的实验结果有效之外,实验结果必须是可解释的、可理解的和可应用的。根据研究生招生质量内涵,解读聚合形成的类簇质量情况如下。

(1) 结构质量。研究生教育结构是包含学位层次、学位类型、学科门类等在内的复杂多维结构模型,而招生专业目录是开展招生工作的基础,学科、专业、导师等关键要素是保障研究生结构质量的关键环节。在实验形成的最终类簇中,如果某个类簇涵盖的优势学科、强势专业和高层次导师比例高,则体现了良好的结构质量。教育部发布的“一流学科”代表了各招生单位的强势学科和发展方向。全国第四轮学科评估结果为B+以上学科也是各招生单位的优势学科,院士、长江学者、国家杰出青年科学基金获得者等高层次人才是各招生单位的学科带头人。实验结果从此三个指标分析招生的结构质量,具体见表3。类1在双一流学科、学科评估B+以上学科、高层次学科带头人方面都表现最优秀,其研究生结构质量优异;类4在学科评估B+以上学科方面表现突出;类2和类3在三个指标方面都相对落后。

(2) 生源质量。研究生教育归根结底是人的教育,衡量生源质量好坏也是评价人的综合素质。权衡人才综合素质的指标与博士研究生招生数据相结合,主要包括考生学历背景、成绩情况、考生性质、毕业时间、年龄等指标,具体见表4所示。类1的考生以硕博连读为主体,均为在读硕士研究生,且所学专业与录取专业一致,学历背景多毕业于“211”工程以上院校,平均年龄较小,从研究生培养经验而言,该类生源最受欢迎,生源质量评价优异;同为普通招考的类2和类4中,类4中成绩、学历背景、应届生所占比例、在职考生生源情况、平均毕业时间、平均年龄均优于类2;类3为同等学力考生,所占比例较小。

表3 聚类结果结构质量情况表

表4 聚类结果生源质量情况表

(3) 选拔质量。选拔质量指选拔结果的合格程度和选拔方式的合理程度。选拔录取后学生的学习成绩、科研情况、获奖情况、毕业论文、按时毕业等指标是评估选拔质量高低的最佳指标。本实验选择2012—2014年间数据,也是为了更好地评估选拔质量,具体情况见表5。类1的考生发表论文、获奖、论文送审、答辩成绩、按学制准时毕业率等指标表现最为突出,选拔质量优秀;普通招考为主的类2与4类形成对比,类4在学习成绩方面最为突出,发表论文、论文送审、答辩情况、按学制准时毕业率也占优势,类4的选拔质量好于类2;类3的指标表现较差。

表5 各类考生攻博期间情况表

综合考量结构质量、生源质量和选拔质量的情况,以硕博连读生为主的类1招生质量最为优异。以普通招考为主的类2、3、4中,类4的招生质量较好,其结构质量、生源质量、选拔质量均优于类2、3。类3以同等学力考生为主,招生质量表现最差。

三、 博士招生建议

利用K-means聚类算法最终的实验结果,结合我国博士研究生招生的四种选拔方法,针对博士研究生招生质量提出建议。

1. 根据招生单位特色,适当扩大硕博连读生招生比例

根据聚类结果分析,类1的硕博连读生招生质量最为优异,结构质量、生源质量和选拔质量,均表现最佳。该类考生入学后培养阶段,在学习成绩、论文情况、获奖情况等均表现最为优异,73.01%的硕博连读生均可按时毕业。因此,在招生政策制定、资源分配过程中,应适当扩大硕博连读生的招生比例。扩大的方向既应该考虑到以“一流学科”等为主的强势学科的需求,又应该考虑到导师群体的实际需要,充分发挥导师发掘人才的主观能动性。

2. 探究优秀生源内在特征,科学合理降低普通招考考生比例

近年来,随着博士招生制度改革的不断深化,以初试笔试为主的普通招考选拔考生的数量逐步降低,部分“双一流”招生单位甚至取消传统的笔试考试方式。但是,我国研究生招生单位众多,各招生单位均有自身的校情,导师、学科等结构质量不同,生源质量不同,选拔方式也应该不同。从聚类结果来看,普通招考类选拔方式能招收到生源质量优异的考生,但也存在着相当比例的无法按时毕业等不良考生,因此,各个招生单位应该逐步控制考试类考生比例。

科学合理地降低考试类考生的数量是各个招生单位待解的难题。近年来数据挖掘、大数据等技术手段发展迅速,各个招生单位可以根据多年的数据积累,筛选出适合普通招考类的优质生源。例如,学历背景好、专业相关性强、毕业时间短、平均年龄小等特征,在本次实验中被验证为优质生源的重要指标,而同等学力考生、在职考生等出现不良考生的概率较大。因此,借助先进的数据分析技术,探索优质生源的内在特征,可以科学合理地设定普通招考类考生的招生范围,既降低了普通招考类考生的招生比例,又提升了该类考生的生源质量。

3. 丰富选拔手段,探索适合校情的“申请考核”制选拔方式

传统的笔试选拔方式仍是目前我国博士招生的主流,但其拥有自身的局限性[5],需要建立多层次的博士招生选拔体系。“申请-考核”制是招生选拔考试发展的主要方向。清华大学、天津大学等世界一流学校逐步全面实施“申请-考核”制招生方式,其他更多的招生单位也开始探索。从聚类实验结果分析,免笔试的硕博连读选拔类别的类1,具有良好的招生质量,代表着该招生单位已经具备了开展“申请-考核”制招生的基本条件。招生单位的哪些专业、哪些导师、哪些考生适合“申请-考核”制选拔方式,是“申请-考核”制招生的一大难题,也是进一步实践与研究的方向。

猜你喜欢

同质生源博士
长洲怡生源记货单考论
制冷博士来帮忙
农村生源不是“摇钱树”
神奇博士感冒了
“形同质异“的函数问题辨析(上)
博士蚊
同质异构交联法对再生聚乙烯的改性研究
浅谈同质配件发展历程
聚焦国外同质配件发展历程
高校生源危机:“狼真来了”