APP下载

基于机器学习的社会科学成果评价方法研究*

2023-10-09于海涛

图书馆学刊 2023年8期
关键词:社会科学分类器准确率

李 君 高 雨 于海涛 李 菲

(1.哈尔滨工业大学图书馆,黑龙江 哈尔滨 150080;2.哈尔滨华德学院流程IT中心,黑龙江 哈尔滨 150025)

1 引言

社会科学的繁荣与发展,是人类社会发展进步的标志,社会科学的研究水平和研究成果,是衡量一个国家综合国力的重要构成部分,对社会系统的发展具有重要的作用。而如何建立科学的哲学社会科学科研评价和激励机制也是科研评价的重要议题。一方面,它对科研经费的拨转、科研计划的设计和制定以及对科研人才的培养有着强有力的导向作用;另一方面,它反映了一个国家、一个单位的科学研究水平和科技实力。近年来,对社会科学成果进行评价是学术界普遍关注的问题,目前采用的评价方法一般可分为定性和定量评价这两种。定性评价一般是通过同行评议来实现,其能够充分发挥同行专家的经验和智慧,减少因信息不全而带来的局限,因此在国内外应用十分广泛,但也会因评议专家与被评议内容之间的专业差异影响评价的公正性和客观性。随着科学计量学的兴起,越来越多的科研机构将文献计量学、数学和经济学等学科的评价方法引入对科学成果的评价,并将其作为科研管理和决策的重要依据。定量评价引入社会科学领域后,在科研管理中逐渐得到广泛应用,但随着一些高等院校和研究机构将定量评价方法进行简单化以及过度应用,该方法也遭到了不少的非议和责难。目前社会科学的评价方法一般将定性分析和定量分析相结合,通过同行评议来实现定性评价,同时也兼顾数量的因素,实现质量和数量的统一。

2 社会科学成果评价研究现状与问题

定性评价和定量评价是社会科学评价的两种基本方法。定性评价一般是通过同行评议来实现,在学术水平相当或略有差距的情况下,评议专家容易向自己熟悉的研究人员的项目、成果等倾斜[1]。定量评价按照数量的分析方法,从客观量化的角度来评价社会科学成果,在科研管理中得到了广泛应用。许梅华运用文献计量学、层次结构分析法、专家评审等方法,对人文社会科学成果评价指标体系进行了深入研究[2]。杨帅等运用引用次数、相对影响力和社会网络指标来评价社会科学成果。王一华采用基于IF(JCR)、IF(Scopus)、H指数、SJR值、SNIP值的研究方法对期刊评价进行研究[3]。刘春丽则提出了一种基于软同行评议F1000因子的方法来对科学论文影响力进行评价[4]。结果表明,任何一种评价方法都有适用范围,一旦脱离这个适用范围,就很容易出现问题[5-6]。目前许多社会科学成果评价出现问题,主要是没有选择合适的评价标准和评价方法造成的。姜春林等人认为构建科学、公正、合理的人文社会科学评价指标体系,一直是研究机构和学术界的共同愿望[7]。

机器学习作为多领域交叉学科,研究的核心是使用算法来解析数据,从已知数据中学习,然后在未知数据上做出决定或者进行预测。它是一种数据分析的技术,使得计算机能够模拟人的学习方式,直接从数据中学习信息。在分类这个问题上,研究者常用的方法包括向量空间模型[8]、朴素贝叶斯方法(NBM)[9]、支持向量机(SVM)算法[10-12]、决策树算法[13]、K-近邻算法(KNN)[14-15]、随机森林算法[16-17]。文献中大多是用机器学习来对文本的主题分类,在对社会科学成果评价分类的应用上少之又少。基于此,笔者研究如何利用机器学习的方法来鉴定社会科学成果,研究的科学成果包括著作、调研报告、期刊论文、会议论文、快报等各种类型文献,根据论文题名、摘要、关键词、期刊、作者、基金等多种信息,构造合适的属性向量空间,再利用机器学习方法来识别不同奖项的论文类别,以提高社会科学成果评价效率,同时与专家评审、同行评议等相结合,提高社会科学成果评价的客观性和全面性。

3 机器学习社会科学论文分类评价研究方法

3.1 社会科学成果属性空间的构建

科学文献是一个多维信息载体,其包含的信息包括科学成果的发表年代、期刊、作者、所属国家、领域等,根据信息的所属范围可将其转化为文献具有的特征X:

其中xi(i=0,1,2,…,n)表示社会科学成果的特征描述,分别表示文献的引文、发表年代、发表期刊、作者、机构等。用n个特征来表示成果,特征值的大小表示影响力的大小。

3.2 社会科学成果分类研究方法流程

基于机器学习的研究方法通常可分成如下几个步骤:

(1)数据采集:根据任务确定需要的数据类型,搜集相应数据并根据质量进行筛选。一般来说,为获得高质量的数据,需要对数据进行处理,包括缺失值处理、重复值处理、数据类型的转换等。这里将采集的黑龙江省社会科学成果评选结果作为数据源,并结合数据库检索手段补充需要的属性字段。

(2)特征选择:根据特定的问题领域的性质,选择出有明显区分意义的特征。在选择或设计特征的过程中,挖掘了若干容易提取、对不相关变形保持不变、对噪声不敏感以及对区分不同类别的模式很有效的特征集,来构建所需的特征向量空间。

(3)算法选择:根据之前选择的特征集来寻找可用于分类的函数。通过在函数空间中找到一组能够对已知数据进行拟合的函数,来对未知数据的类别进行分类。

(4)训练:利用训练数据的特性建立一个简单的分类器。用已有的数据,通过最优化方法确定函数的参数,参数确定后的函数就是训练得到的结果。搜集黑龙江省社会科学成果获奖文献数据,将其划分为训练集和测试集,分别用于对模型的测试和评估。

(5)评价:评价对于系统性能的改进起着重要的作用。评价一个分类器的好坏,不仅要考虑分类器的精度,保证其在已知数据上具有很高的准确率,同时也要考虑分类器的泛化能力,保证其具有识别和分类未知数据的能力。

3.3 分类算法

分别使用朴素贝叶斯(NBM)、随机森林(RFA)、支持向量机(SVM)以及K-近邻算法(KNN)来对社会科学研究成果进行分类,识别不同社会科学研究成果所属的级别,包括一等奖、二等奖和三等奖等,以供社科成果鉴定评价参考。

(1)朴素贝叶斯(NBM):朴素贝叶斯法是基于贝叶斯定理以及特征之间条件独立性的分类方法,在监督学习领域有着很重要的应用。对于给定的训练数据,首先基于特征条件独立假设学习输入和输出之间的联合概率分布,在此基础上,对于给定的输入,利用贝叶斯定理求出其所属的类别。研究结果表明朴素贝叶斯分类器是具有不错的学习效率,同时也拥有不错的分类效果的分类器之一[18]。

(2)随机森林(RFA):随机森林是一个通过建立多个决策树,并将所有决策树融合起来,得到一个更加准确和稳定的结果的分类器。对于一个样本,经过决策树处理会得到一个分类结果,选择所有决策树的分类结果中最多的类别作为该样本的最终分类。研究证明随机森林预测准确率高并且具有很好的噪声容忍度,不容易产生过度拟合。

(3)支持向量机(SVM):支持向量机是一个用于二分类的机器学习模型,在统计分类以及回归分析领域应用广泛。它是一种监督学习,通过在包含正负样本的训练数据集找到几何间隔最大的超平面,来对样本中的正例和反例进行分割,不仅保证对训练数据进行分类具有很高的确信度,同时对未知的新实例有很好的分类预测能力。SVM是一种适用于小样本学习的方法,不涉及概率相关知识,简化了通常的分类和回归等问题,同时也具有优秀的泛化能力。

(4)K-近邻(KNN):KNN分类算法是一种典型的非参数、有效、较流行的惰性学习方法,可用于回归和分类任务。该方法检查目标数据点周围的K个数据点的标签,选择出现次数最多的标签对该目标数据进行归类。由于其不对数据进行任何假设,因此可以用于各种各样的问题。

(5)主成分分析(PCA):主成分分析作为一种数学方法和有力的数据分析工具,几乎在所有学科中都有它的身影。其通过一个正交化线性变化,把原始的n维特征映射到k维上,这种k维全新的正交特征也被称为主成分。通过将高维数据映射到低维空间,实现对数据的降维。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。

4 实测检验与结果分析

4.1 数据采集与处理

选取陕西省社会科学界联合会(网址:http://www.shaanxi.gov.cn/)的第11届和第12届社会科学期刊论文评选的所有获奖论文和第10届评选中获一等奖的论文作为原始数据,如表1所示。

除去数据库检索不到的论文,共获得198个样本,其中一等奖15个,二等奖53个,三等奖130个。经文献调研挖掘确定论文质量评价指标,选取其中便于量化且具有较好表征性的数据,确定论文的特征向量空间,并基于社会科学论文特征列表采集每一篇论文的相应数据,构建原始数据表,如表2所列。其中,发表年限从2016年开始至今,其他数据为实际采集数据。

表2 社会科学论文特征列表

为了消除不同评价指标的量纲差异,使得数据不同指标之间具备可比性,需要对数据进行归一化和标准化处理。选择min-max标准化方法,对原始数据进行变换,将其映射到0和1之间。转换函数X如下:

其中,Xmax为样本数据中的最大值,Xmin为样本数据中的最小值。

4.2 基于十折交叉验证的分类器选择与测试

为了测试不同分类算法的准确性,选择十折交叉验证的方法,辅助选择合适的分类器。十折交叉验证通常是将数据集分成10份,轮流取出其中的一份数据作为测试数据,其他数据作为训练数据进行试验。每一次实验都会得到一个相应的正确率指标,取10次结果的平均正确率来估计算法精度。

按照机器学习的研究方法对数据作出处理,进行十折交叉验证,得到不同分类器的指标如下。

根据表3的结果,在使用原始数据时,随机森林方法对数据进行分类的准确率要明显高于其他几个分类器,准确率可以达到69.3%,支持向量机次之,准确率为60%左右。对数据进一步标准化处理之后,不同分类器的准确率会得到进一步提升,其中K-近邻算法准确率的提升幅度最大,从57.2%提高到了65.7%。在所有的结果中,使用随机森林对数据进行分类的准确率都要好于其他几个分类算法。

表3 基于十折交叉验证的多分类器测试结果

随机选择样本集中150个作为训练集,并将剩余的48个数据作为测试数据,使用随机森林进行分类得到的结果。根据结果,随机森林对第三类三等奖的识别精度最高,准确率为93%,对第一类和第二类的论文识别精度较低(见表4),这是数据量较少,样本分布不均所致,收集更多的训练数据可以进一步提高识别的准确率。

表4 随机森林算法三分类测试结果

4.3 主成分分析分类优化与测试

为了提高3种获奖论文的分类精度,对研究方法做了进一步优化:采用主成分分析对论文特征向量进行降维。将社会科学论文特征列表x1~x14作为自变量,分类标签y作为因变量,输入SPSS软件平台,进行降维因子分析。所得结果见表5。

表5 主成分分析KMO与Bartlett检验

KMO检验是从比较原始变量之间的简单相关系数和偏相关系数的相对大小出发及逆行的检验,该值越接近1,说明变量越适合进行主成分分析。根据表5,KMO检验值该值等于0.678,说明可以进行因子分析。根据表6可以提取6个主成分,最后得到主成分系数矩阵PCA,如表7所示。

表6 主成分分析说明的变异数(撷取方法:主体组件分析)

表7 主成分分析主成分系数矩阵

使用主成分分析对原始数据进行降维之后,使用随机森林进行分类可以使分类精度提高至77%。若将第一类和第二类的数据合并为一类,再进行二分类,分类精度可以有少许提高,达到79%。

实验结果表明,将社会科学成果自动分类为一二三等奖等若干级别,用随机森林算法来分类识别一二三等奖的论文,数据未经标准化时,分类识别的准确率为69.3%,标准化后分类识别的准确率为70.8%。为进一步提高模型的性能,使用主成分分析,可以从14个属性特征中提取出6个主成分,再与随机森林算法结合分类识别各奖项论文,识别准确率可以达到79%,从而减少了不相干成分对分类结果的影响,进一步提高了分类精度。

5 结论

对人文社会科学成果进行评价是科研管理工作中的一项重要内容,常规专家评审、同行评议、引用次数或影响因子单指标评价等评价方法存在一定片面性。笔者选取陕西省社会科学界联合会网站连续3年的社会科学期刊论文一等奖、二等奖、三等奖论文集,以论文被引次数、发表年限、下载次数、影响因子、参考文献数量、英文参考文献数、作者个数、作者单位、合作单位、基金资助情况、是否有数理模型、图表情况、案例情况和调研情况等14个论文属性特征构建论文特征属性空间,并将论文获奖等级作为输出分类标签。数据经最大最小化归一化后,再用十折交叉验证法在朴素贝叶斯方法(NBM)、支持向量机(SVM)算法、最近邻算法(KNN)、随机森林算法(RFA)中选择合适的分类器。结果表明,将机器学习的方法应用于人文社会科学成果自动分类评价,可以提高社会科学成果评价效率,同时也保证识别的精度。使用机器学习结合论文多层次属性建模,分类精度,有助于决策者做出准确、客观的评价。

首先,使用机器学习的方法来研究对社会科学成果进行评价的可能性。机器学习多用于文本的主题分类,如对短文本话题分类、情感计算等,首次将机器学习方法用于社会科学成果评价分类。按照机器学习的处理流程完成了样本数据的收集和清洗、分类算法的选择和设计以及对算法的评估。在数据不充足的情况下,使用机器学习方法来对社会科学成果进行分类可以取得比较高的准确率。结果表明,使用机器学习方法进行社会科学成果评价在提高评价效率的同时,也拥有较好的识别精度,可以对常规评价方法进行补充。

其次,根据论文的属性构建适用于机器学习的特征空间。科学文献是一个多维信息载体,其包含的信息反映了科学成果的重要程度。为了更好地对其进行量化,将其映射到特征空间,根据论文具有的自身属性和外部属性,构建了适合机器学习分类器的社会科学论文属性特征空间,并使用标准化方法来消除不同量纲的影响。该课题构造的论文属性特征空间具有较强的普适性,获取便捷,可适用于与之相关的其他领域。

最后,科学选择合适的分类方法。为了选择出最好的分类器,课题采用了十折交叉验证法,使用不同分类器进行实验,选择其中效果最好的随机森林作为课题使用的分类器。为了减少不相干成分对分类结果的影响,进一步使用主成分分析方法来对原始数据进行降维,并对降维后的数据再分类,进一步提高了分类精度。

为了进一步验证基于机器学习分类方法的科学性和优越性,还需要采集更多的数据进行实验,来降低数据规模小带来的消极影响,如采集多个省份的数据,以规避单个省份评奖规则可能存在的片面性。此外,还需采集更多的一二等奖的数据,来消除数据分布的不平衡,提高分类器识别一二等奖的精度。

猜你喜欢

社会科学分类器准确率
《云南社会科学》征稿征订启事
《河北农业大学(社会科学版)》2021年喜报
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
高速公路车牌识别标识站准确率验证法
BP-GA光照分类器在车道线识别中的应用
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
数学在社会科学中的应用