人力资源管理中的评分者偏差及其控制方法
2016-11-17李英武魏敏媛彭坤霞丽
· 李英武 魏敏媛 彭坤霞丽
人力资源管理中的评分者偏差及其控制方法
· 李英武魏敏媛彭坤霞丽
在所有人力资源管理涉及主观评价的环节,常常会受到评分者个体差异或个体差异与情境交互作用影响而产生偏差,这些主观偏差往往会影响人力资源管理的科学性和公正性。当前,评分者宽容误差和晕轮误差是研究领域关注最多的两类主观偏差,大量的研究揭示可以采用多质多法、概化理论以及项目反应理论等测量理论对人力资源管理中的评分者偏差进行甄别,有效降低评分者偏差对人力资源管理的负作用。
人力资源管理 评分者偏差 宽容误差 晕轮误差
人力资源甄选的目的在于评估应聘者的个体差异,寻找人岗相适符合组织发展需求的应聘者。但是,近期大量的研究揭示这样一个规律,就是在人力资源甄选以及绩效评估等环节,特别是面试、无领导小组、评价中心、绩效上级评估涉及人力资源管理者进行主观赋分的测评环节,评价结果数据往往会反映一部分评分者的特征,如不同的评分者可能对面试题目或绩效评估标准有着自己的理解,评分者对特定的应聘者存在刻板印象,这种由评分者个人特征对测评结果造成的偏差分数,学界取了名称叫“评分者偏差”,这些偏差隐含于整个人力资源主观评价诸多领域,如人力资源招聘、绩效评估、竞聘上岗、人才盘点等环节,甚至一些资深人力资源管理者也未必意识到,但实际上却会对人力资源管理的科学性和公正性造成重大的影响。因此成为人力资源管理领域关注的热点问题。
一、什么是评分者偏差
那么什么是评分者偏差呢?Hoyt(2000)认为评分者偏差就是评分者间产生的意见分歧。Lumley和McNamara(1995)认为在整个人力资源管理中所有涉及主观评分的过程都可能会产生评分者误差,其中一部分误差为随机误差,即随机的不容易进行系统分析的误差,如人力资源甄选评分当时的天气环境因素或者评分者的情绪状态等,这些误差随机出现,虽然能够察觉但是往往在实践时关注不够。另外一部分误差是由评分者的个体差异导致的误差,如评分者的宽严度(severity),评分者宽严度比较隐蔽,以系统性模式隐含于测评结果中,而且比较难于发现。如评分者会对某一类应聘者(或员工),某个选拔题目或绩效评估标准更为严厉或宽松,也就是说评分者的个体差异与评分情境发生了交互作用,这种交互作用影响了测评的一致性和有效性程度。Campbell和Fiske(1959)认为人力资源中第二种误差更隐蔽也更具危害性,这种偏差隐含于评分结果中,但测评分数或者观测分数(observed scores)有部分误差并非被试的真实能力结果,属于与评价无关的系统性误差。Wigglesworth(1993)将这种评分者偏差解释为评分者与评分环节各个方面交互呈现出来的系统性模式。
那么评分者偏差有哪些来源呢?Lumley和McNamara(1995)根据评分过程的不同,将评分偏差从评分者本人、评分量表、评分对象,认为评分者偏差主要来源于以下五种渠道:一是评分者本人的宽严程度不同所导致的评分者偏差,评分太宽松或评分太严厉,都会降低评分有效性;二是评分者之间在自身内部一致性程度上存在的差异,如有的评分者评分标准掌握比较好,评分尺度把握稳定而有的评分者在评分时忽宽忽严,评分稳定的评分者与不稳定的评分者之间的差异;三是评分者观察被试行为的时机不同而出现的评分差异;四是评分者对被试的认知存在分歧,即对相同外显行为的归因解释或认知评价不同而导致的评价;五是评分者对评分量表、评分等级的理解不同而出现的差异。其中评分者的宽严程度与评定任务之间还存在交互作用,当评定任务较难时,等级较多标准较为复杂时(如人力资源管理中流行一时的360度评价)不同的评分者在交互作用中会呈现不同的偏差模式(Hoyt, 2001)。
二、评分者偏差的类型
Hoyt(2000)在研究中发现,既往研究主要将评分者偏差分为两类:一类叫宽容误差(leniency errors),另外一类称为晕轮误差(halo errors)。宽容误差由不同的评价来源造成(Sharon & Bartlett, 1969)。一般来说,自我评价比上级评价和同事评价更宽容,其中上级评价和同事评价差异不大(Sundar & Kardes, 2015)。Myford和Wolfe(2003)认为除了上述评分者偏差外,还有全距限制(restriction of range)和中心化趋势(central tendency)。全距限制是指评分者倾向给的分数受到全距分数的限制,造成不容易区分高分者或低分者;中心化趋势也叫居中趋势、集中趋势,是指评分者给受评者的分数围绕平均数或众数上下波动,分数范围较小。例如,人力资源管理中曾经应用非常广泛的360度评级体系,通常对绩效评价的10等级评分进行值域限定,这样管理者或者顾客在进行评分时,由于限定了评分等级,只能在1至10等级进行选择,由此产生的测量误差,即全距限制。此外,我们在银行柜台办理相关汇款业务后,有时柜员会请你对他(或她)的服务进行满意度进行评价,在“满意”“一般”“不满意”三个等级中进行选择,限定的评价等级也会产生此类全距限制评分偏差。研究揭示,使用限定的评分等级进行评分,顾客的评分通常会向上偏移,出现“宽容偏差”(Hoyt, 2000)。
晕轮误差表现为同一评分者评价变量间的高相关性而造成这一现象的原因主要源于管理者对员工的总体印象会影响特定绩效评估维度上的评分(Lance et al., 1994)。。例如,某位应聘者在面试环节,语言表达流畅,这时人力资源经理在面试评分时可能会将应聘者知识、技能、认知能力等维度评分都评定的较高,这样同一位人力资源经理在不同维度语言表达能力、知识、技能、认知能力等变量间就存在“以总概偏”,即晕轮误差。在绩效评价领域的研究中,学者们发现在很多绩效评定过程的大部分评分偏差其实是由晕轮效应引起的,这些特定的、系统的晕轮效应显著解释了大部分评分偏差(Viswesvaran et al.,2014)。晕轮误差可能是大多数人力资源管理中主观测评中最严重的问题之一,会降低绩效评价的区分度。
此外,也有研究者分析了不同评分者间的差异对绩效评估分数影响,发现可以将评分者偏差进行区分。在人力资源管理中,通常会存在多个评分者(或者是上级管理者)评价多个员工的情况,评分者间的评分偏差也会影响员工最终绩效评定的测评均值、测评方差。例如,评定分数膨胀(grade inflation)就是评分者偏差影响测评均值的一种。评分量表规定达到平均水平的员工可以给年度成绩C,但如果所有评分者都将C理解为不及格的成绩,就很可能造成所有员工绩效成绩都高于平均水平这样违反现实的情况发生。不过由于所有评分者的评分偏差恒定,分数膨胀并不会影响员工的排名,所以许多研究都不考虑这一问题。当评分者的评分偏差不定,员工的排名受到评分偏差的影响时,问题就较为复杂了。
Viswesvaran(2014)等认为评分者特定偏差(rater-specific bias)或二元特定偏差(dyad-specific bias)都可能影响绩效测评的方差,或者说绩效评估的离散程度。Viswesvaran等(2014)指出如果一些评分者认为C是个令人满意的成绩,而另一些评分者认为C是个不及格的成绩,就出现了评分者特定偏差,类似于宽容误差。二元特定偏差更为复杂,如果部分评分者或所有评分者让一些与绩效无关的被试的特质(例如是否具有吸引力,书写是否美观)影响了评分,那么评分者对被试的不同印象就会影响测评成绩的方差。评分者特定偏差和二元特定偏差都会降低被试排名的可信度,但由于某一评分者对不同被试的评分偏差不同,二元特定偏差很难估计或纠正。
当评分者偏差影响测评方差时,相伴而生的另一个问题就是评分者特定方差(rater-specific variance)或二元特定方差(dyad-specific variance)对测评变量间相关性的影响。如果评分者在若干变量上为被试打分,由于偏差协方差的存在,观测到的测评变量间的相关性可能不同于真实的(无偏差的)相关性。例如,如果某位管理者在各个绩效考核维度上都给自己偏爱的员工打高分(二元特定方差),则维度间的相关性就提高了;如果员工不都由同一批管理者打分且评分者特定偏差(测评时评分者个人的宽容程度)和测评维度相一致,那么维度间的相关性也会提高。
三、如何甄别评分者偏差
(一)采用传统经典方法甄别偏差
面对上面阐述的多种评分者偏差,恐怕很多人力资源管理者都会感到手足无措,不知道如何处理。其实,对于评分者偏差的甄别技术非常成熟,而相关研究已经持续了近60年。早在1959年,Campbell和Fiske(1959)就提出了多质多法(Multitrait-Multimethod Analysis)来分析评分者偏差,在心理测量领域被誉为“评分偏差”甄别的经典方法。这种方法能够有效分析具有多个评分维度、不同评分来源的测评数据,能够提供测评的收敛效度与区分效度。收敛效度指的是用不同方法测量同一特质所得结果的一致程度。区分效度指的是的不同特质的测评间的独立程度。此外,评分者偏差的经典甄别方法还有Guilford(1954)提出的方差分析(ANOVA)和Joreskog(1970)提出的验证性因子分析都可用于测量收敛效度和区分效度,还可以检验方法偏差和晕轮效应。
(二)采用现代概化理论甄别偏差
1972年Cronbach(1972)所提出的概化理论(Generalizability Theory)目前在国外人力资源管理领域是甄别评分偏差另一常用方法,如Guilford提出的方差分析方法(ANOVA) 一样,概化理论可以同时对评价数据的多个误差源及误差源间的交互作用进行检验。概化分析的重点在于估计模型中效应引起的方差(而不是检验那些效应的统计显著性),进而给出心理测量学的解释,并得出不同误差源相对重要程度以及它们对测评质量的影响等重要信息。
当把测评中的偏差考虑为单一方差时,评分者方差和二元方差(dyadic variance)都可能是误差源,由此得出一元概化模型(Univariate Model):
一元概化模型是经典的信度理论真分数模型(the true score model of classical reliability theory)的扩展,真分数模型将观察分数分为真分数和测量误差。经典模型中的真分数部分类似于一元概化模型中的被试方差。一元概化模型将经典信度理论中的单一误差项进一步分解为三部分:表示由组间误差(评分者偏差)产生的系统变异,表示组内误差或测评的随机方差。将组间误差从组内误差中分离出来对于估计评分者偏差的影响和选取测量的方式至关重要。
当评分者在多个变量上对被试进行评价时,各变量间相关系数的估计值会因误差方差(包括偏差方差)而降低,也可能出现晕轮效应,相关系数的估计值因偏差协方差而升高。在这种情况下,Hoyt(2000)建议使用二元概化模型来纠正因组内误差和组间误差而扭曲的二元相关系数。在变量X和Y上,评分者r对被试t评价的方差如下:
变量X和Y间协方差的观测值如下:
变量X和Y间相关系数的观测值如下:
在测评设计中需要注意两个问题:一是观测否具有关联性,二是所有评分者是否评价所有被试。首先,当出现以下情况时可以认为对变量X和Y的观测具有关联性:观测均由同一个评分者进行;观测由不同评分者进行,但是评分者间不独立。当只评估单个变量或者两变量由独立的评分组进行评估时,偏差协方差才为零。其次,当所有评分者评价所有被试时,由于全部的评分者效应是恒定的,评分者方差对观测分数方差没有影响,因此不属于误差方差。然而,在大多数情况下,被试通常由不同的评分者或不同的评分组进行测评,这时评分者方差就属于误差方差。
国内应用概化理论进行评分者偏差研究的文献在近十年慢慢增多。其中,严芳和李伟明(2002)在实行公务员面试的某省直国家机关中随机抽取27名被试,采用概化理论,通过一元概化分析和多元概化分析,对结构化面试过程中的评价信息评分误差、评分者信度进行了较深入的理论探讨,为完善结构化面试的测量设计、最优化测评决策提供了有益的参考。随后,严芳和李伟明(2002)认为由于概化理论中方差分量估计的工具和途径有限,使该方法的推广受到限制,为研究者介绍了结构方程建模(SEM)估计概化理论中方差分量,并通过对某省直国家机关公务员录用考试结构化面试的评分者信度分析,阐述用结构方程模型(SEM)估计概化理论中不同设计下的评分者信度研究。
康春华等(2010)应用概化理论对人才招聘中常用无领导小组讨论和行为面试两种技术进行了评分者信度的研究。应用一元交叉设计和多元交叉设计对某公司的某次人事测评结果的评价者一致性信度进行评估。研究结果表明,在一元概化理论和多元概化理论两种模式下,信度系数都达到了较高水平,相比较而言,一元交叉设计信度低于多元交叉设计的合成概化系数。在评分者个数增加到4-6个时,测试的评分者信度会有较大的提高。
(三)采用多层面Rasch模型甄别偏差
由单参数Rasch模型延伸而来的多层面Rasch模型(Multi-factor Rasch Model)是分析评分者偏差的另一个重要工具。Linacre(1989)Rasch数学模型的基本想法是某个考生答对某道题的概率大小不仅取决于考生自身的能力,也取决于这道题目的难度。多层面Rasch模型将Rasch数学模型的思想扩展到更多的侧面,其中应聘者能力、人事选拔题目难度、评分者的宽严程度、评分量表中相邻等级的阶梯难度等都会共同作用,影响应聘者最终得分。在多层面Rasch模型下,这些方面的影响被参数化,并在模型中共同决定应聘者取得某一分值的概率大小。
多层面Rasch模型可以把应聘者的能力水平、项目的难度值和评分者的宽严程度放在同一个线性的量表下,提供反映评分者之间及其自身的一致性程度,以及评分者与应聘者、评分项目与评分等级之间的交互作用的数据。已有研究表明,多层面Rasch模型能准确地找出影响评分信度的评分者偏差的来源,是一种有效分析评分者行为进而揭示评分者偏差的研究方法。这个新的理论框架使得我们可以在测量写作能力时客观、公平,并且能处理由不同评分者、不同写作任务等所导致的误差(孙晓敏、张厚粲, 2006)。
相比于概化理论,多层面Rasch模型在国内的应用较为广泛。孙晓敏和张厚粲(2006)使用项目反应理论(Item Response Theory, IRT)中的多层面Rasch模型,对两组共12名评委在国家公务员结构化面试中的评委偏差进行了分析结果发现:不同评委之间在宽严程度上差异显著,且不同评委跨考生、跨维度、跨性别、跨时间评定行为时自身一致性也存在差异。同时,孙晓敏和薛刚(2008)利用多层面Rasch模型对66名考生在结构化面试中的成绩进行分析,剔除了评委等具体测量情境因素导致的误差对原始分数的影响,得到考生的能力估计值以及个体水平的评分者一致性信息。他们对基于考生能力估计值和考生面试分得到的决策结果进行比较,发现测量误差的确对决策造成影响,对个别考生的影响甚至相当巨大。进一步使用Facets偏差分析以及评委宽严程度的Facets分析追踪误差源。结果表明,将来自不同面试组的被试进行面试原始成绩的直接比较,评委的自身一致性和评委彼此之间在宽严程度上的差异均将导致误差。
国内的语言测试研究者们虽然开始重视多层面Rasch模型的应用研究,但其研究多集中在通过该模型验证某种考试的评分者自身一致性和评分者之间的一致性,以探讨其评分信度。刘建达(2008)利用多层面Rasch模型对中外教师在语用能力测试评卷中的表现进行了对比研究;贺满足(2007)通过这一模型分析了整体评分法和分析评分法对评分者严厉度的影响。黄玮莹(2010)采用全交叉模式的评分设计,运用多层面Rasch模型对30名大学英语教师的英语写作评分行为进行分析,探讨评分者与分析性评分量表中的各项指标、等级以及与不同能力的考生之间呈现怎样的交互模式。研究结果表明,评分者们的整体性评分比分析性评分更松,而评分者与评分量表及考生交互产生的偏差也呈现出系统性的子模式。在评分者与评分项目的交互作用方面,在篇章层面较严厉的评分者对语言应用层面则倾向于较宽容;反之亦然。而在评分者与考生的交互作用方面,对最高水平和最低水平的考生的作文的评定都呈现出较严厉的倾向。当同一位评分者同时对这两个水平组考生作文进行评定时,偏差呈现截然不同的倾向,即对其中一个水平组的评分偏严厉,则对另一个水平组偏宽容。
郭庆科等(2009)在多层面Rasch模型框架下比较了两类结构化面试分别是行为性面试和情景性面试。结果发现行为性面试中被试能力估计值分布范围略广,且更为均匀,支持了情景性面试中更容易出现社会期望性反应的结论。从评分者偏差上看,行为性面试中发生偏差的次数更多一些,说明行为性问题可能更不易评定,导致评分者间分歧较大。但几处较大的偏差却出现在情景性问题的评分中。除此之外两类面试的评分者一致性都很好,评分者宽严度和评分偏差等方面的差异都不是太大,说明两类面试的总体心理测量学性能都很好,都可以在人事测评中应用。总体上看行为性面试较好。
张新玲等(2010)运用多层面Rasch模型从被试、评分员、任务和评分标准等方面对190份高考英语(广东卷)读写结合写作任务成绩的差异来源进行了效度分析,发现:该任务总体能够有效区分不同水平受试,且分绝大部分成绩差异可通过受试者被考察的能力得到解释;但该任务相对偏难,个别评分员对评分标准的实际使用与模型预测值之间的拟合度低,有必要根据进一步研究改进评分标准、加强评分员培训。
四、人力资源管理实践中如何降低评分者偏差负面效应
在人力资源管理实践中,Hoyt(2000)认为可通过巧妙地测评设计来降低评分者偏差的负作用,比如避免评分者间的关联性,使用多个评分者对被试进行评价,尽可能使用全交叉式测评(每个评分者给每个被试打分),在进行统计功效分析时考虑使用概化测量。为了降低评分者个人因素造成的晕轮误差、宽容误差、评分者特定误差和二元特定误差,可通过多质多法、概化模型和多层面Rasch模型等方法对测评中评分者造成的方差变异进行计算和分析,在一定程度上控制评分者对测评产生的影响。
此外,在人力资源招聘选拔中,可采用不完全分组设计(incomplete block design),不同应聘者由不同组评分者进行评估,被试间加总后的评分者效应各不相同并且评分者层次的差异导致了一部分观测分数的差异(Kane et al., 1976;Kenny, 1991) 。这种评分设计在受训的评分者较多时适用。
1. 谷向东、李铮:《领导干部竞争性选拔中考官评分者信度研究》,载《中国人力资源开发》, 2012年第7期,第43-46页。
2. 郭庆科、周京、王楠:《基于多面Rasch模型对两类结构化面试性能的对比》,载《山东师范大学学报(人文社会科学版)》, 2010年第1期,第108-113页。
3. 贺满足:《大学英语写作评分方法对评分者严厉程度的影响——整体评分法和分析评分法的对比分析》,载《湖南第一师范学报》,2007年第4期,第59-61页。
4. 黄玮莹:《大学英语教师评分者偏差的多层面 Rasch模型分析》,载《外语教育》, 2010年,第162-169页。
5. 康春花、姜宇、辛涛: 《概化理论在人事测评中的评分者一致性研究》,载《心理科学》,2010年第6期,第1456-1460页。
6. 刘建达;《评卷人效应的多层面Rasch模型研究》,载《现代外语(季刊)》,2010年第2期,第185-220页。
7. 石志亮、韩宝成:《多面Rasch模型分析软件 Facets 在英语测试中的应用》,载《中国英语教育》,2009年第2期,第1-10页。
8. 孙晓敏、张厚粲:《国家公务员结构化面试中评委偏差的IRT分析》,载《心理学报》, 2006年第4期,第614-625页。
9. 孙晓敏、薛刚:《多面Rasch模型在结构化面试中的应用》,载《心理学报》,2008年第9期,第1030-1039页。
10. 谢焕瑛:《国家重点实验室评估专家评分偏差效应分析》,载《研究与发展管理》, 2007年第6期,第134-138页。.
11. 严芳、李伟明:《用结构方程建模 (SEM) 估计概论理论 (GT) 中的评分者信度》, 载《心理学报》,2002年第5期,第534-539页。
12. 张新玲、曾用强、张洁:《对大规模读写结合写作任务的效度验证》,载《解放军外国语学院学报》,2010年第2期,第50-54页。
13. Campbell D T, Fiske D W. Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological bulletin, 1959, 56(2): 81-105.
14. Cronbach L J. The dependability of behavioral measurements: Theory of generalizability for scores and profiles. John Wiley & Sons, 1972, 5(1): 103-111
15. Engelhard Jr G. The measurement of writing ability with a many-faceted Rasch model. Applied Measurement in Education, 1992, 5(3): 171-191.
16. Fleiss J L. Balanced incomplete block designs for inter-rater reliability studies. Applied Psychological Measurement, 1981, 5(1): 105-112.
17. Guilford J P. Psychometric methods. Journal of the American Statistical Association,1954:22-26.
18. Hoyt W T. Rater bias in psychological research: When is it a problem and what can we do about it? Psychological Methods, 2000, 5(1): 64-86.
19. Joreskog K G. A general method for estimating a linear structural equation system. Ets Research Bulletin, 1970,5(2): 1-41.
20. Kane J S, Bernardin H J, Villanova P, et al. Stability of rater leniency: Three studies. Academy of Management Journal, 1995, 38(4): 1036-1051.
21. Kane M T, Gillmore G M, Crooks T J. Student evaluations of teaching: The generalizability of class means. Journal of Educational Measurement, 1976, 13(3): 171-183.
22. Kenny D A. A general model of consensus and accuracy in interpersonal perception. Psychological Review, 1991, 98(2): 155-163.
23. Klimoski R J, London M. Role of the rater in performance appraisal. Journal of Applied Psychology, 1974, 59(4): 445-451.
24. Lance C E, LaPointe J A, Fisicaro S A. Tests of three causal models of halo rater error. Organizational Behavior and Human Decision Processes, 1994, 57(1): 83-96.
25. Linacre J M. Multi-faceted Rasch measurement. Chicago, IL: MESA, 1989: 41-62.
26. Lumley T, McNamara T F. Rater characteristics and rater bias: Implications for training. Language Testing, 1995, 12(1): 54-71.
27.Myford, C. M., & Wolfe, E. W. Detecting and measuring rater effects using manyfacet rasch measurement: part ii. Journal of Applied Measurement, 2003, 4(4): 386-422.
28. Saal F E, Downey R G, Lahey M A. Rating the ratings: Assessing the psychometric quality of rating data. Psychological Bulletin, 1980, 88(1): 413-438.
29. Shavelson R J, Webb N M. Generalizability theory: A primer. Sage Publications, 1991,38(14): 1486-1494.29. Sharon A T, Bartlett C J. Effect of instructional conditions in producing leniency on two types of rating scales. Personnel Psychology, 1969, 22(3): 251-263.
30. Sundar, A., & Kardes, F. R. (2015). The role of perceived variability and the health halo effect in nutritional inference and consumption. Psychology & Marketing, 32(5): 512-521.
31. Viswesvaran, C., Ones, D. S., Schmidt, F. L., Le, H., & Oh, I. S. (2014). Measurement error obfuscates scientific knowledge: path to cumulative knowledge requires corrections for unreliability and psychometric meta-analyses. Industrial & Organizational Psychology, 7(4):507-518.
32. Wigglesworth G. Exploring bias analysis as a tool for improving rater consistency in assessing oral interaction. Language Testing, 1993, 10(3): 305-319.
33. Wilson H G. Parameter estimation for peer grading under incomplete design. Educational and psychological measurement, 1988, 48(1): 69-81.
■ 责编/王震Tel: 010-88383907E-mail: hrdwangz@126.com
What is and How to Reduce Rater Bias in Human Resource Management
Li Yingwu, Wei Minyuan and Peng Kunxiali
(Department of Psychology, Renmin University of China)
Evaluations and assessments are often biased by personal factors of raters in human resource management, which cause their fairness influenced. Rater biases are usually caused by severity and internal consistency of raters, and interaction with ratees and rating tasks. Leniency errors and halo errors are the most focused rater bias. Researchers have screened rater bias with Multitrait-Multimethod Analysis, Generalizability Theory, Multi-factor Rasch Model and other measurement theory. Researchers also reduce adverse side effects of rater bias through proper measurement design and other methods.
Human Resource Management; Rater Bias; Leniency Errors; Halo Errors
李英武,中国人民大学心理学系,副教授,硕士生导师,应用心理学博士。
魏敏媛,中国人民大学心理学系,硕士研究生。
彭坤霞丽,中国人民大学心理学系,硕士研究生。
本文受国家社会科学基金一般项目“公务员分类录用面试的科学性研究”(14BZZ087)资助。