APP下载

“双一流”学科建设评估体系初探
——基于学术表现的综合评估指数构建

2019-01-17王文军洪岩璧马宇超

关键词:贝叶斯双一流学术

王文军,洪岩璧,袁 翀,马宇超

(1.南京大学 中国社会科学研究评价中心,江苏南京210093;2.东南大学 人文学院,江苏南京210096)

2015年国务院颁布《统筹推进世界一流大学和一流学科建设总体方案》,明确提出要“建立激励约束机制,鼓励公平竞争,强化目标管理,突出建设实效,构建完善中国特色的世界一流大学和一流学科评价体系,充分激发高校内生动力和发展活力,引导高等学校不断提升办学水平。”这说明学科评估能够引导高校的发展,对于建设一流大学和一流学科具有重要作用。随后在2017年国务院又颁布了《统筹推进世界一流大学和一流学科建设实施办法(暂行)》,强调要“以中国特色学科评价为主要依据,参考国际相关评价因素,综合高校办学条件、学科水平、办学质量、主要贡献、国际影响力等情况,以及高校主管部门意见,论证确定一流大学和一流学科建设高校的认定标准。”[1]这进一步明确了学科评价在一流学科建设中的重要作用。学科评估作为高等教育领域中教育评价的延伸范畴,其理论基础和实现方法随着学科评估发展而不断拓展,其理论基础源于教育评价但又不完全依赖于教育评价理论[2]。学科评估更加重视集评价方法的客观性与价值判断的主观性于一体,以及用来反映学科质量水平的可量化数据,其基本特征是强调效率和效益,注重结果和产出[3]。因此,本研究拟对当前在高等教育研究领域具有较大影响的七大学科评估体系进行梳理,观察这些学科评估体系中有关学术表现的指标选择和构建者的价值期望,以学术表现为切入点,引入项目反应理论,运用贝叶斯估计建构基于学术表现的综合评估指数,为我国人文社会科学类一流学科建设提供一个新的观测视角。

一、现状与问题

目前国内具有较大影响的学科评估体系依据评价主体和评价目的的不同,主要分为两大类:一类评估依托第三方机构以整体评估为主要目的,这类评估体系主要有:教育部学位与研究生教育发展中心一级学科整体评估、英国科研评估、美国博士点评估。另一类依托商业公司,以形成学科排行榜为目的,这类评估体系主要有:上海软科世界一流学科排名、泰晤士高等教育(THE)世界大学学科排名、夸夸雷利·西蒙兹(QS)世界大学学科排名、美国新闻和世界报导(U.S. News)全球大学学科排名*下文出现夸夸雷利·西蒙兹(QS)世界大学学科排名、泰晤士高等教育(THE)世界大学学科排名、美国新闻和世界报导(U.S. News)全球大学学科排名时,将使用括号中英文缩写,不再使用中文全称。。

(一)由第三方机构主导的整体评估

(1)教育部学位中心一级学科整体评估

这是教育部学位与研究生教育发展中心以第三方形式开展的非行政性、服务性评估项目。这一评估从2002年开始,已经进行了四轮,最新一轮学科评估于2017年完成。该项评估覆盖学科范围广,指标体系全面,评价周期长,具有较高的权威性。其主要指标有:师资队伍与资源、人才培养、科学研究水平、社会服务与社会声誉。数据来源主要有三:学校填报、问卷调查、公开数据。与学术表现有关的指标——“科学研究水平”,主要考察“学术论文质量”“专著专利”“出版教材”“科研获奖”和“科研项目”。其中,“学术论文质量”包含“A类期刊发表论文”和“代表性论文”同行评议两个方面;同时要求代表性论文须包含一定比例的国内期刊(特别是哲学社会科学学科),以鼓励优秀成果优先在国内期刊发表[4]。由此可见,其主要通过学术成果的产出体现学科科研水平。

(2)英国科研评估

英国科研评估是由英格兰高等教育资助委员会(HEFCE)、苏格兰资助委员会(SFC)、威尔士高等教育资助委员会(HEFCW)和北爱尔兰就业和学习部(DEL)联合进行的[5]。这项评估迄今为止已经开展了7次。2014年英国高校科研评估工作(Research Assessment Exercise, 简称RAE)被科研卓越框架(Research Excellence Framework, 简称REF)所取代。这一体系一直以来依靠同行评估的方法,由专家针对学科情况给出等级判断。然而,REF在2014年也引入了量化数据,但仅供同行专家作为评估参考,暂未作为评估的主要工具[6]。

(3)美国博士点评估

美国博士点评估是由美国研究理事会(NRC)组织的博士点评估,侧重评估人才培养,分别于1982年、1995年和2006年开展了3次。这项评估因其评价的权威性、评估过程的专业化和评估方法的客观性,被美国学界公认为最具权威的科学排名,是研究生学科点质量评估中“最全面、最可靠”的评估[7]。

(二)由商业机构主导的学科排名评估

(1)上海软科世界一流学科排名

上海软科教育信息咨询有限公司成立于2009年,其前身为上海交通大学世界大学学术排名,是国内较早推出“世界大学学术排名”的机构。软科旗下“最好大学网”每年都会发布“世界大学学术排名”“中国最好大学排名”“世界一流学科排名”等榜单。这一评估体系依赖客观数据,具有指标体系公开、透明的特色。主要指标有:论文总数、论文标准化影响力、教师获权威奖项数、国际合作论文比例、顶尖期刊论文数,其数据源为Web of Science和InCites数据库[8]。

(2)泰晤士高等教育(THE)世界大学学科排名

THE世界大学学科排名是由《泰晤士高等教育》报每年发布的各学科领域世界高校排行榜。这一评估具有指标设置较为全面、重视学术科研能力的特色。主要指标有:教学、研究、论文引用率(学术影响)、产业收入、国际化程度。数据源为公开数据、学校填报、问卷调查以及爱思唯尔的Scopus数据库[9]。

(3)QS世界大学学科排名

QS世界大学学科排名是由英国QS国际高等教育研究机构于2012年开始,每年发布的一个各学科领域世界前200名院校的排行榜。这一评估具有重视社会声誉、覆盖学科范围广的特色。主要指标有:学术声誉、雇主评价、平均每篇论文被引数、H指数。数据源为问卷调查和爱思唯尔的Scopus数据库[10]。

(4)U.S. News全球大学学科排名

U.S.News世界大学排名是美国《美国新闻与世界报道》(U.S. News & World Report)于2014年开始每年发布的世界大学排行榜。该排行榜重视学术科研能力,主要依赖于客观数据。其主要指标有:全球研究声誉、区域研究声誉、国际合作、国际合作论文占比、专著、学术论文、会议论文、标准化引用影响力、总被引频次、被引次数前10%论文数量、被引次数前10%论文占比、在各自领域中被引次数前1%的高被引论文数量、在所有学术论文中被引频次前1%的高被引论文占比。数据来自问卷调查以及InCites数据库[11]。

将以上7个评估体系中有关学术表现的指标进行整理,得到表1。

表1 国内外主要学科评估体系中有关“学术表现”的主要指标

① http://www.rae.ac.uk

通过对上述学科评估体系的梳理,不难发现:(1)在评价目的上,由第三方机构形成的整体评估更多地为国家服务。英国科研卓越框架与政府对大学的拨款直接相关,美国博士点评估与中国教育部的一级学科整体评估虽然与政府拨款无关,但也为政府了解高校发展状况服务。而由商业机构形成的学科排名评估则更多地为社会服务,主要目的是为学生和家长选择专业和高等学校提供参考。(2)在评价周期上,由第三方机构形成的整体评估周期较长,而由商业机构形成的学科排名则一年一榜。据悉,英国学科评估将于2021年发布最新的评估结果,其从启动到结果发布大约需要3-4年,大约有2年时间用于方案和指标的研究。目前已经可以通过其官方网站了解到各项方案制定、指标测算的草案。我国教育部第四轮学科评估已于2017年正式公布,下一轮学科评估预计将于2020年启动。(3)在量化数据源的选择上,上述学科评估指标体系的数据主要来自第三方数据源,如SCI、SSCI、ESI、Scopus等数据库。笔者认为,面向中国的学科评估应该更多依托本土原创数据源。尤其是人文社会科学研究本土化的特性,仅考虑国外数据库的收录情况,会使得该指标的区分度较低。对于人文社会科学而言,仅考虑论文的发表情况,对于以学术图书、研究报告等为发表载体的学术成果会有所疏漏,不利于学术表现的完整性评估。(4)在具体评估指标的选择上,目前的趋势是由规模化指标转向人均指标、比例指标,由共线性指标向独立性指标转变,由非连续性数据向连续性数据转变[12]。本研究在具体评估指标的遴选上参考研究趋势进行了筛选,较多选用人均指标和比例指标,比如在高端论文、一般论文等指标中均加入了人均与总量两个下级指标;尽量避免共线性问题,避免指标的重复计算,比如在人力资源指标下设置的三个二级指标分别反映学科的规模、活跃程度以及学术声誉三个不同方面,具有一定的区分度。

为了进一步提升学科评估的科学性,本研究引入了项目反应理论视角,并运用贝叶斯方法进行具体的估计。相比于以往的简单因子分析和加权均值,该方法的优势在于考虑了指标建构中的各种不确定性。在提出学术表现综合评价指标体系后,本文通过哲学学科的部分指标数据完成一个简化实证分析。

二、理论与模型

(一)项目反应理论

社会科学领域的变量可以分成两类,一是显变量(manifest variable),可以直接观测到;二是潜变量(latent variable),即观察者无法直接观察到的变量,有些学者把它定义为无法仅仅通过显变量的函数进行表达的变量[13],如人的态度、心理特质等都属于潜变量。

针对潜变量的测量主要有两个理论视角:经典测量理论和项目反应理论。经典测量理论(classical test theory,CTT)源于智力测验编制和分析,其基本思想是把观察得分看作真分数(潜在特质)和误差分数的线性组合,可归结为如下模型:X=T+e。其中X是观察得分,T是真分数,e是误差分。如在智力测试中,对于一个特定题器的回答不仅反映了一般性智力,也反映了该题器的内容,分别被称为公共因子和特殊因子[13]。经典测量理论的不足在于:依据其项目分析法所得的项目统计量受样本的抽样变动影响大;被试者的测验分数依赖于项目的难度,使得进行不同测验的被试者相互间难以比较;假设所有被试者的测量标准误差都相同[14]。鉴于此,项目反应理论逐渐兴起。

项目反应理论(Item Response Theory, 以下简称“IRT”)又称题目反应理论、潜在特质理论,目标是确定潜在心理特征是否可以通过测试题被反应出来,以及测试题和被测试者之间的互动关系。以测试为例,就是依据被试在各个项目上的实际作答反应结果,经数学模型的运算,统一估计出被试的能力水平或潜在心理特质水平,以及项目的计量学参数。描述被试能力水平、项目参数与项目作答结果之间关系的数学模型称为项目特征函数(item characteristic function, ICF)。常见模型有单参数(1-PL,也被成为Rasch模型)、双参数(2-PL)与三参数(3-PL)模型,三参数模型的表达式如下:

(1)

模型中,D为常数,通常取值为1或者1.7;θ为受测者的能力值。另外有三个参数a、b、c。参数a为题目区分度或因子负荷,表明题目在拥有不同能力被试者间的区别有多好,即高θ值和低θ值在某题目上都答对的概率。参数b为题目难度,是被试者能力确定情况下答对某题目的可能性。参数c一般称为“猜测参数”,其直观意义为:当一个被试者的能力值非常低(比如接近负无穷),但仍然能做对这道题目的概率。模型整体则表示,能力值为θ的被试者,在难度为b的题目上的答对概率。可见,项目反应理论同时评估考察被试者和试题。

项目反应理论模型有以下几个假设前提:一维性,即被测项目仅取决于一种能力,其他能力的影响较小,可以忽略;局部独立,被试者在回答该项目时不受其他项目影响;潜在特质维度与模型契合。在这样的强假设前提下,相较于经典测量理论,项目反应理论具有以下三个突出优点:参数的估计不因样本不同而不同;被试者能力的估计不因测验改变而改变;可以针对不同被试对象估计每个项目及测验的测量误差[15]。鉴于统计上的优越性,项目反应理论也逐渐从心理测量的研究走向其他学科领域。

(二)项目反应模型的应用

IRT是以潜在特质论为基础的测量理论,特质是指被试者具有某种稳定的、支配其对相应的测验项目做出反应,并对反应表现出一致的内在特征,由于特质不能被直接观察到,因此称为潜在特质。其在心理学测量和教育测试中应用最为广泛,如在教育测试领域中,研究者利用双参数或三参数模型分析了不同地区学生数学成绩、语文选择题的建构[16-17]。在试题或试卷评判方面,与经典测试理论相比,项目反应理论模型可以反映试题信息量,代替传统信度作为评定内部一致性的指针;并且能根据各项目在临界分数附近的信息量,达到以最少题目达到所需的测量精确度[18]。

经济学、社会学等学科也开始应用项目反应理论来探讨测量问题,如民意调查问卷设计[19]。Hoyland等利用项目反应原理对几个国际指数排名进行了分析,他们以各国在特定指数的二级指标上排名的差异作为测量不确定性(uncertainty)的代理变量,指出如果考虑不确定性,那么以往的这类排名就存在误导性[20]。在企业社会责任测量中,应用项目反应理论得到的指数比以往的直接加总指数和因子得分指数能更好的反映实际情况[21-22]。胡安宁则将该理论应用于对差序格局的测量,主要以单参数或双参数模型确定个体对于不同对象的信任容易程度,即差序格局中的“差”(模型中的项目难度参数b);并且利用2010中国综合社会调查中一组信任问题,展示了项目反应理论下差序格局测量方案的解释力[23]。

由此可见,项目反应理论适用于社会科学各领域的测量与评估。科研机构排名本质也是采用不同维度指标来测量机构的科研学术能力。科研能力是潜在难以直接观测到的变量,但可以通过发表文章数、权威论文数、被引用数量等指标体现出来。接下来将首先介绍本研究尝试建构的一个科研机构学术表现综合评价指标体系,然后运用贝叶斯方法来实现具体的估计。

三、指标与构建

学术表现(Academic performance) 是一所大学或者科研机构在人力资源、学术生产、学术影响等方面综合能力的反映。本研究正是基于这一视角深度挖掘学术出版数据,为建立以创新、质量、贡献为导向的科学研究评价体系提供多维度的客观数据。坚持以创新、质量、贡献为导向,围绕多维度展示学术表现的原则,遴选测量指标、设计指标体系。在指标选择上,注重量化指标与评价目的相匹配;在客观数据的选择上,注重客观指标的本土化特征,强调客观数据的公信力和可靠性;在学术出版数据的采集中,将包括论文、著作、工具书、研究报告等多种类型的学术成果都纳入统计视野。

表2所示的 “中文学科综合评估指数(CSCEI)”拟从学科研究和发展的三个角度评估学科研究现状,影响力情况及未来发展,力争较为全面地反映某一个机构的综合学术水平。初步设计的中文学科综合评估指数体系(CSCEI)由三个一级指标(人力资源、研究能力、影响水平)及一个系数指标构成。

表2 中文学科综合评估指数(CSCEI)

人力资源一级指标由三个二级指标构成:队伍规模、活跃程度、学术声誉。队伍规模指标反映了各机构分学科的学术人口总数;活跃程度指标关注各类学术成果的学术人口数量;学术声誉则着重考察各机构在各类学术组织、重要学术期刊、重要学术奖项等方面的占有状况。

研究能力一级指标由六个二级指标构成:高端论文、学术论文、学术著作、研究报告、工具书、数据库、主办连续出版物等。高端论文指标是指本学科重要期刊上发表论文总数以及人均数量;论文指标由CSSCI数据库中收录的论文总数和人均数量构成;学术著作指标是统计时段学术著作出版数量;研究报告指标是统计时段公开出版的研究报告数量;工具书(包括资料集)是指这一类型的公开出版物;主办连续出版物的情况是指各机构主办期刊的情况。

影响水平一级指标由七个二级指标构成:当年被引篇次、当年被引率、篇均被引、分层引用、高被引作者数、HCP(高影响)论文数、被引著作数。其中当年被引篇次指标由论文在当年被引篇次决定;当年被引率指标由论文在当年被引率决定;篇均被引指标由被引论文篇均被引数决定;分层引用指标由期刊的分层引用情况决定;高被引作者数指标由相关学科领域被引数前100位的学者人数决定;HCP论文数指标由各学科被收录的高被引论文数决定;被引著作数指标由出版的著作被引用数决定。

统计指标时间窗的选择可以根据评价实际需要进行调整。例如,在需要进行短时段评估时,可以选择当年或近三年的数据,在需要进行长时段评估时,可以选择近十年、甚至二十年的较长时段数据。

四、测量与模型

项目反应理论中相关参数的估计有多种方法,贝叶斯估计是其中一种。贝叶斯分析允许不同来源的不确定性,所以其估计结果也更为保守,也即不确定性更强[24]。本文将参照Hoyland等人提出的方法来建构学术综合评价指数排名[25]。假定某学校某学科i的学术水平为fi,而观测到的结果或指标为xij,其中j表示不同的观测指标。笔者认为这些观测指标xij能够反映潜在的、无法观测到的某学科的科研学术水平fi。两者之间的关系如下:

xij=αj+βjfi+εij,var(εij)=σεj2

(2)

其中βj测量了指标j对不同学校学术水平fi的区分度或贡献度。以往的排名指数建构有一个内涵的假定,即所有观察指标对于不同学校科研水平的区别度是一样,这可能是有问题的。以项目反应理论思想为基础,笔者利用手头可获得的数据,通过贝叶斯方法来估计出不同观测指标的区分度βj,也即上文项目反应理论中的题目区分度参数a。

不同于以往的方程和统计模型,因为方程(2)右边的参数和变量都是未知的,我们只知道左边的xij。因为“自变量”fi并未被观测到, 所以无法以通常的OLS回归来进行估计。为了使模型可识别,需要对不同学校科研水平(f)的分布结构有所假定。由于我们关心的是不同学校之间科研水平的相对位置,并不存在一个像身高这样的客观尺度,因此可以假定该分布服从均值为0,标准差为1的正态分布。如不考虑同一组别内部的二级指标之间可能存在的相关,那么方程(2)的误差项εij就是随机误差项。

我们需要估计p(θ|x),其中θ=α+β+σ+f,换言之,根据已有数据估计未知的参数和潜变量f。根据贝叶斯定理,p(θ|x)=[p(x|θ)p(θ)]/p(x),即后验概率分布等于先验概率分布p(θ)乘以该假设下得到这一数据的概率(似然度)p(x|θ),再除以任一假设下得到这一数据的概率(标准化常量)p(x)[26]。对先验概率分布采用扩散先验设置,对参数的取值不做任何限定,所以参数的识别仅取决于似然度,而似然度来自我们的方程(2)的设置。fi的起始值设定为因子分析计算得到的Bartlett分数,βj的起始值为xj对Bartlett分数的OLS回归,其他的起始值都由软件随机设定。本文使用R软件中R2jags进行贝叶斯估计。

五、例证与分析

基于中文学科综合评估指数体系(CSCEI),运用贝叶斯估计的方法,对哲学学科的数据进行了简化的实证分析。采用了如下8个指标来测量哲学学科学术综合能力:(1)2015—2017年CSSCI期刊论文发表合计;(2)2015-2017年在C100期刊论文发表数量占C刊论文总量的比例;(3)教师总人口数;(4)活动人口比例;(5)2007-2016年C刊哲学论文被引比率;(6)2007-2016年被C100期刊引用比率;(7)机构占有哲学HCP高被引作者数量;(8)机构在本学科顶级期刊发表论文数量(2015-2017)。贝叶斯分析结果如表3和表4所示。

表3 哲学学科学术综合能力的贝叶斯估计结果及与学科评估等级比较

贝叶斯分析出了各个学校哲学学科的潜在学术综合能力得分点估计值,同时也给出了95%的最高密度区间(简称HDI,表示区间内的估计值概率和为95%,区间内的估计值可信度更高)。表3第二列是贝叶斯的点估计值,第四列是按照该点估计值得到的排名。[注]下述讨论皆根据上文中所列的8个指标进行的分析,本文旨在提供一种看待学科评估排名的视角,而非提供一种完全不同的排名体系,因而不过多讨论所纳入的8个指标是否合适或足够。第三列是贝叶斯估计值的HDI(95%),这是贝叶斯估计的优势所在,即考虑了不同指标之间存在的不一致性(测量误差),从而估计最终指数的不确定性。由于贝叶斯估计容纳不同来源的不确定性,因此其估计也更为保守,这从不同等级的学校存在较大的重合HDI中可见一斑。[注]如果两个得分的HDI存在重合部分,说明有较大的可能性这两个得分的估计值会落在重合部分,也即两个得分相同。这对于排名具有重要意义,因为有助于了解不同学校指数得分之间的差异是否显著。譬如,U1和U2虽然点估计值得分相差0.855,但两者的95%HDI存在较大部分重合,因此很难说两校的差异是否明显或显著。但U1和U2得分的HDI下限分别为2.087和1.260,都高于U5得分HDI的上限1.210,那么应该可以认为U1和U2的哲学综合学术能力显著高于U5。同理,贝叶斯排名第42位的U40的HDI[-1.481, -0.542],与排名第20位的U17的HDI[-0.716, 0.184]也存在重合。因此,简单以因子得分或点估计值进行排名是存在一定问题的,并未考虑最终指数的不确定性,也即不同排名单位之间可能并不存在显著的差异。因为学术综合能力无法直接观测到,属于潜在变量,只能通过可观测的指标来对其进行测量。而这些观测变量可能存在遗漏,或包含其他信息,难以完美再现潜在的学术综合能力。因此,根据HDI和估计值进行分组是一个可行的办法,我们在最后一列呈现了第四轮学科评估的等级作为参照。由于本次测试只使用了体系中的部分与学术发表相关的指标,因此与学科评估结果存在一些差异,即分组会更为粗略。如U20[-0.543, 0.376]属于B+,与四所A-高校中的三所(U8、U9和U11)都存在重合区间,仅U7显著高于U20。U20与C+高校中的U24、U28、U37、U27的HDI也存在一定重合。

表4报告了系数β的估计值,包括点估计和区间估计。β的标准化系数β*,表明潜在指数f对观测指标的贡献度,那么其倒数1/β*可以大致等同于观测指标对指数f的贡献度,类似于项目反应理论中的区分度。通过观测指标x的标准差、f估计值的标准差(0.872)和β估计值可以计算1/β*。如表4第四列所示,8个指标中,指标2、5和6对学科学术综合能力的影响更大。这也与一般性的认知相一致,衡量学科综合实力的并非绝对发文总量多少,而是其中优质论文的数量和比例。

表4 哲学学科学术综合能力的贝叶斯估计结果:指标区分度

六、结语

结合目前国内外人文社会科学学科评估指标体系发展现状以及存在的问题,“中文学科综合评估指数体系(CSCEI)”在如下三个方面做出探索。

一是尊重学术研究和学科发展的规律,以创新和质量为基本导向。2018年习近平总书记在全国教育大会上强调,要扭转不科学的教育评价导向,坚决克服“唯分数、唯升学、唯文凭、唯论文、唯帽子的顽瘴痼疾”,从根本上解决教育评价指挥棒问题。对于学科评价来说,这就要求回归初心,回归学术规律,重视其“量”的表现,更加关注其“质”的内涵,同时在评估实践中,逐步提炼出聚焦于学术创新、研究质量和社会贡献的评价指标。

二是夯实科学评价的理论基础,构建丰富多元的指标体系。本研究创新性地采用了项目反应理论及其实践方法——贝叶斯估计来进行综合学术能力的测量,有助于改进现有评估指标体系,克服仅仅利用因子分析法或加权均值而未考虑测量不确定性的缺陷,同时强调指标的多元和体系的综合性,有效地避免了共线性问题。

三是坚持走中国化的道路,积极探索本土化的学科评估方案。本研究使用的主要数据来源于CSSCI以及CBKCI等系列数据库,都是基于中文学术出版数据的原创精选数据库,其数据经过严格遴选和规范序化。依托于CSSCI系列数据库进行学科分析能够较为全面地反映本土学术的研究习惯和研究水准,这有助于中文学术成果的对外传播和全球共享,有助于学术话语体系的建设,坚持学术自信,在世界范围内提升中国学术研究的地位和影响力。

此外,本研究是围绕学科评估体系进一步提升科学性、规范化开展的一次探索性尝试,未来尚需在模型的拟合、不同学科指标的遴选等方面进一步深入研究。

猜你喜欢

贝叶斯双一流学术
如何理解“Curator”:一个由翻译引发的学术思考
对学术造假重拳出击
贝叶斯公式及其应用
高校“双一流”能否打破身份制
“双一流”需 从去行政化做起
基于贝叶斯估计的轨道占用识别方法
一种基于贝叶斯压缩感知的说话人识别方法
IIRCT下负二项分布参数多变点的贝叶斯估计
学术
创新需要学术争鸣