辨证与厘清：体育科学研究中“德尔菲法”应用存在的问题及程序规范

2021-03-26任晨儿刘阳

体育科学 2021年1期

李博，任晨儿，刘阳,2*

（1.上海体育学院体育教育训练学院，上海 200438；2.上海市学生体质健康研究中心，上海 200438）

德尔菲（Delphi）法是美国兰德公司（Rand Corporation）的Dalkey等在20世纪60年代开发的一款可以应用于任何领域的咨询决策技术，应用领域包括程序规划、需求评估、政策确定和资源利用等。其操作性定义是：通过设计带有顺序的专家（精英人士）咨询表，系统地征求和整理对某个特定主题的判断结果，在这些咨询表中散布着有关主题的摘要信息和从较早答复中得出的意见反馈（Linstone et al.，2002），其核心是通过匿名方式进行几轮函询征求专家人士的意见。世界上著名的德尔菲法应用案例有“兰德公司预测俄罗斯轰炸美国基础设施需要的原子弹数量”（Dalkey et al.，1963）和“比利时联邦警察局预测未来犯罪发展的研究”（Loyens et al.，2011）。大量研究证实，在缺乏数据和预期结果不确定性较高的情况下，德尔菲法是预见性研究中最实用的“质性研究”①质性研究：在社会学界通常被称为“定性研究”，这里采纳陈向明的观点，认为其是定性研究的一类，即“以研究者本人为研究工具，在自然情境下采用多种资料收集方法，对社会现象进行整体性探究，主要使用归纳法分析资料和形成理论，通过与研究对象互动对其行为和意义建构获得解释性理解的一种活动”，与之对应的则是“思辨研究”。（qualitative research）方法（陈向明，2000；穆荣平等，2004；张冬梅，2018；Wilhelm，2001）。

德尔菲法在20世纪80年代在我国体育科学研究和实践中被应用（李珊秀，1987；Chen et al.，1990）。20世纪80年代正值我国建设体育强国的起步阶段，体育科学的各个领域都面临着一个科学预测问题，诸如战略目标的确定，战略部署的阶段划分，竞技体育、学校体育、社会体育等各项工作的战略布局、指标的选定、决策的谋划、方案的优选、计划的实施等，都与科学预测有着直接关系（李珊秀，1987）。德尔菲法作为预见性研究的典型方法，因其经济性、实效性以及结果的可靠性等优点被国内体育学者所认可。但目前德尔菲法在应用中存在诸多问题，一项基于38种CSSCI来源期刊中应用德尔菲法论文情况的分析研究发现德尔菲法应用中存在诸多不严谨、不规范的问题（曾照云等，2016b）。目前体育科学研究中德尔菲法的应用情况如何，从现有的文献中还无法得知，这也是本研究基于体育学科的视角分析德尔菲法应用规范的内在动力。

“匿名、反馈、迭代”是德尔菲法区别于其他预见性研究方法的主要特征（Linstone et al.，2002）。尽管预见性研究的方法有很多，如反推法（back casting）、脑力盒法（brain box）、动态思维导图（dynamic mind mapping）和焦点访谈法（focus interview）等（Grisham，2009），但德尔菲法因为普适性强、应用领域广、所得结果的权威性高等优点而被科研工作者们所接受（Linstone et al.，2002）。不同于其他的预见性研究方法，德尔菲法有其自身的应用原则和程序，因此，研究者们在实际的应用中是否遵循该研究方法的适用原则和程序关系到研究效度的强弱（董奇，2004）。对与体育相关的评价体系建构研究而言，则关系到学者们构建起的评价指标是否可以落实到实践操作层面。

研究方法应用规范程度是一种研究在方法学上是否可以“重现”的重要前提（陈向明，2008；张力为，2006），国际上的学术团体对研究方法的规范性问题特别重视，如美国心理学会（American Psychological Association）出版《APA格式：国际社会科学学术写作规范手册》（Publication Manual of the American Psychological Association）来规范社会学研究中方法学部分的应用和写作范式。国内的部分学者对于规范研究方法的意识较为薄弱，因此，为了进一步规范德尔菲法在体育科学研究中的应用，本研究以体育科学研究中德尔菲法应用的规范性问题为立意方向，通过分析近20年来9本体育类期刊收录的学术论文，从方法论层面指出当前在应用德尔菲法过程中存在的问题，并对德尔菲法的方法学规范进行介绍。本研究并不是对已有的研究成果进行评价，而是希望于体育科研工作者可以有效规避德尔菲法应用中存在的问题，提高德尔菲法方法学层面应用的质量，从而进一步提升体育科学研究的质量。

1 论文筛选及指标提取

本研究运用文献资料法收集相关论文，运用数理统计法对研究信息进行统计与分析。以中国知网（CNKI）高级检索程序为检索工具，以中文社会科学引文索引（Chinese Social Science Citation Index，CSSCI）收录的 9本体育类期刊（2010—2018年无变动的期刊）为论文来源，分别是《北京体育大学学报》《上海体育学院学报》《体育科学》《体育学刊》《体育与科学》《天津体育学院学报》《武汉体育学院学报》《西安体育学院学报》《中国体育科技》，定义时间范围指标中“发表时间”选取“2000-01-01至2019-10-01”区间；“更新时间”选择“不限”。检索时间为2019年10月1日。检索流程如表1所示，在精确了论文来源期刊和刊发时间的基础上，将符合研究条件的各期刊所有论文导入文献阅读与管理软件，通过检索共纳入论文665篇。通过审查论文题目、摘要和全文阅读的方式进行人工筛选，剔除在研究方法中没有应用德尔菲法的论文，最终纳入372篇。以上工作由2名研究人员独立对分析指标进行提取，出现分歧部分由第3名研究人员辅助验证。

表1 学术论文检索策略及结果Table 1 Academic Paper Search Strategy and Results

2 结果与分析

2.1 纳入论文的计量学特征

本研究选取了近20年来9本体育类期刊研究中应用德尔菲法的论文，共372篇。在年度发文量方面，近年来体育科学研究中应用德尔菲法的论文数量呈现上升趋势（图1）。在学科分布方面，由于德尔菲法应用范围较为广泛，相关的学科研究中均有德尔菲法的应用，本研究纳入的论文也证实了这个观点。纳入的论文分布在体育教育训练学（38.7%）、体育人文社会学（49.3%）、运动人体科学（5.9%）、民族传统体育学（6.1%）等不同学科之中。在应用目的方面主要包括指标体系建构（共252篇，67.7%）、专家效度检验（38篇，10.2%）以及其他主题等。以上数据说明德尔菲法的适用领域广，普适性较强，近年来在我国体育科学研究领域中的应用数量不断增加，主要应用于体系建构这样的预见性研究中。

图1 纳入学术论文数量分布及趋势(n=372)Figure 1.Distribution and Trend of the Number of Included Academic Papers

2.2 德尔菲法应用中存在的问题

德尔菲法应用存在问题的指标选取汲取了其他学科中该方法的应用经验（李月仪等，2018；曾照云等，2016a，2016b；张冬梅，2018；Facione，1990），并借鉴了其他科学研究方法规范性研究中有关研究方法存在问题的指标（柯友枝等，2020；李博等，2018；张连成等，2020），本研究将从6个维度反映体育科学研究领域德尔菲法应用中存在的问题（表2）。

表2 体育科学研究领域德尔菲法应用中存在的问题Table 2 List of Problems in the Application of Delphi Method in Sports Science Research

2.2.1 方法适用性

研究方法的选取是研究者根据研究目的和研究的现实情况（包括研究的周期和经费情况等）选取的，正确选取适当的研究方法是保证研究质量的重要前提。但从纳入论文的应用情况来看，有些研究主题并不适用德尔菲法或者错误地应用该方法。部分研究将德尔菲法与焦点团体访谈法（focus group interview）、问卷调查法混淆，如有研究误将“专家小组会议”作为德尔菲法应用，研究者在研究中阐述“本研究采用德尔菲法，经过3轮次的专家研讨会，最终确定了某评价体系”，很明显该研究存在方法学上的应用错误。部分研究探究的问题不适合用德尔菲法，如有研究主题是探索儿童肥胖的原因，研究者采用德尔菲法从专家的角度探索致胖的原因。

研究方法的适用条件是研究者们选取方法的主要依据（张力为，2006）。德尔菲法之所以被广泛地应用也在于其有一套较为宽泛的适用条件。Linstone等（2002）对德尔菲法的适用条件做了详细的介绍，研究者可以根据研究主题的性质和前期具备的条件考虑是否选用德尔菲法：1）研究主题前期缺乏可借鉴的成熟理论成果，专家的集体主观判断可能很有价值；2）解决复杂问题所需的潜在参与者可能是非常多样化的专家，并且这些专家之间没有定期交流的历史；3）研究者的可及资源（项目周期和经费）无法支撑多轮次的专家集体会议；4）实名制的访谈或专家小组会议会由于专家个性问题而无法排除各种社会心理因素的干扰，常出现的情况是专家对意见有保留或专家代表所在的团体、组织发表意见，而匿名交流可以有效地避免该问题。

2.2.2 报告规范

在纳入的论文中，有59篇（15.9%）论文仅在摘要或原文中“一笔带过”式地将德尔菲法和其他研究方法进行了罗列，但是对方法的应用过程及相关指标却没有陈述。这种报告的不规范、不严谨会造成读者对方法适用性的怀疑，同时，会严重降低该研究结论的外部效度。

科学研究方法详尽实施流程的展现是研究方法“重复性”的重要前提（张力为，2006）。《APA格式：国际社会科学学术写作规范》中规定的报告规范的标准是“同一研究领域的学者可以根据方法学部分的描述对该研究在相同的客观条件下重新呈现出同样的结果”。因此，对于方法学部分报告的指标应尽可能地详细，对应用流程的介绍要做到同一领域的研究人员可以重现。顶级期刊《自然》（Nature）对来稿的方法学部分的做法非常成熟，“方法部分应该包含必要的内容，以便解释和实验成果可重复，作者需要将论文的详细方法保存到‘协议交换’（Protocol Exchange：《自然》专门打造的开放平台，涉及生物化学、微生物和医学等35个领域，主要目的是共享同行评议论文的研究方法部分）中，文章出版之后，作者保存在Protocol Exchange中的详细方法将链接到在线方法部分”。这种稿约机制要求将研究方法单独展现，供研究人员参考引用，最大限度地展现了科学研究的真实性。鉴于上述方法误用现象的出现，体育学期刊可以在稿约中重申研究方法的重要性，规范体育学术论文的方法学报告范式，从而正确引导体育科学的研究者们进行科学研究。

2.2.3 方法学特征

科研方法的方法学特征是用于区别不同研究方法的主要依据，代表了研究方法本身的特色。科学研究中应对体现方法学特征的指标进行必要的报告，这是研究方法合理正确运用的必要前提，也是对该研究方法适用性的回应（艾比·巴尔，2009）。“匿名、反馈、迭代”是德尔菲法区别于其他预见性研究方法的主要特征（Linstone et al.，2002）。匿名可以保证专家在意见征询的过程中“畅所欲言”，不会因为实名而有目的地进行意见的保留或修改。在被检索的372篇文章中，有359篇（96.5%）论文没有报告其研究过程是否匿名进行，仅有3.5%予以了说明。反馈是指在每轮次迭代开始之前，对上轮中意见的保留和分歧做出必要的解释。对被检索的372篇文章的反馈特征进行判断，主要分为：1）未报告（83.9%）；2）可以判断（仅可以判断有无反馈）（11.0%）；3）有详细说明（论文中陈述了每轮次反馈的内容（5.1%））。迭代是指在意见征集过程中形成的问题列表项目较多，应当逐步筛选、逐步收敛，问题数量呈递减性，意见趋向集中，这个逐步收敛的过程体现了德尔菲法的迭代特征（Loyens et al.，2011）。对被检索的372篇文章的迭代特征进行判断，主要分为：1）未报告（37.4%）；2）可以判断（仅可以判断有无迭代）16.9%；3）有详细说明（每轮次的专家人数；达到的目的；具体的指标筛选）（45.7%）。总体而言，对德尔菲法的方法学特征报告存在着“方法学特征不清晰”的现象，尽管有的研究可能是采用经过改良的“派生德尔菲法”（Chen et al.，1990），但这些研究并没有就“派生德尔菲法”应用的合理性做出必要解释。方法学特征不清晰会降低研究的外部效度，这需要引起研究者们的注意。

在德尔菲法的应用过程中，研究者们通常会面临一个问题，一项德尔菲研究需要多少次的迭代才能达到理论上的饱和，即意见统一。本研究中纳入的论文的迭代分布在1～5轮之间。既往研究认为，德尔菲法中专家咨询的轮数是可变的，其主要取决于研究目的。对于大多数的研究而言，需要2～3轮次（Hasson et al.，2010）。如果研究目的是需要小组达成共识，而专家组成员专业领域不尽相同，则可能需要3轮或更多轮次。如果研究目的是了解细微差别（定性研究的目标）且专家来自同一个研究领域，则少于3轮次就足以达成共识，即理论达到饱和或发现足够的信息。轮次主要取决于德尔菲法应用是否达成以下4个阶段的任务；1）专家所聚焦的问题确实是研究主题，每位专家都提供他认为与该研究主题有关的其他信息；2）了解专家看待研究主题的过程，包括每位专家对指标的认识来源和熟悉程度等；3）每轮次迭代中专家意见差异和分歧获得必要的反馈和分析，直到差异和分歧消除；4）最终评估：每位专家对最终达成的意见进行了评估（Hasson et al.，2010；Linstone et al.，2002；Okoli et al.，2004）。

2.2.4 专家组组建

德尔菲法应用的核心要素是依赖于专家的专业知识对研究主题进行专业的判断，因此，专家的权威程度（主要是知识储备量）和专家群体的数量直接决定了研究质量的高低（Linstone et al.，2002）。现阶段对专家的选取并没有固定的标准，但研究者在描述方法应用时应对专家选取的合理性做出解释。专家选取的核心要素在于“质”和“量”两个方面。“质”主要体现在专家选取的依据方面，专家的选取应按照明确的依据进行选择，特别是对于宏观的、需要多学科专家共同进行探讨的主题（Linstone et al.，2002）。纳入的论文中仅有150篇（40.3%）对选取专家的标准做了报告，主要是对专家职称、年龄、性别等指标做了介绍，并没有统一的报告范式。“量”体现在专家组成员的数量方面，纳入的研究中有247篇（66.4%）对专家的数量进行了说明，数量分布在4～150名，专家人数少于10人的有28篇。专家的同质性（homogenous）和异质性（heterogeneous）是专家数量确定的必要前提，一个德尔菲研究中专家的专业方向不同决定了专家数量的选取（Linstone et al.，2002），有61篇（16.4%）论文对专家的同质性进行了介绍。从专家的判断和选取的报告情况可以看出，当前判定和选取专家的标准模糊，并没有统一的标准。

在专家组组建的实际操作中，通常的方法有社会网络分析法和引文分析法等，对于冷门研究领域，还可以采取专家互相推荐的“滚雪球”法，当然，在方法实施的过程中需要保证专家们可以“背对背”发表意见，以保证德尔菲法中匿名的方法学要求。常用的筛选专家的工具有“网络爬虫”和“科学知识图谱”等。专家组组建前研究者需要明确“专家的选取依据”和“专家数量的确定”两个问题。

2.2.4.1 专家的选取依据

研究者需要在报告中就专家的选取过程做出必要的陈述。现有的文献中对专家选择依据并没有统一的标准，但文献研究表明，每位专家须满足以下4个条件：1）专业符合：专家的专业方向必须是一个或几个特定领域，专家的定义则主要是看其专业知识的储备量（国内的标准有专家的职称、从业年限以及代表作数量等量化指标）；2）精力允许：专家同意在研究中投入时间和精力，有部分研究由于轮次较多，中间过程中专家流失严重，为了避免专家中途退出，研究人员可以通过说明项目重要性等背景信息强调入选专家是最合适的人选这一事实，以此激励专家；3）自由发言：专家们可以“畅所欲言”而不需要担心自己的判断言论对自身可能造成的后果，德尔菲法主要目的是收集专家个人的意见，而并非他们所属组织的观点，因此，专家须能自由地发表观点，而不是代表一个组织进行判别；4）开放反馈：专家可以积极对每一轮次的结果进行反馈，特别是当专家个人的意见和专家群体集体的意见不同时，专家愿意就自己的意见给出解释（倪宗瓒，1995；Chocholik et al.，1999）。

专家的同质性和异质性是研究者们在专家选择中通常会面临的问题（Linstone et al.，2002）。不同的研究主题对专家的选取具有一定的技巧，如对于专业性很强、不需要多种学科互动的研究主题，选取同一个研究领域的专家对研究效度会有所提高；对于宏观的或者政策层面（policy delphi）的德尔菲技术应用，则需要选取多领域的专家，包括政府官员等，从不同的专业、职业角度审视研究的主题。

2.2.4.2 专家数量的确定

德尔菲法是属于“质性研究”的研究方法，因此，专家的数量并不能由统计学的方法决定（Akins et al.，2005；Murphy et al.，1998）。Hasson等（2010）主张应根据研究问题的范围和可及资源数量而定，可及资源包含项目的周期和资金等因素。早期的实验表明，随着专家群体规模的增加，群体误差会减少，结论的可靠性越大，但还没有实际证据证明两者之间的关系（Murphy et al.，1998）。现有的文献中专家数量从几人到1 685人之间不等（Grisham，2009；Skulmoski et al.，2007；Williams et al.，2010）。专家数量过少会使结果的权威性较弱，而专家数量过多会对结果处理和数据分析带来很大困难，而且可能会导致低的回复率（积极系数）（曾照云等，2016a）。现有研究认为，专家组的专家数量是可变的，应对一个主题的专家数量通常分以下两种情况：1）同质性群体专家：同一研究领域的10～15名专家即可（Latif et al.，2016）；2）异质性群体专家：不同研究领域的5～10名专家基本可以满足研究主题的需求（Chen et al.，1990）。上述两种专家数量的选取，可能是因为当专家人数超过既定上限人数时，经过迭代后呈现的结果和选取的专家组没有太大的差异，因此认为专家选取在上述区间内可能是较为经济、实效的数量（Chen et al.，1990；Clayton，1997）。

2.2.5 数据处理

每轮次迭代中结果的统计是德尔菲法的必要步骤，也是下一轮迭代前对前一轮迭代反馈的主要内容。随着德尔菲法的发展，该方法的属性已经从定性研究范式逐步转向定性和定量研究相结合的混合研究范式（Linstone et al.，2002）。定量的处理研究数据具有客观性、高效性和统计性等的优点。经过多年的发展，德尔菲法已经有了一套较为成熟的定量判定标准，这些评判标准的制定均是基于统计学理论知识，主要用于判定专家的积极程度、专家意见的权威程度、意见协调程度和意见集中程度等。从当前纳入的论文可以看出，德尔菲法定量化数据处理的理念和方法并没有普及，多数的研究依然采用专家主观直接判断的方法。如表3所示，积极系数的报告率最高为21.8%，作为“停止意见征询”重要指标的协调系数报告率仅为12.4%。可以看出，当前对每轮次迭代中专家意见的纳入和删除缺乏统一的依据，定量分析的范式并没有普及。因此，专家意见的纳入和删除标准不清晰是德尔菲法应用不规范问题之一。本研究提倡应用定量判断的方法进行专家意见的判断，尽管并没有统一的量化标准，但从当前体育科学研究方法定量化的趋势来看（张力为，2006；张力为等，2013；张连成等，2019），这种定量化统计的方法将成为德尔菲法数据处理的主流。

表3 德尔菲法迭代中报告指标Table 3 List of Reported Metrics in the Delphi Method of Iteration

从统计学理论来看，通常使用中心趋势（均值、中位数和众数）和分散程度（标准差和四分位间距）等数理指标来报告和反馈每轮次迭代的结果，目前尚无统一的报告方法（Linstone et al.，2002）。对于指标的统计学处理研究者们会有不同的统计学思路，但需要在报告中对统计思路的合理性做出必要的解释。

本研究在表3相关指标测量的基础上，借鉴既往研究（王春枝等，2011）成果，提供了一个用于体系构建研究的统计学思路，该思路分为"指标筛选"和"权重确立"两个方面：第一阶段中请专家对函询表上的每个指标的重要性、判断依据和熟悉程度进行打分，并对指标体系的建立提出各自的意见和建议，结束后，计算各个指标的均数、满分频率、变异系数和专家的积极系数、权威系数和协调系数，从而对备选指标进行筛选。筛选根据界值法进行，3个筛选标准分别为：1）均数≥“均数-2*标准差”；2）满分频率≥“满分频率-2*标准差”；3）变异系数≤“变异系数＋2*标准差”。若某项指标达到3个标准则给予纳入，若其中1个或者2个标准不满足则需通过专家意见决定是否纳入（反馈），若3个标准均未能达到则排除。

在第一阶段完成的基础上，开展"权重确立"阶段的咨询。该阶段中只对每个指标进行重要性打分，并在函询表中附上指标筛选函询中确定的各个指标重要性评分均值以供专家参考（反馈），并用层次分析法①指标权重体系的确定方法有很多，常见的有层次分析法、灰色关联度的变权排序、模糊综合评价法、熵值法等，研究者可根据研究的具体情况以及研究者本人的知识体系进行合理选择。（又称组合权重乘积法，analytic hierarchy process，AHP）确定指标的组合权重，即在同一层评价指标中，将该层评价指标中各指标专家咨询所得的平均分数进行归一化处理，得出每个指标在该层评价指标中的权重系数，各层评价指标的权重系数之和为1。

2.2.6 体系建构研究中存在的问题

前已述及，体育科学研究中德尔菲法最常用于指标体系建构研究（67.7%）。从现有文献来看，德尔菲法被广泛应用于公共体育服务绩效评价（张凤彪等，2017）、竞技人才相关评价指标构建（游松辉等，2019）以及体育课程评价体系构建（曾桂生等，2015）等研究中，德尔菲的应用质量直接关系到这些体系应用的质量。但从现有的结果来看，除上述德尔菲法应用中普遍存在的问题外，体育科学体系建构研究中德尔菲应用还存在以下问题。

1）缺少预先定义的问题表。在体系建构研究中，预先定义的问题表主要是指体系的指标池，指标池的构建是进行体系建构研究的必要前提。在纳入的252篇体系建构学术论文中，仅有71篇论文（28.2%）对指标池的构建流程进行了说明。在经典德尔菲法中，指标池通常是由专家给出的，研究者们只给专家提出研究主题，由专家自由发表意见形成指标池（Linstone et al.，2002），进而组建预先定义的问题表。换言之，经典德尔菲法的指标池是通过专家主导的焦点团体访谈法制定的，该种方法可以使研究者的专业知识迅速增长。但此种方式也存在意见分散，难以组织等缺点（曾照云等，2016b）。目前，体育科学体系建构研究中常用的指标池构建策略是在已有成熟文献的基础上通过研究者的系统综述形成指标池。

2）缺少应用研究。应用研究是指标体系建构研究中的重要环节，是保证科学研究连续性和科研成果转化的必要步骤（张连成等，2019）。在252篇论文中仅有67篇（26.6%）对体系进行了应用研究。在对剩余的185篇研究进行了作者和研究主题的纵向追踪后发现，仅有少量的作者进行相同主题的连续性应用研究。对构建完成的体系进行应用研究是检验指标体系是否合理的主要程序，也是科学研究转化为现实生产力的重要过程。因此，应将应用研究作为德尔菲法应用的必要程序，一方面可以验证德尔菲法产生结果的质量，另一方面可以进一步提升体育科学研究的成果转化率。

3 体育科学研究中德尔菲法应用的注意事项

3.1 证实性偏差的存在对研究效度产生威胁

德尔菲法在实际应用中存在研究过程的证实性偏差，即专家在前期开始时形成错误的观点或者假设，在随后的决策过程中，往往只注重获取支持其原来的观点或假设的信息，从而使错误的观点或假设持续（张冬梅等，2009）。体育研究领域现象纷繁复杂，多数的研究问题会涉及多学科的专家，不同学科的专家通常是基于本学科理论体系进行判断决策，学科差异的屏障也会增加证实性偏差发生的概率。研究效度是指研究真实、正确地揭示所研究问题的本质及其规律的程度，即研究结果符合客观实际的程度（董奇，2004）。证实性偏差一旦发生，将会对研究效度产生较大的影响，这是德尔菲法缺点之一。当前，可以从以下两方面来降低证实性偏差发生的概率：1）重视每轮次中的不同意见，不同意见的产生可能是专家对问题的不同视角的观点，尤其是对同一个主题由不同领域的专家进行判别时，这种不同意见较为常见，当这种不同意见出现时，研究者应该注重专家的“开放反馈”，听取专家持不同意见的原因；2）强调停止意见征询的时机，停止意见征询的时机选择是德尔菲研究结果确定的关键之一，理想的时机是所有的专家对同一个主题达成共识，但这种情况很难达到，如果在不合理的时机停止意见征询，将会提高证实性偏差的发生概率，因此，在可及的资源内，研究者应尽可能提升专家的意见协调程度。此外，研究者和专家之间的互动不佳、研究者自身的专业知识有限造成的对专家的意见解读浅显等都会提升证实性偏差发生的概率，这些问题需要研究者在方法的实际应用过程中给予关注。

3.2 派生德尔菲法应用注意事项

在本次检索纳入的论文中，部分研究对德尔菲法进行了“改良”，出现了不同形式的“派生德尔菲法”（Goodman，2010）。这种情况大致分为两类：1）是保持了德尔菲法的基本特点，做了某些局部的改进，这类派生德尔菲法研究者们通常会根据不同的研究目的以及可及资源等客观条件，对德尔菲法在轮次、专家数量、询问流程和形式等方面做出适应性改变；2）是改变德尔菲法的某些基本特性（张力为，2006），如有的研究只向预测意见差别最大的专家或权威性专家进行反馈，而不向其他专家反馈。虽然有研究认为派生的德尔菲法在实际应用中是有效的（Linstone et al.，2002），但是对研究方法应用程序的随意变动会降低研究的质量和可信度（张力为，2002），德尔菲法应用程序的随意变更会对研究效度产生较大的威胁。曾照云等（2016b）指出，派生德尔菲法特征和应用原则是不变的，在应用的过程中不可以随意地改变。因此，建议在派生德尔菲法的应用中，研究者首先说明应用的派生德尔菲法是否经过方法学的验证（通常是前期经过相关实证研究的证实），再说明这种方法的变动在自己的研究中应用的合理性，这样才可以做到德尔菲法正确和规范的应用。

4 体育科学研究中德尔菲法应用的一般流程

标准化的研究方法应用流程是科学研究方法“重复性”的重要前提（张力为，2006）。在各学科交叉融合、取长补短的过程中，研究方法可能是最容易互相借鉴的领域。同时，研究方法也是学科发展的生命线（张力为等，2013）。因此，在综合了教育学、医学、护理学、法学等其他学科德尔菲法应用的基础上（Facione，1990；Freitas et al.，2016；Dewa et al.，2018；Linstone et al.，2002；Schmidt et al.，2001），本文提出了体育科学研究中德尔菲法应用的一般流程（图2）。该流程分为3个阶段（准备、实施和验证），每个阶段中都有相应的报告指标和该阶段应该达成的目标结果。

图2 德尔菲法应用的一般流程Figure 2.General Application Process of the Delphi Methods

德尔菲法应用的前提是研究者确定研究主题后，根据德尔菲法的适用条件对主题进行审视，以确定研究主题是否适用德尔菲法。首先是准备阶段的“问题池构建”工作，具体方法有文献综述法、焦点小组法、成熟的指南或指标体系等。之后应根据标准构建“权威集体”，此后进入到实施阶段。实施阶段是德尔菲法应用的核心部分，该阶段的主要方法有问卷法、访谈法、基于互联网的一对一讨论（通常是邮件的方式）以及上述方法的综合。

本文提供一种用于指标建构研究的德尔菲法实施阶段的应用范式：第1轮：请专家对指标池进行初步筛查，采用“二分法”排除和纳入部分指标；第2轮：整理和优化专家反馈意见，对各个指标进行统计学处理，得到若干个较高的关键指标，结合两轮次专家意见以及初步形成的统计数据对指标优化进行综合判断，形成最终的指标（集），如果达到意见一致（通常是协调系数大于0.7），则进行下一轮，没有达成一致需要进行再次的意见征询；第3轮：指标权重咨询，经过数轮的迭代之后，意见逐渐集中，进入第3阶段，对构建完成的指标体系等进行实证性验证，对于一些无法进行实证性检验结果的研究，“实证检验”步骤可以忽略（如政策德尔菲）。

5 体育科学研究中德尔菲法应用实例

5.1 中国体育非物质文化遗产综合评价体系的构建与应用

深圳大学陈小蓉等（2017）运用德尔菲法构建了“中国体育非物质文化遗产综合评价体系”。在该研究中，德尔菲法应用的基本流程包括指标池构建、指标初筛、确定专家组（30名不同领域的专家）、设计专家咨询表、专家论证（两轮）、反复修改与建议、确定最终指标及对应权重等。研究中作者应用量化的分析方法，相关指标包括专家权威系数、指标重要性统计（变异系数）等。该研究还对评价体系进行了实证验证，验证了该体系指标的鉴别力，相应的实证数据还显现了当前我国非物质文化遗产项目的保护程度以及保护不力的特征等。需要提及的是，该研究在指标构建的过程中，研究人员秉承边设计、边验证，边修改、边完善的科学态度，多次听取基层非物质文化遗产管理人员和传承人的建议，反复听取专家反馈意见，以确保评价体系的科学性。

5.2 儿童青少年体育健身评估指标体系构建及应用

国家社会科学基金重大项目《中国儿童青少年体育健身大数据平台建设研究》的研究成果《儿童青少年体育健身评估指标体系构建及应用研究》采用经典德尔菲法构建了“中国儿童青少年健身评估指标体系”，该研究中德尔菲法应用程序规范，体系论证详实。在体系构建过程中，在正式的德尔菲法实施之前经过两轮次的专家焦点团体访谈，构建了项目的指标池，随后按照经典德尔菲法的实施流程进行了3轮次的迭代，在体系应用研究中利用12 405名全国儿童青少年数据进行体系实践效果的验证，结果证明，该体系在不同学段学生的区分度优异（胡月英，2017；胡月英等，2019）。目前，“中国儿童青少年健身评估指标体系”已经应用到我国儿童青少年体育健身大数据平台中，在提供区域发展报告、提供政府决策咨询、促进学校体育发展、调动社会力量、改进儿童青少年体育行为、促进国际交流等方面进行了实践应用（姜泓冰，2018）。

6 结束语

研究方法是牵一发动千钧的问题，是科学研究的生命线（张力为，2006）。但从本研究的结果可以看到，在科研方法应用的过程中，体育科研工作者还存在方法应用不规范甚至误用的问题。在提倡学术规范的今天，体育科学研究者们在运用德尔菲法时，须重视相关客观指标的应用，对方法的应用要做到“可重复性”和“创新性”并举。同时，作为科技论文的主要展示平台的学术期刊应该重视科研论文的方法学部分的写作范式，对方法学指标的报告应做出明确规定以提高论文的刊发质量。期望本研究可以“抛砖引玉”，让更多的学者关注我国体育科学研究方法应用的规范化问题。