APP下载

理论导向的体育社会学定量研究:问题、策略与展望

2024-01-28边燕杰张伊雪鲁肖麟

上海体育学院学报 2024年1期
关键词:社会学定量理论

边燕杰,张伊雪,鲁肖麟

(1. 西安交通大学 实证社会科学研究所,陕西 西安 710049;2. 西安电子科技大学 体育部,陕西 西安 710126)

体育社会学是一门科学,必然依赖循证为本的定量研究方法以实现其研究目标。作为一门交叉学科,体育社会学聚焦体育与社会的关系,是构建中国特色哲学社会科学学科体系、学术体系、话语体系的重要阵地。在现实层面,体育社会学关注体育在推进全民健身、建设现代化强国、提升国民健康水平和生活质量实践中发挥的重要作用;致力于理解和指导体育产业发展,促进经济社会发展,为实现中国式现代化作出贡献[1]。在学科层面,定量研究的客观性、精确性和可重复性有助于体育社会学研究深入理解体育现象,验证理论假设,推动理论创新。当下,我国体育社会学定量研究处于上升期,不断涌现出具有理论价值和现实意义的科研成果,但现有研究在理论导向、问题意识和方法规范性等方面也遇到了诸多困境,在数字社会时代面临新的挑战[2]。为此,本文重点回答以下两大问题:体育社会学需要定量研究吗?如何开展规范的定量研究才能实现体育社会学的科学研究目标?从以下方面展开论证:①定量研究的科学价值;②体育社会学定量研究的问题意识和深究理论;③我国体育社会学定量研究面临的困境及解决策略;④体育社会学定量研究的机遇和使命。

1 定量研究的科学价值

1.1 定量研究方法应用的学科背景

体育社会学研究具有鲜明的学科交叉特征。大量体育社会学研究的定量模型来源于经济学领域,使用的调查数据来自社会学领域,研究问题则属于体育学领域。那么不同学科领域对于定量分析方法的要求是一致的吗?答案是肯定的。本文简略回顾定量研究方法在经济学、社会学、体育学3 个学科中的发展和应用脉络,以便对定量研究方法的普遍应用价值建立历史唯物主义认知。

(1)经济学中的定量研究。西方经济学定量研究已有三百多年历史。早在18 世纪,数学表达就已经出现在经济学研究中。在之后的一百多年里,新古典经济学家们逐渐纳入描述统计学、回归分析等数学手段研究供需关系、贸易平衡等经济问题,开启了实证经济学研究,最后产生了计量经济学[3]。计量经济学是利用数学和统计学的方法验证经济学理论的一个经济学分支领域,以1933 年《计量经济学》期刊的创办为标志[4],成为当代经济学研究的主流。对80 种经济学优秀期刊1980—2015 年发表的全部13 万篇文章的统计发现,实证类文章的历年占比均超过50%,至2015 年占比接近70%[5]。

我国经济学的定量研究起步较晚,但发展势头强劲。在我国经济学研究中处于理论指导地位的是马克思主义经济学,在《资本论》《剩余价值学说史》中将数学方法作为经济分析的辅助工具,将利润率视为多种可变函数的组合,用以分析再生产理论问题[6]。在新中国成立初期的计划经济体制中,数学运算和统计分析亦被运用于宏观经济规划,辅助制定经济政策。20 世纪80 年代初,计量经济学方法自美国引入我国,90 年代中后期开始占据一席之地,21 世纪成为主流研究方法[7]。在我国经济学领域的重要期刊《经济研究》每年的发文中,使用计量方法的论文比例在1991 年前几乎为0,1998 年提高到11%,2007 年超过50%[3,8],2019 年超过80%,其中4 期达到100%[9]。由此可见,定量分析在中外当代经济学研究中均为主流方法。

(2)社会学中的定量研究。体育人文社会学知识建构来源主要集中在体育学、社会学、应用经济学等一级学科,其中贡献率仅次于体育学的便是社会学[10]。社会学的研究方法和视角深刻影响着体育社会学,推动了体育社会现象与问题研究的规范化。早在社会学创立时期,定量实证研究的思想便具有学科奠基作用。19 世纪上半叶,孔德在《实证哲学教程》中首次提出“社会学”概念时,便主张以科学实证代替哲学思辨,强调使用观察和实验等自然科学方法研究人类社会[11]。涂尔干是将定量研究方法纳入社会学实证分析的先驱,其在1897 年的著作《自杀论》[12]中利用描述性统计方法分析了自杀现象的社会成因。此后囿于社会现象的复杂性和统计资料与方法的有限性,定性研究长期占据社会学研究方法的主导地位。20 世纪70 年代以后,计算机技术与统计学的迅速发展推动了定量研究方法的长足进步。从20 世纪80 年代起,基于社会调查数据、使用计量模型的定量研究逐渐成为西方社会学研究的主流[13]。一项关于社会学权威期刊的研究[14]结果显示,使用调查数据的实证论文比例由1940 年的18%上升至2015 年的50%。另一项针对英国社会学权威期刊论文的研究[15]也印证了类似趋势:定量分析论文的比例由1977—1979 年的20%上升至1992—1994 年的31%。

我国社会学经历了特殊发展历程。20 世纪初社会学自欧洲传入中国后,经历了50—60 年代的中断,至改革开放初期恢复重建,与美国社会学界交流频繁[16]。当时恰逢美国社会学定量研究飞速发展,所以定量分析方法很快为我国中青年社会学者所接受。据统计,1986—2016 年社会学领域的重要期刊《社会学研究》刊发的定量研究论文平均占30%,每年呈波动上升趋势,最近几年稳定在35%左右[17]。定量研究是我国社会学的主流研究方法之一,早已成为不争的事实。

(3)体育社会学中的定量研究。体育社会学聚焦于体育、文化和社会结构之间的关系,被视为“最为活跃、最为硕果累累”的体育学分支学科之一[18]。20 世纪50 年代,体育社会学研究领域迅速扩张,基于定量研究方法的体育社会学研究成果开始出现。早期研究主要采用汇总数据、描述性和相关统计等初级分析方法,受学科交叉整合不足、专业学者短缺的制约,20 世纪60—70 年代定量研究在体育社会学领域的占比远低于质性研究和理论研究[19]。20 世纪80 年代后,体育社会学也经历了从质性研究向定量研究的科学主义转变,定量研究逐步成为主流研究方法。针对《国际体育社会学评论》(International Journal for the Sociology of Sport)的研究[20-21]发现,在1966—1975 年刊发的定量研究论文平均占比仅为55%,而1986—2005 年间增至70%。

我国体育社会学的定量研究起步较晚。直至20 世纪90 年代后期,问卷调查与统计模型等定量研究方法才被广泛运用于该领域[21]。据统计,在2000—2007 年300 篇体育学博士学位论文中,使用统计分析方法的占38%,其中,体育人文社会学占31%[22]。博士学位论文反映了每个学科最为前沿、最具潜力的发展方向,因此在可预见的未来,定量研究将在体育社会学研究中占据主要地位,引领体育社会学研究的科学化发展趋势。

1.2 定量研究的三段式:问题、理论、证明

经济学、社会学、体育学是相互独立的社会科学领域,分别有其相对独特的学科视角和议题。那么,为什么不同的学科视角和议题都依赖同一套定量研究方法实现其研究目标呢?答案是理论。学科视角和议题虽各不相同,但任何学科视角下所能捕捉的现实问题都必须转化为理论问题才能开展以循证为本的科学研究。现实问题是现象层次所能观察感知的,但其本质和内在变动逻辑需通过由表及里的理论分析,才能实现从感性认识向理性认识的飞跃。在此过程中,认识现象的本质就产生了理论概念,挖掘现象的内在变动逻辑就形成多个概念之间相互联系的理论命题,而理论创新在狭义上就是指理论概念创新和理论命题创新。定量研究方法之所以具有跨学科的适用性以及普遍的科学研究价值,是因为它可以用来测量理论概念和证明理论命题。问题、理论和证明是所有社会科学领域开展定量研究的3 个核心要素,缺一不可。

自2002 年以来,笔者提出和倡导理论导向实证研究的学术理念,用“想问题、究理论、重证明”来概括理论导向实证研究的3 个步骤[23],其实就是定量研究的三段式。①“想问题”的问题来自社会实践过程,来自研究者对相关社会现象的观察和感知,具有经验知识成分,但是进入科学实证研究的问题必须是一个理论问题,即用抽象概念认知社会现象的本质,用因果命题阐述社会现象的内在变动逻辑。②“究理论”是通过对已有理论的审视和批判,提出更为切合研究问题的理论假设,通过严格定义概念、确定概念联系、阐明因果机制的理论分析步骤,实现理论认识的突破和创新。③“重证明”是通过实证方法来验证理论的真伪。未经实证的理论仅仅停留在思辨层面,是缺乏实际支撑的抽象理念,无法确知其真理成分。尽管广义的实证方法包含定性分析与定量分析,但是定性分析的观察范围有限,研究过程欠缺规范化和可复制性,虽有强大的问题揭示和科学发现功能,却不是科学证明的理想方法。相反,定量研究具有数据代表性、模型规范性、分析客观性的特征,符合科学研究范式,是检验理论真伪及其条件性的最佳选择。

按照上述框架,笔者以2023 年6 月发表在《上海体育学院学报》的论文《种植方式与全民健身:体育锻炼参与的南北差异及其文化溯源》[24](以下简称《南稻北麦》)为例,分析理论导向的实证研究如何展开。该文作者观察到的经验知识是我国体育锻炼参与的区域差异,北方农村居民体育锻炼参与平均水平高于南方。由此提出的理论问题是:如何解释这一差异?作者从“体育起源于生产劳动”的马克思主义唯物论观点出发[25],寻找我国农业种植方式的地区差别与体育锻炼的南北差异的内在联系。这是《南稻北麦》的“想问题”。面对若干已有理论,包括自然条件论、经济影响论、体育设施论、文化优势论、社会资本论等,《南稻北麦》认为均不能解释体育锻炼参与的北高南低现象,为此提出南稻北麦种植方式的溢出效应论,通过教育中介与闲暇中介2 个理论推导,分别阐述南稻北麦种植方式影响体育锻炼参与南北差异的因果路径。这是《南稻北麦》的“究理论”。在“重证明”方面,《南稻北麦》使用2010 年中国家庭追踪调查(CFPS)数据进行定量分析,检验上述研究假设的真伪。通过多元回归、固定效应模型、工具变量分析、倾向值匹配分析等方法检验证明,南稻北麦种植方式对于农民体育锻炼参与程度的影响稳定存在。可以看出,《南稻北麦》遵从了科学实证规范,既有问题意识,又有理论推演,还有扎实的数据分析证明,是一篇符合“想问题、究理论、重证明”的定量研究范式的论文。

2 体育社会学定量研究的问题意识与深究理论

围绕近年我国的体育社会学定量研究,可以从问题意识、深究理论和证明方法3 个方面,对相关困境加以剖析,为提出解决路径提供范例和建议。

2.1 体育社会学定量研究的问题意识

提问题是理论导向实证研究的起点。问题也是引导体育学科高质量发展、有效改造客观世界的动力[26]。笔者将《上海体育学院学报》近5 年刊载的论文纳入观察范围。2019 年1 月—2023 年11 月,该刊共发表了532 篇论文,259 篇为体育人文社会学方向的论文,占48.7%,其中147 篇属于体育社会学领域的论文,占27.6%。如表1 所示,在方法取向上,体育社会学研究仍以理论分析和文献综述为主,占48.3%,定量实证研究占28.6%,质性研究占23.1%。

表1 近5 年《上海体育学院学报》刊载体育社会学论文的研究方法与议题分布Table 1 Research methods and topics of sociology of sport papers published in the Journal of Shanghai University of Sport in the past 5 years

论文的议题分布显示了研究者的问题意识。占比最高的议题是体育参与的影响因素及其结果,其次是体育政策的演进过程、实施策略、跨国比较等方面。体育文化研究涵盖了体育文化传播与传承、体育领域的象征符号分析等研究方向,体育公共服务议题包括社会体育基础建设、体育社会组织、赛事承办等方面。学科发展和理论与方法的反思探讨占12.2%,体现出体育社会学研究者不断强化的学科自觉。体育参与和健身活动在健康促进中的作用及其背后的社会因素分析等研究占10.9%,还有少量关于体育领域女性权益和性别意识的研究。

体育社会学是从社会学视角开展竞技体育和大众体育问题的研究领域[19]。虽有其他不同定义,但大多数学者对于体育社会学的界定都强调“社会学的视角与方法”以体现其学科属性[27]。结合社会学视角来审视《上海体育学院学报》近5 年刊载的体育社会学论文发现,研究者的问题意识在3 个方面可进一步提升:①议题的丰富度。体育参与和体育政策等传统议题研究较为充分,但对于新兴的数字化技术和社交媒体如何影响体育发展的研究较少,对体育领域中的社会歧视和边缘群体的体育参与问题探讨亦不足。②研究方法的选择。定量研究占比低、实证研究不足限制了理论与证据的结合。③研究的国际视野。体育社会学研究应加强与国际学界的对话,提升中国研究的主体性。那么,定量研究者的问题意识应如何改进和提高呢?

2.2 从现实问题到学术研究问题

定量研究中的问题意识需要层次转化。现实问题是现象层次的、可观察的,属于感性认识;而隐藏在现象背后的深层本质及内在变动逻辑,需要通过理论分析来挖掘,从而实现从感性认识到理性认识的飞跃,即实现从现实问题到学术研究问题的转化。转化成功与否取决于以下2 个环节。

(1)理论概念的提出。学术研究中的理论创新大多围绕一个原创理论概念展开理论论证和实证证明。例如,笔者提出体育社会资本的新概念,从社会资本与大众体育的辩证关系中论证此概念的理论内涵和行为意义,并进行了相关测量[28]。提出此概念的现实背景是我国的体育强国建设目标,而广泛、持续、深入的大众体育参与是实现这一目标的社会基础。从社会学的群体性视角看,大众体育的本质特征是群体性,很多锻炼形式和运动项目都依靠群体组织和共同参与而开展。从社会学的联系性视角看,群体性的大众体育参与其理论本质就是以人际互动为表现的人际联系性,由此产生了双向的体育社会资本效应:一方面,人际联系中所蕴藏的彼此认同、相互支持、互相激励的关系资源能够提升大众体育参与率;另一方面,群体性体育锻炼参与将扩大和增强人们的社会网络与社会资本,提升群众体育参与率,有利于体育强国目标的实现。简言之,体育社会资本概念是对大众体育的群体性和联系性双重理论本质的抽象概括。

(2)理论命题的提出。有价值的理论概念应能解释相关社会现象,并有助于形成新的理论命题以进行实证研究。理论命题是对2 个概念之间内在因果关系的抽象表述。以体育社会资本的理论框架为例,体育社会资本是一个可测量且有效的分析概念:一方面,社会群体的优势地位提升个体的体育社会资本(命题1);另一方面,体育社会资本显著提高人们的身心健康水平和生活满意度(命题2),促使他们更积极地参与体育强国建设(命题3)[28]。在提出理论命题时,要明确理论概念与现实问题的联系。例如,体育社会资本的概念要帮助我们揭示其对个体和群体体育参与的广泛影响。此外,有效的理论命题应基于数据和现实观察,能够经得起实证研究的验证。理论命题必须能够操作化为可检验的假设,通过测量核心概念使得数据为理论命题提供实证基础。

2.3 从学术研究问题到深究理论

提出学术问题后,首先要深究理论,才能实现理论创新。原创性理论创新的不足正是当下体育社会学研究的局限之一[1]。人类社会行为的差异性、复杂性、发展变迁性都能够激发社会科学的理论创新。针对深究理论、实现创新,笔者提出以下3 条建议。

(1)观察经验现实,发现理论问题。发现理论困惑并提出理论问题往往有3 种角度:①现有理论存在解释缺陷,其前提假定和内在逻辑存在矛盾,例如《南稻北麦》的文献综述提出,在体育锻炼南北差异的已有解释中,经济投入、气候环境、文化因素的解释逻辑均不成立;②生活经验缺乏理论解释,这些经验背后的规律性有待挖掘,《南稻北麦》提出的理论观点属于这一角度;③现有理论与现实经验存在矛盾,例如西方理论在解释本土现象时适用性不强,本土现象的因果机制和适用条件需要进一步研究。这一困惑为研究者挖掘本土知识、推进理论创新提供了绝佳的机会。社会网络分析中的“强弱关系”理论争辩就是一个范例[29]。西方学者提出的弱关系理论认为,在诸如求职等社会行动中,弱关系因为能够提供异质性信息,往往比强关系更为有效,这一假设被西方实证研究反复证明。但是中国的生活经验是,强关系往往才是目标达成的中介机制。这是西方理论与中国现实的矛盾。产生此困惑是由于我们尊重本土生活经验,并结合经典理论对本土经验进行凝练和概括。为此笔者提出了更具本土现实解释力的“强关系”假设,并在此基础上开拓了“关系社会学”这一中国主体话语体系的学术研究领域[30],完成了从借鉴西方理论到本土概念创新再到国际传播的理论创新过程。

(2)文献挖掘注重相悖的理论逻辑。在提出和深化体育社会学理论问题时,考虑并行和相悖的理论逻辑至关重要,在此基础上可以提出对立的或有差异的理论假设。例如,在分析体育参与与公民健康不平等的关系时,有研究采纳了结构主义和个体主义2 种视角。结构主义强调社会地位和资源对健康的影响,而个体主义侧重于个人行为对健康的作用。通过这种对比分析,形成关于体育参与如何影响健康不平等的不同理论假设,如“优势累积与劣势效应”“年龄中和效应”等可以进行实证检验的假设[31]。这种方法不仅揭示了理论之间的交叉点和潜在冲突,也为理论发展和实证检验提供了新的视角。

(3)善于表述理论。表述理论一般有三步工作:严格定义概念、确定概念联系、阐述因果机制。在笔者的《体育社会资本的理论建构和现实意义》[32]一文中,理论表述的第一步是将体育社会资本定义为通过体育活动建立的人际关系和网络结构,展示了概念定义的严谨性和原创性。在确定概念联系的环节,厘清核心概念间的联系,表述理论命题。论文探讨了体育社会资本与个体健康、社会参与和生活满意度之间的关系,阐述了这些概念之间的联系。最后是阐述因果机制,提出了体育社会资本通过增强社会支持和社会网络来提升个体健康水平和生活满意度的具体因果机制。

2.4 从深究理论到定量思维

深究理论的直接成果是理论创新。理论创新完成了对前人理论认识的突破,但是这种突破是否具有分析有效性,是否具有科学研究价值,这是需要通过实证数据的定量分析来证明的,即开展定量分析之前需要实现从深究理论到定量思维的转化,其标志是将抽象的理论概念转化为可测变量,将抽象的理论命题转化为可验证的研究假设。

先看理论概念到可测变量的转化,即概念的操作化。概念的操作化过程可以分为界定概念维度、将不同维度转化为指标、设计测量方法3 个步骤。界定概念是指明确理论概念的不同方面或属性。以“体育参与社会资本量表”的开发为例[33]:第1 步是将社会资本的概念定义为网络、信任和互惠3 个关键组成部分;第2 步是将此3 个维度分别转化为可测指标,通过一起参与跑步活动的亲朋好友数量来测量网络,通过对这些“同跑者”的信任度打分来测量信任,通过询问与“同跑者”的各种资源的分享程度来测量互惠;第3 步是通过专家小组对上述3 项指标题器开展有效性评估,通过因子分析来验证和优化指标,确保较高的指标效度和信度。由此成功地完成了从理论概念到可测变量的转化。

再看抽象理论命题到可验证假设的转化。这是从深究理论到定量思维的关键环节。仍以《体育社会资本的理论建构和现实意义》为例,笔者分3 个步骤将抽象的理论命题转化为可验证的假设:①理论命题的提出。论文提出了关于体育社会资本促进个体身心健康的理论命题。②理论概念的变量化,即将理论命题中的概念转化为可测量的变量。由于数据的限制,该文以集体锻炼项目的参与情况来间接测量体育社会资本的概念,分别用自评健康和压力感来衡量身体健康与心理健康。③可测量指标的选择与变量赋值。例如,在体育社会资本的测量中:将不参加任何形式锻炼的居民赋值为 0,代表不锻炼群体;将只参加个体项目的居民赋值为 1,代表个体项目锻炼群体;将既参加集体项目又参加个体项目的群体和只参加集体项目的群体合并,赋值为 2,代表集体项目锻炼群体。体育社会资本这一抽象概念被具体化为可以通过数据和实证研究来检验的变量和指标,从而实现了理论命题向定量思维的转换。

3 体育社会学定量研究分析证明的困境与对策

如前所述,理论导向的实证研究包括3 个环节(问题、理论和证明),而证明是实现前2 个环节的保证。能否系统而规范地利用数据证明理论认知的真理成分及其条件性,往往对定量实证研究的质量高低起着决定性作用。定量分析作为证明的核心工具,其有效性依赖于3 个关键要素:概念测量、数据收集和分析方法。首先,概念测量的准确性直接影响研究结果的有效性。其次,数据收集的全面性和系统性对于确保研究的可靠性至关重要。最后,选择恰当的分析方法是实现理论验证的关键,这不仅要求研究问题、数据类型、方法模型相互匹配,还需要确保分析过程的规范严谨。

3.1 概念测量与数据收集

3.1.1 理论概念的有效测量

对理论概念的准确测量是定量证明的第1 步,也是实证分析规范性的基础。在国内现有的体育社会学定量研究中,概念测量的信度和效度存在较为突出的问题。理论概念与测量指标的匹配性如果不高会极大地动摇定量研究的根基。例如,一些研究使用被访者的“每周上网总时长”来测量“人工智能发展”这一概念,就是将产业和地区层面的人工智能发展的宏观概念降维到个人使用层次进行测量,出现了理论与实证的断裂、分析单位的错位,另外也混淆了互联网使用和人工智能应用这2 种不同的行为,对概念的测量效度不高。这类问题使得实证分析达不到证明理论假设的研究目标,使所有论证的努力都偏离了方向,会带来对定量分析结果有效性的根本质疑。

要解决测量效度问题,体育社会学研究者应深入挖掘体育学和社会学两大母学科的学术资源,并采用具有坚实理论基础和符合学术规范的测量指标。这一过程涉及对母学科理论与方法的深入理解和应用,包括学术理论的历史演变、关键概念的定义发展,以及研究方法的系统构建。概念测量的准确性和系统性可从社会学领域的社会资本经典研究中窥见一斑。基于对经验的观察,一些个体通过社会关系获得了优势教育资源和优质的、薪水更高的工作。定量研究者将这一现象概念化为社会资本,包含人际关系及附着的社会资源两部分[34],并采用3 个指标测量此概念:①达高性,个人中心网络内部地位最高的关系人及其资源;②异质性,个人中心网络内部不同关系人的地位及资源的差异幅度;③广泛性,个人中心网络内部所有关系人的规模和资源总量[35]。通过定量研究方法的准确测量,学者们将抽象的社会资本概念转化为可量化的数学形式,从而方便进一步探索其背后的规律。因此,从母学科中汲取学术资源,采用符合学术规范的测量指标,不仅能够更准确地反映研究对象的实际情况,而且还能够与母学科中的其他研究形成对话,推动知识积累和理论发展。

3.1.2 一手数据的规范采集

一手数据采集的规范性是实证分析规范化的重要基础。目前,可供采集的数据类型包括统计数据、调查数据、实验数据、线上大数据等。统计数据多由国家统计局、国家体育总局等机构收集并公布,获取较为方便。调查和实验数据主要由研究者基于研究目标而设计并收集。线上大数据包括人们的数字化行为痕迹,一般通过合作机构或商业化平台进行采集,或通过技术手段自行获取。

我国体育社会学领域中相当一部分定量研究使用一手调查数据。一手数据的优势在于能够涵盖研究者所感兴趣的相关变量,更好地满足研究者的需求,更有针对性地达到调查目标。但数据采集过程不规范、数据介绍不充分是现有一手数据研究中普遍存在的问题。近年来在体育社会学高水平期刊发表的定量研究中,有相当一部分没有对调查的开展过程、抽样方式、数据收集工具、样本的特征和构成等重要信息进行详尽、充分的介绍。因此,对于抽样偏差对分析结果可能带来的影响也缺乏重视和讨论。数据来源的规范性存疑就会损害样本代表性,从而影响分析结果的有效性和结论的推广意义。

在目前体育社会学最为常用的调查数据采集中,需注意调查研究的基本原则。调查研究通过抽样设计与随机抽样的方法确定被调查的人群,并借助结构化的调查问卷,获得人类行为和态度等信息。规范的调查研究过程需要遵循系统性与客观性两大原则。系统性既体现在确定而清晰的抽样框,还体现在抽样的随机性,以保证样本对于研究对象总体的代表性。客观性原则体现在:一是调查设计过程中减少研究者的主观性影响;二是数据收集过程中减少调查员对于被调查者的任何干扰;三是以安全、准确、无偏、共享等原则来使用和传播数据。对大多数研究者而言,独立收集系统且客观的一手大型调查数据是可望不可即的,为此开展广泛合作建立大型公共数据库迫在眉睫。

3.1.3 公开数据库的使用与建设

大型公开数据库的建立和使用,以及在此基础上的规范测量,是基于调查数据开展高质量定量研究的重要路径。目前社会科学领域的理论创新更多是基于已有的公开数据库,相同领域的研究者往往基于共同的数据展开对话,而体育社会学领域常用的公开数据库主要是国家统计局、国家体育总局提供的统计数据,虽然具有一定的权威性,但前者涉及体育的指标较少,后者的连续性和结构性不强。

体育社会学公开调查数据库的缺失已经为该领域的发展带来阻碍。首先,缺乏能够共同使用的数据,定量分析就无法得到复制研究和科学检验,不同研究结论只能各执一词,缺乏对话的平台。其次,相同概念的不同测量方法之间由于样本、数据来源不同,也无法相互比较、持续优化。再次,对理论假设的检验如果不能基于共同的数据和测量来开展,就无法在诸多结果的对比中去伪存真,推进理论的创新和发展。

只有基于优质的公开调查数据和规范的测量,才能形成不同研究之间的对话平台。以社会学为例,中国社会学定量研究者往往共同使用一些公开大型数据库展开实证分析,这些数据库为研究人员提供了丰富的数据资源和开放的对话平台。已经取得实效、具有广泛影响的社会学大型数据库包括:中国人民大学主持的中国综合社会调查 (CGSS,2003 年至今)、中国社会科学院主持的中国社会状况综合调查(CSS,2006 年至今)、西安交通大学主持的“社会网络与职业经历”调查(JSNET,2009 年至今)、北京大学主持的中国家庭追踪调查 (CFPS,2010 年至今)、中山大学主持的中国劳动力动态调查 (CLDS,2012 年至今)。基于这些公开调查数据,社会学领域持续产出了大量高质量的定量研究成果,对于中国社会学的学科建设厥功至伟。

建立和使用大型体育社会学公开数据库展开研究,能够大大提升定量分析的可复制性、可验证性,使得学术共同体内部形成统一的定量分析规范,也能够基于相同的数据和分析处理方式,对既有研究进行检验和证伪,从而提升体育社会学定量研究的科学性。因此,体育社会学学术共同体内部应建立共识、开展合作、整合资源、共建共享,通过收集一手数据、建设高质量公开数据库,进一步推进学科发展,为促进体育参与、建设体育强国提供科学依据。

3.2 数据分析与方法选择

研究方法与研究问题、理论假设的高度契合是理论导向落脚于实证分析的关键。目前体育社会学定量研究普遍存在以下2 个问题。①研究方法的选择与问题、假设或数据不匹配。例如《南稻北麦》就存在此类瑕疵。该文在论述南稻北麦种植方式溢出效应时,基于历史文化发展进行理论阐述,但是作者使用的是2010 年的截面数据,存在时间谬误风险,需用跨年代数据验证。在数据分析中,南北方农民的受教育程度和闲暇时间变量在组内差异大而组间差异小,导致回归模型中变量系数值低,其统计显著性可能由大样本引起。②某些研究过分追求复杂模型,忽视基础方法和描述统计的价值。特别应该避免的做法是,在没有进行数据描述和初步分析的前提下,就开始进行回归分析和反事实模型分析,这会让读者无法分析样本的基本状况,无法识别复杂模型分析的有效性。定量分析的目的是证明理论假设是否成立,而对定量研究方法的不求甚解和一味炫技会将简单问题复杂化,导致分析结果看似精美繁复,实则空洞平庸经不起推敲。分析方法与数据结构、研究问题的匹配才是选择分析方法的最佳标准。为此,笔者强调数据分析的以下3 类有用性。

3.2.1 单变量描述的有用性

描述研究问题是科学研究的基础。为此,数据的准确描述是获取确切结果、形成有效知识传播的重要前提。在社会科学领域,尽管复杂的社会现象很难用符号和公式充分描述,但定量研究通过变量形式提供了描述体育现象的有用手段。在单变量描述分析中,频数分布、集中趋势、离散趋势等关键统计量有助于理解变量的基本属性,例如,均值和标准差不仅能用于群体间比较,识别差异,还能分析样本的代表性。比较实验组和控制组的均值和方差能够揭示不同体育锻炼方式对健康状况的潜在影响。频数分布有助于发现异常值,验证变量测量的有效性。

结合一些新的数据形态,单变量描述统计还能揭示潜在的趋势和模式,为深入分析提供重要线索。例如:在搜索引擎数据中,某些赛事搜索热度的时间变化趋势与空间分布特征可以描述体育赛事关注度的时空规律[36];来自可穿戴设备和运动应用程序的数据描述可以实时反映锻炼者的生理状态、使用情况、身体活动变化等重要信息[37]。

3.2.2 多变量分析的有用性

多变量分析通常以可视化和数学建模的形式探索和确证变量间的关系,包括从简单到复杂的因果关系。多变量分析可以识别哪些变量显著影响某一结果,以及它们之间因果关系的方向、条件和路径。例如,笔者在《找回强关系:中国的间接关系、网络桥梁和求职》一文中,通过数学建模验证了强关系在中国求职时的优势作用,进一步提升了中国的关系研究在国际上的影响力[38]。多变量分析中的多元回归模型允许研究者在控制其他影响因素后,更准确地评估感兴趣的自变量的净效应;多变量分析还允许联合估计多个回归方程;各类反事实模型可以在排除混淆变量的干扰后更准确地推断因果关系的存在、大小与方向。

拟合优度较高的多变量模型可以用于对未来事件发展方向进行预测。例如,回归分析既可以用来预测运动与健康的关系,也可以解释疾病发病率与环境因素之间的联系。近年来,备受青睐的大数据已经被广泛应用到经济、政治与社会研究的众多领域中预测个体或群体的行为。研究者可以使用不同的多变量模型来比较不同的理论假设或解释机制,以找出最佳的模型解释观察到的数据。总之,多变量分析提供了多层次的工具和方法,可以帮助研究者更深入地理解数据、发现因果关系、预测未来趋势,支持科学决策和政策评估。

3.2.3 推论分析的有用性

首先,定量分析有助于获得有效研究结论。严密的研究设计能够清晰界定研究问题,确定适当的数据采集方法;用大样本和随机抽样保证样本的代表性,有效降低选择偏差;用问卷调查和实验观察等精确的测量工具确保数据的可信度和准确性;用恰当的统计方法来分析数据,保证结果的可靠性;以数值形式呈现结果使之易于理解和解释。其次,定量分析的代表性样本和科学性质使其结论可以被广泛推广至其他研究和情境,有助于科学研究的复现和扩展。最后,定量分析的方法和结论可以在不同学科领域之间传播和应用。例如,体育学定量研究可以用来评估体育设施建设对当地经济的影响。经济学家可以借助这些研究来确定新体育场馆、体育中心或运动场的建设是否值得投资。定量分析之所以成为科学的推论工具,依赖于其使用的一套可复现、可验证、可交流的数学语言,这为定量研究在各领域和学科中的应用提供了坚实基础。

3.3 内生性问题与因果推断

回归分析是基于调查数据开展推断统计分析最重要的工具,通常用于探究和检验多变量间的相互依赖关系。但由于缺乏严格的实验设计,使用基于调查数据的社会科学回归模型分析得出的因果结论一直面临着内生性问题的困扰。内生性问题在计量经济学中广泛指代解释变量与残差相关的现象。忽略内生性问题会违背高斯-马尔可夫定理,导致产生有偏的估计量[39]。直到20 世纪70 年代唐纳德·鲁宾(Donald Rubin)提出潜在结果模型,才真正揭开了因果推断的时代序幕[40],多种反事实因果模型相继而生。近年来,“贝叶斯网络之父”朱迪亚·珀尔(Judea Pearl)提出了与“潜在结果框架”相对应的“结构因果框架”,通过构建关键要素的因果图描述变量之间的因果关系,研究者能够更加直观地进行因果效应的定量评估[41]。因果推断向调查数据中注入了像自然科学实验数据那样的随机性,尽可能得到对因果关系更为可靠的估计。

近十年来,我国经济学和社会学领域在应对统计分析的内生性问题上已经达到国际前沿水平[42],但是体育社会学研究者对此问题仍然重视不足。《南稻北麦》是少数重视内生性问题、开展反事实模型分析的体育社会学论文之一。即使如此,《南稻北麦》所使用的反事实模型未必彻底排除了内生性问题。例如,作者选取的“省级年平均气温与降水量”是否严格满足工具变量的全部条件,值得商榷。又如,文中的工具变量与因变量直接相关,气温和降水量在一定程度上也能够直接影响居民的体育参与,尤其是户外体育锻炼的参与。此时模型中观察到的统计显著性可能不是由变量之间真实的关联关系引起的,而是由其他因素造成的。此外,倾向值匹配分析的样本量仅存不足25% 容易导致样本严重偏误,也可能会影响模型结果的推论价值。

在体育社会学定量研究中,首先要对内生性问题的来源具有清晰的认识和区分,才能在此基础上选择不同方法。例如,针对联立性因果带来的内生性问题,可以引入时间序列,通过面板数据的固定效应模型来解决。对于遗漏变量导致的内生性问题,工具变量法是较为常见的处理策略。对于样本选择偏误可以用样本选择模型来解决,对于自选择偏误可以用倾向值匹配法来解决[43]。下文笔者针对体育锻炼(解释变量)与健康状况(结果变量)的因果关系,推介下列几种反事实模型的应用方法。

(1)工具变量法。此方法通过引入与解释变量(体育锻炼)相关但与随机误差项无关,而且与结果变量(健康状况)无直接关联的第3 个变量来解决内生性问题[44]。例如,使用地区体育设施的可获得性作为体育锻炼的工具变量。2021 年的3 位诺贝尔经济学奖得主正是因引领了因果推断和经济学中自然实验的兴起、改进了工具变量法而获此殊荣。已有研究运用这一方法分析体育锻炼对青少年非认知能力的影响[45]、估计体育锻炼习惯为居民带来的收入优势[46]等问题。在难以找到合适工具变量的情况下,随机前沿模型等新技术也可用于处理内生性问题。该模型使用Copula 方法度量内生自变量和随机项的相关性,然后使用数值积分和极大模拟似然方法估计目标模型[47]。

(2)双重差分法。此方法能够控制不随时间变化的不可观测因素,并估计干预措施的因果效应。通过比较处理组(参与体育锻炼的人群)和对照组(未参与体育锻炼的人群)在干预前后的健康状况变化来估计体育锻炼的效果[48]。假设某地区新建了一批体育设施,可以将这个地区的居民作为处理组,而另一个未建设体育设施的相似地区居民作为控制组。比较两组在建设前后健康状况的变化差异,这个差异的差异(“双重差分”)即可被认为是体育锻炼对健康影响的净估计。合成控制法、回归合成法与此原理类似。我国体育社会学领域已经出现了相关方法的应用探索,通过对比实际情况和“反事实”情况的差值,评估北京2022 年冬奥会对北京旅游业的影响[49]。

(3)断点回归设计。经济学领域常用的断点回归设计由诺贝尔经济学奖获得者Imbens 等[50]提出,通过利用自然发生的“间断点”来解决内生性问题。断点回归设计假设在某个特定间断点附近其他所有条件都保持不变,只有一个关键变量发生了改变[50]。通过比较间断点两侧的数据,可以估计这个关键变量对结果的影响,有效分离因果关系和其他可能的影响因素。假设某个城市为65 岁以上的老人提供免费的体育设施使用权,可将65 岁作为间断点,通过比较小于和大于65 岁两类人群的健康状况差异,估计免费体育设施政策对健康的影响。已有研究[51]利用强制退休制度,用体育锻炼参与在法定退休年龄前后的极限值之差来识别退休对体育锻炼参与的因果效应。

(4)固定效应模型。如果有同一批样本的体育锻炼和健康状况的多期追踪数据,可以使用固定效应模型来控制不随时间变化的个体特征(如性别、遗传因素等)和混淆因素,只分析体育锻炼行为变化与健康状况变化之间的关系。此外,基于多期追踪数据,还可以使用交叉滞后面板模型(cross-lagged panel model),引入时间效应,从而分离并估计出解释变量和被解释变量之间的双向因果效应。该方法在运动生理学领域已有诸多应用,但在体育社会学研究中尚不普遍[52]。

(5)倾向值匹配模型。倾向值匹配是指通过匹配样本中处理组和对照组中相似的个体来模拟随机分配的情况[53]。基于年龄、性别、社会经济地位等可观测的个体特征,为每个样本计算其进行体育锻炼的概率,即倾向得分。将锻炼的个体(处理组)与未锻炼但在倾向得分上相似的个体(对照组)进行匹配,确保处理组和对照组在其他重要特征上是相似的。通过比较匹配后的处理组和对照组在健康指标上的差异,可以估算出体育锻炼的净效应。

4 结论与展望

4.1 结 论

体育社会学领域中的定量研究不仅是必要的,更是推动该领域科学发展的关键要素。从经济学、社会学和体育学的发展脉络可以看出,定量研究在社会科学研究中占据着重要和主流的地位,其客观性、精确性和可重复性有助于深入理解体育现象,验证理论假设,实现理论创新。

我国目前的体育社会学定量研究虽然存在诸多困境,但可以从定量研究的3 个核心环节来解决困境、提高质量,即想问题、究理论、重证明。“想问题”的要领是首先从经验观察中发现现实问题,进而将现实问题用理论概念抽象为学术研究问题,最后以变量思维将学术研究问题操作化为可量化、可观察的测量指标。“究理论”的关键是将研究问题的本质通过抽象概念来把握,将概念之间的关系通过理论命题和研究假设来表述,并力求在概念、命题、假设等要素上都有学术创新和突破。“重证明”的途径是努力把握概念测量的准确性、数据收集的规范性和分析方法的匹配性,同时尝试使用恰当的因果推断方法来解决相应的内生性问题。尽管面临概念测量和数据收集的挑战,但标准化的数据收集、规范的测量、恰当选择和使用研究方法,以及公共数据库的建设,可以帮助研究者有效地克服这些障碍。

4.2 展 望

数据科学的兴起为包括体育社会学在内在所有社会科学的定量研究创造了新的发展机遇。在计算科学、机器学习、人工智能等新技术日益普及的时代,新设备、新数据的可及性不断提高,推动社会科学研究范式转型,但在体育社会学领域,利用这些新形态的数据、技术和方法进行的定量分析还十分有限。例如,在人工智能的运用方面,目前国内体育学研究主要集中于自然科学尤其是工程应用领域,而体育社会学领域还停留在围绕这类新兴技术的理论性探讨和综述[54-56],尚未出现数量可观、质量过硬的实证研究。少数已有研究[57-58]对大数据、人工智能等新兴技术的应用分析也不够深入。未来的体育社会学研究可以从以下不同的方向继续探索。

(1)计算社会科学赋能理论创新。随着社会科学和计算科学的深度交叉融合,学者已提出“计算扎根”的新范式[56],强调通过数据挖掘、机器学习和归因算法筛选自变量,提出新的理论假设,推动理论创新[59]。结合新兴的数据结构和计算科学方法,可以帮助体育社会学定量研究建构理论体系、提升问题意识,使理论导向与新方法、新技术相辅相成。新兴的数据结构和计算科学方法使得研究者可以从大量数据中寻找模式和关系,验证和改进现有理论,并在必要时建构新的理论框架[60]。这种方法论强调数据和理论之间的动态互动,鼓励研究者在数据分析和理论构建之间寻求平衡,提高了对复杂社会现象的预测能力。计算社会科学将社会科学理论导向与新数据、新技术融为一体。这种融合不仅为大数据分析提供了新的研究议题和问题意识,而且在数据挖掘的结果中还可以找到建构和验证理论的线索,从而推动预测模型的建构。计算社会科学的发展将社会科学理论引入数据挖掘之中,不仅能够使用新形态的数据来验证理论中发展出来的假设,而且在理论机制不够明晰时,也能从数据挖掘结果中得到启发。通过解释数据挖掘的结果,与相关理论开展对话,能够验证已有理论、发展新兴理论[61]。

(2)新兴数据形态拓宽机制分析。物联网和分布式存储等信息技术的发展使非结构化大数据在社会科学研究中的应用增加。相较于问卷调查,大数据有诸多优势:一是降低经济、时间、人力成本,提升时效性;二是解决样本代表性不足问题,减少抽样偏差;三是不受传统统计假设限制,可用复杂编程语言分析人类行为[62-63]。此外,大数据为社会科学研究者带来了宏观视角,研究者得以用较低的成本获得传统方法难以企及的宏观指标及其随时间变化的全过程[64],为体育政策制定和体育活动的组织提供数据支持。例如,通过分析社交媒体平台上的在线讨论、活动分享,以及围绕特定体育事件的舆情数据,可以了解体育活动参与者的互动模式和社会关系,研究大型体育赛事(如奥运会、足球世界杯赛、马拉松)对城市或国家的社会影响。线上大数据与时序分析、空间分析方法相结合,可以分析赛事前后的社交媒体情绪变化、参与者和观众的地理分布[65],以及赛事对本地经济和社会结构的长期影响。通过类似的分析,可以更好地理解体育赛事如何塑造国家认同、促进国际交流、影响社会心态。通过分析健身追踪器和智能手表等可穿戴设备收集的行为数据,研究人员可以更好地理解体育活动对个人健康的影响[66]。如果能够将参与者的运动频率、强度、持续时间、生理响应(如心率、能量消耗)与问卷调查所反映的社会因素相结合,就能提供具有社会学意义的深刻洞见。

(3)前沿技术应用推进范式革新。机器学习和人工智能技术可以用于分析和预测体育活动对个体和群体的影响,催生了“社会预测”[67]、“理论与数据双向驱动”[68]、“理论引导的大数据分析”[61]等兼具学术价值、治理价值和话语价值的新范式。机器学习技术改变了传统体育社会学只能实现关联分析和因果分析而无法进行预测的历史。例如,机器学习可以基于历史数据来预测体育活动参与度的变化趋势,或者预测特定体育项目对特定人群健康的潜在影响,为体育政策制定和活动组织提供更有针对性的数据支持[69]。我国体育社会学领域目前也出现了采用机器学习算法对奥运冠军临场运动表现的影响因素进行的分类分析[70],以及将ChatGPT 用于辅助体育社会学文献梳理和数据分析的技术性实践总结[71]。这都是体育社会学定量研究中具有重要意义的探索。

新数据、新技术和新方法的应用能够赋能理论创新、揭示新的因果机制、催生新的研究范式。未来的体育社会学研究不会再局限于单一范式,而应融合过程思维、结构思维、反事实思维和前景思维等多种思维途径[72]。多元化的研究范式结合新数据、新技术和新的因果识别策略,将会为体育社会学定量研究带来新的机遇和可能。体育社会学定量研究应积极利用新技术和新方法,不仅关注实证分析的规范性和创新性,更要探索数据和现象背后深层次的社会机制,以开展更富有理论价值、现实意义和国际影响力的研究。

致谢在本文修改过程中,科罗拉多大学张磊博士、西安交通大学缪晓雷博士提出了建设性意见,特此致谢。

作者贡献声明:

边燕杰:确定论文选题,提出核心观点和理论框架,指导撰写论文,修改审定论文;

张伊雪:梳理相关文献,起草论文,修订体例;

鲁肖麟:修改论文框架,梳理相关文献,撰写论文。

猜你喜欢

社会学定量理论
坚持理论创新
神秘的混沌理论
中国社会学会农业社会学专业委员会成立
理论创新 引领百年
边疆研究的社会学理路——兼论边疆社会学学科建构之必要性
相关于挠理论的Baer模
显微定量法鉴别林下山参和园参
第八届全全科学社会学学术会议通知
当归和欧当归的定性与定量鉴别
10 种中药制剂中柴胡的定量测定