关于回归分析教学内容的思考
2022-03-16张浩然
张浩然
(广东财经大学 经济学院,广东 广州)
一 问题的提出
回归分析是《计量经济学》《统计学》《社会调查(研究)方法》《医学统计学》等课程的核心内容,它在自然科学、经济学、管理学等领域的定量分析中有着广泛的应用[1]。同时,经济学、管理学、法学、理学、工学、医学等多个学科门类的课程也应用到回归分析。例如,国内权威的城市规划教材,同济大学吴志强主编的《城市规划原理(第四版)》专门介绍了回归分析,用于预测规划期末城市人口规模,作为规划城市建设用地的依据。在社会科学领域中,经济学、管理学、社会学和心理学都是基于数据的学科,回归分析无疑是最重要的分析工具之一。在循证医学(Evidence-Based Medicine)方面,作为国际公认的肿瘤治疗规范标准NCCN 指南(National Comprehensive Cancer Network,美国国立综合癌症网络)参考了很多基于随机对照试验和回归分析的文献。读懂医学领域四大顶刊:新英格兰医学杂志(NEJM)、美国医学会杂志(JAMA)、柳叶刀(Lancet)、英国医学期刊(BMJ)也需要必要的回归分析方法,由此可见回归分析在教学和研究中的重要性。
就回归分析的教学而言,最好采用计量经济学的教学体系。计量经济学是数学、统计学和经济学三者结合[2]的一门文理渗透的方法论课程,也被一些数学出身的学者称为经济计量学。如果采用合适的教学手段,本科的计量经济学教学可以使学生读懂《美国社会学评论》等权威期刊多数论文的回归分析部分,而社会学普遍使用的教材艾尔巴比的《社会研究方法》则无法实现这一目的[3]。 鉴于此,本文从回归分析教学中存在的实际问题出发,进一步提出相应的对策,为回归分析的教学实践提供参考。
二 回归分析在教学中存在的主要问题
(一) 教学体系滞后
现有回归分析教学和经验研究存在较大的距离[4]。比如,在社会科学和医学的经验研究中,因果关系的识别处于核心地位,但传统的回归分析教学并没有将因果推断作为核心,对于鲁宾因果模型和各种识别方法关注较少,基本没有涉及倍差法、断点回归等现代专题。现有教学内容花费了很多篇幅介绍异方差、自相关的检验与修正,却没有介绍大样本条件下普遍采用的异方差、聚类稳健标准误,不利于学生掌握实用的统计方法。实际上,现代经济学中的因果推断方法对于学生理解经济学、社会学、教育心理学、管理学和医学等方面的教材和论文有很大帮助。比如,格里格和津巴多主编的本科层次普通心理学经典教科书《心理学与生活(第19 版)》第3 章的案例就基于双重差分方法探讨了后叶催产激素与信任的关系。
(二) 教学过程中忽视了基于真实数据建模能力的培养
在本科教学阶段,学生花费了大量时间进行给定假设条件下的数学证明,但对于假设的含义及其与因果识别的关系缺乏直观的理解。财经类专业的本科生学习了统计学和计量经济学课程,虽然掌握了一定的矩阵推导技巧,却不能够基于理论的指导建立合适的回归模型,缺乏实际应用能力。
(三) 案例选择局限于传统经济学视角,缺乏趣味性
国内教材选择的一些案例大多基于宏观或自编数据,缺少生动有趣的案例,难以把机制说清楚,不利于激发学生的学习兴趣。国外较为流行的《基本无害的计量经济学》在探讨选择性偏误时选择的案例是否曾因病在医院过夜与自评健康水平的关系,虽然不是狭义的经济学问题,但非常直观,有助于培养社会科学直觉,加深对问题的理解。
三 回归分析教学的改革措施
财经类专业本科层次的回归分析课程应在正确理解现代统计学和经济计量学分析框架和方法的前提下,合理设计教学体系和教学内容,基于大城市的生产率优势、婚前同居与离婚率、大气污染与预期寿命等典型案例,尽可能避免(或缓解)由内生性问题所产生的估计偏误,结合Stata 等统计软件的使用,系统介绍和探讨社会科学研究方法,展现社会科学的定量研究逻辑体系,引导学生以科学思维思考社会问题。具体来说,应该在以下几个方面有所突破:
(一) 精选教材,丰富教学内容
在教材方面,最好结合中国的实际情况,选择经典教材。通过教学实践,斯托克和沃森、伍德里奇以及安格里斯特的经典教材被国内外高校普遍采用。哥伦比亚大学经济系本科生的计量经济学教材选择的是斯托克(Stock)和沃森(Watson)的Introduction to Econometrics,该教材结构较为完整,国内已有汉语翻译版,是合适的选择。同时,2021 年诺贝尔经济学奖获得者安格里斯特(Angrist)的《精通计量:从原因到结果的探寻之旅》体系新颖,但不够全面,该教材将因果推断作为本科计量经济学教学的核心重新构建了本科计量经济学的教学体系,可以与其他经典教材互为补充。在国内教材方面,叶阿忠的《计量经济学》(中国人民大学出版社,2021 年出版)由于是初版,有一些小错误,但结构相对新颖,也有较为丰富的案例。在课外读物方面,邱嘉平的《因果推断实用计量方法》缩短了计量经济学理论学习与经验研究的距离,为学生毕业论文的撰写提供了有益的指导;李井奎著的《大侦探经济学》则提供了丰富有趣的教学案例。
就回归分析的教学内容而言,应在第一节课就介绍随机对照试验和因果推断,并贯穿教学过程始终。教学应以实验和准实验作为基准,将与因果效应密切相关的内生性问题的处理作为教学的核心。课程内容侧重于对微观尺度的信息建模,利用现代统计和计量方法识别变量之间的因果关系。为了保证统计推断的有效性,课程应考虑引入异方差稳健标准误和聚类稳健标准误,删减异方差检验等相关内容,即不再将异方差作为一种需要解决的问题,而是在模型设定时就允许异方差存在,并采用异方差稳健标准误。
课程体系可以依次包括以下内容:(1)随机实验;(2)多元线性回归模型;(3)多元回归专题(介绍对数模型、交互项模型等本质线性回归模型);(4)实践中的工具变量;(5)断点回归设计;(6)面板数据、固定效应和双重差分方法;(7)非标准的标准误问题;(8)数据来源与预处理;(9)Stata 或R 软件操作与案例。与传统教学内容不同,课程将工具变量、断点回归和双重差分等现代计量方法纳入教学体系。
在回归模型的应用中,无论是总体回归模型的设定、内生性处理还是结果的解释都需要经济学、政治学、社会学和管理学等相关理论的指导。专业学术论文不仅需要干净的识别,还要阐述内在影响机制,这些都需要理论的指导。因而在进行课堂教学时需要对涉及的理论进行适度的回顾和讨论。在课堂教学中,还应该结合学术论文引导学生掌握回归分析结果的呈现方式,能够根据表格信息对影响程度和显著性水平进行解读。对于跨学科问题,回归分析的教学不仅仅需要统计学和经济计量学的支撑,而且需要经济学、政治学、社会学、心理学、管理学、人文地理学等学科基础的支持,因而需要教师根据学生所在专业进行自主学习,拓宽知识面。
(二) 理论与应用相结合,注重统计思想的讲授
教学过程应该注重理论与应用相结合,全面系统地对回归分析的理论和方法进行介绍,不仅涵盖多元回归分析等基本的回归方法,而且也应将面板数据回归方法纳入教学体系。在授课过程中应重点讨论经验研究中面临的内部有效应和外部有效问题,如遗漏变量、双向因果关系、函数形式误设、变量测量误差、选择偏误等。由于本科生数学基础参差不齐,因此在回归分析教学过程中除了必要的数学推导,还应对统计思想进行直观的讲授[5]。
回归分析是应用性课程,为了引导学生基于社会经济现象构建合适的回归模型,需要学生熟练使用统计软件[6]。目前,国内高校普遍采用的Eviews 软件更擅长时间序列模型,扩展性不足。哥伦比亚大学经济系、中大岭南学院等国内外知名院系普遍采用Stata 或R。考虑到Stata 功能全面[7],在社会科学和医学领域普遍应用,较R 更容易掌握,笔者推荐采用Stata 进行实验教学。为了弥补Stata 在大数据处理和数据抓取方面的不足,网络爬虫部分内容可以采用Python 进行教学,为学生未来的深造和就业打下更坚实基础。
(三) 加强案例教学,选用真实数据
近年来,回归分析方法在政治学、社会学等其他社会科学和医学领域得到了广泛的应用。因而在教学过程中,案例可以不完全来源于狭义的经济学。比如在因果推断方面,可以举一些有趣的现实案例:婚前同居与离婚率;离婚与子女发展;父母入狱与子女发展;读书与赚钱;学区房溢价;就业的性别歧视等等。通过以上案例的分析增强学生对内生性问题的理解,取得更好的教学效果。
教学案例的选择最好来源于重要的学术刊物或领域杰出学者的工作论文,并根据学生所在学校和专业进行适当取舍。例如,对于地理科学学院的学生,断点回归部分的案例可以采用2020 年克拉克奖获得者哈佛大学经济系Dell教授基于地理断点回归(spatial regression discontinuity)的系列研究,如非法交易网络与墨西哥毒品战争[8]等。自然地理与资源环境、人文地理与城乡规划、地理信息科学等专业的学生先期学习过地理信息系统理论和软件等相关课程,熟悉Arcgis 空间分析功能,能够从专业的角度更好地理解回归方法。
对于二本财经院校的财经类专业学生,断点回归的案例可以选择贾瑞雪和李宏彬的工作论文“The Value of Elite Education in China”,该文章利用了高考一本线提供的自然实验,发现一流大学教育可以使工资提升30%-40%。二本财经院校财经类专业学生高考时的分数线有些达到了一本线,但是最终进入二本院校,对与自身经历息息相关的研究主题感兴趣。从高考录取分数线切入讲授断点回归,更加清晰易懂,又能够兼顾对工具变量排他性约束的讨论,能够获得较好的教学效果。对于非洲留学生的教学,Nunn 关于非洲奴隶贸易的长期影响的系列文章以及Acemoglu 关于《发展差异的殖民地起源》的经典文献都是较好的选择。笔者在教学的过程中发现所在学校非洲留学生学习意愿普遍不足,汉语水平无法满足学习需要,但英文水平较佳,采用非洲主题的经典英文文献能够便于学生理解教学内容,取得较好的教学效果。对于社会学和社会心理学专业的学生,文章可以取材于较新的社会学权威刊物,如《American Sociological Review》以及《社会学研究》。二本院校社会学相关专业本科生对于以费孝通为代表的人类学民族学研究范式较为熟悉,但统计训练普遍不足。一个学期的回归分析课程应该可以使本科生较好地理解多数采用回归分析方法的社会学学术论文。
倍差法的案例选择可以来自“双重差分小公主”钱楠筠(Nancy Qian)关于消失的女性与茶叶价格等相关研究,能够兼顾严谨性和趣味性,并加深学生对发展中国家男女性别失衡问题的理解。另外一些研究,如发表在《经济研究》上的《香烟、美酒和收入》采用微观入户调查数据发现饮酒对收入具有显著的提升作用,使个体收入提升7%,且饮酒对女性收入的影响大于男性。而吸烟对收入的影响较小,且在统计上不显著[9]。该研究采用家庭成员吸烟和饮酒比例作为工具变量,可能无法满足工具变量的外生性假设,从而无法干净地识别吸烟、饮酒对收入的因果效应,在严谨性方面有不足之处,但其研究主题具有重要的现实意义和一定的趣味性,也可以作为案例来源,需在授课过程中适当讨论工具变量的识别假设是否得到满足,如果不满足将对估计结果产生怎样的影响等问题。
在数据选择方面,应根据学生所学专业进行筛选。比如,对会计学和金融学专业的学生,应多采用工业企业数据库、上市公司等企业数据,关注公司金融等领域的研究主题,对人力资源、劳动和社会保障专业的学生,应多采用中国家庭追踪调查(CFPS)、中国劳动力动态调查(CLDS)等微观调查数据,对经济学专业的学生,应多采用统计和普查数据,对数学和计算机专业的学生,应引导学生多通过网络爬虫方法获取数据。
就非社会科学专业的学生而言,可以加强回归预测方面的教学,应该尽可能获取来自真实产业环境的数据[10],如二手房挂牌价格、五星级酒店挂牌价格、电影票房数据等,在回归分析的教学过程中适当融入机器学习方法。在教学内容和案例的选择方面,不应将视角局限于传统的经济学领域,而应适当补充一点有趣的医学、心理学、政治学、社会学和管理学高质量期刊的案例以及真实的商业数据,加深学生对于回归分析基本方法的理解,提高学生的学习兴趣和社会科学的分析能力,拓展学生的就业渠道。