建设面向新时代的心理学数据分析入门课程体系
2019-05-24吕小康
吕小康
我目前的主要兴趣点在于入门阶段的心理统计教育与应用。在当下的心理学人才教育模式下,本科阶段的心理学数据分析类课程基本由三大类完成:一是基础的概率论与数理统计,二是专门的心理统计学,三是与心理统计学相匹配的計算机统计软件操作(主流是SPSS);在研究生阶段,随着学科分工的精细化,会有更多元的选择。实际操作中,部分本科院校没有设立概率论与数理统计课程,学生通常在心理统计学课程中完成对基础概率论知识和统计学知识的掌握,然后再开始学习相关的SPSS软件操作。基本上而言,本科阶段的数据分析课程可能就等价于心理统计学课程,而心理统计学的软件操作课程,在一开始又几乎等价于SPSS操作课程。我认为这一现状可能并不是最合理的,这对学习心理学的学生建立更为全面、灵活和面向新时代的数据分析思维并不是最有利的。以下是具体意见与建议。
首先,数据分析课程不能简单地归结为心理统计学课程。目前,关于“数据科学”(data science)与统计学是否是同一学科,可能还有争议。我个人的观点倾向于认为数据科学是更具包容性的学科概念与学科群,而传统统计学(主要由经典的描述性统计和推论性统计两部分构成)则是其中的一个子学科。其主要区别就在于传统统计学处理的“数据”类型与方式,已经很难包容当下自然科学和社会科学领域产生的各种非结构化、文本化、语音化、影像化的数据,这些数据往往需要借助于其他方法的先期处理的流程,才能最终进入到“统计学”处理的流程。就目前的发展来说,文本数据的获取和分析,已经是计算机领域相对成熟和非常热门的领域,也在心理学研究中有了诸多应用。但无论心理统计学还是概率论与数理统计,都无法将其很好地容纳进其知识体系中,因而需要新设立相关的课程加以补充,以便在一开始就拓宽学生对于“数据”的视野,给予其更丰富的选择与可能性。这不是要取代心理统计学,而是在坚持统计学教学的同时,增加“非统计学的”、更为计算机化的数据分析课程。
其次,心理学的入门数据分析课程教学不应当过分依赖SPSS之类的统计软件。在国内心理学界,SPSS软件目前仍处于“事实性垄断”的数据分析地位,这可能与这一软件较早得以引入国内学界有关。SPSS本身是一个优秀的商业软件,选择它作为分析软件本身是无可厚非的。问题在于两个方面。第一,国内目前的版权意识较差,许多机构和个人使用的并非是正版的SPSS软件,因其无力或无意支付相关费用。这种对于知识产权保护的漠视在过去可能有很多人认为是无伤大雅的,但随着版权意识的增强、尤其是最近类似“中兴事件”引发的声誉危机,实际上也间接给心理学研究者敲响警钟。作为知识的生产者和传播者,心理学研究者和教师应当首先做出表率,以身作则,系统性地退出盗版软件的使用过程。好在现在像R、Python之类的开源统计已经很多,稍加学习和适应,并不难完成使用习惯的转化。第二,SPSS主要用于处理数值数据,对于文本数据、影像数据的处理并非其长处,其数据可视化的功能也较弱,而这些正是新时代的研究者所要大量应对的实际数据与需求。相反,Python在大数据文本的获取、分词与加工方面有优势,R在可视化方面则是其强项,且其可选用的数据处理包更新速度快,可以做到优势互补。鉴于此,这里提出如下建议,供国内同行参考和批评。
第一,在本科阶段的课程设置中,以“心理学数据分析方法课程体系”整合原来的“心理统计学课程体系”,加强计算机数据分析技术与思维的培训。此课程体系的具体内容可包括计算机技术操作课程(不是作为各高校基础课程的C++之类课程,而是专门面向数据分析的计算机课程)、心理统计学课程和心理测量学课程。此部分的计算机类课程包括两种类型。一是讲解数据结构的计算机基础课程,可设立一定的操作细则,与高校目前通行的计算机基础课程建立学分转换关系。此类计算机课程与后两个课程之间未必是先后关系(如先上心理统计学、再上计算机操作课程),而可以是并行的。因为许多计算机操作技能的培训本质上与统计学无关,而更多地强调编程化思维和批量化处理的意识。可选定一些常见的通用语言作为备选的授课软件(如R或Python,按各学校师资力量自行选择)。二是适用于心理学专业的统计软件分析操作课程,这部分需要学生在掌握统计学和测量学知识后再行安排。建议统一采用开源软件作为授课软件,避免可能存在的版权纠纷隐患,同时减轻高校、研究者和学生的经济负担。
第二,强化文本数据分析和数据可视化技术在数据分析与培训过程中的地位。传统数据分析多以结构性的数值型数据为分析对象,虽然模型可能较为复杂,但实质上不能很好地处理现实世界产生的多维度、多类型数据。文本、尤其是文字文本作为人类心理与行为的重要表现形式,其分析模式与经典统计学存在较多差异性,有必要单独作为一个模块加以强调和训练。此外,传统数据分析过程存在“重数字轻图示”的做法,实际上图形在数据分析过程中占有独特的地位,不论是面对小数据还是大数据,在很多时候图形都可更为方便地呈现数字量度无法直观呈现的信息。同时,它也是诸多文本分析方法所不可或缺的一部分。此外,可视化技术本身也具有非常广阔的商业前景,对于拓展心理学学生的就业方向也可有所帮助。
第三,弱化“心理统计学”小学科提法、增强“大统计学”的提法,明确统计方法为心理学研究服务的工具化定位而非学科化定位,同时增加当下统计学及心理学研究中的部分常见内容。个人以为“心理统计学”不宜作为一个子学科而存在,因为实际上只适用于心理学的统计方法很少,尤其是在入门领域,所讲授的内容只不过是基础的入门统计学的内容。这些内容其实是“放之四海而皆准”的,没有必要强调心理学的独特性,反而更应强调方法本身的通用性,从而培养学生更为宽阔的统计学视野,为将来可能从事的多元化的研究方向或工作岗位奠定基础。同时,国内现行的入门心理统计学对基于随机化分布的抽样分布知识、对于功效与效应量估算的内容、对可重复的量化标准等方面的当代统计学和实证研究中经常遇到的内容还介绍甚少,有必要加以补充。为此,还有必要重新组织教学科研力量撰写入门的、面向心理学专业的统计学教材,但这并不一定要冠以“心理统计学”的名称,避免让人误解为是一门子学科。
当然,以上观点是否正确、在实际中应当如何操作,还需要进一步的讨论与厘清。这里不揣冒昧,斗胆献言,以便抛砖引玉,希望能够引发学界同行的认真思考与批判回应。