《如何用R开展语言学研究:数据探索和统计分析》述评*
2019-03-03燕山大学
燕山大学 刘 磊
1.引言
R是一款免费开源的编程语言,支持描述性和推断性统计及数据可视化,研究者可根据需求自行编写和运行脚本程序,具有较大的灵活性。R的统计和绘图模块由社区成员维护,数量众多,更新及时,其中不乏专门处理语言数据的模块,如koRpus和languageR等。鉴于上述优点,R在语言学的众多分支领域得到广泛应用(Baayen 2008;Glynn & Fischer 2010;Gries 2013,2017;Mizumoto & Plonsky 2015)。
《如何用R开展语言学研究:数据探索和统计分析》一书介绍了如何用R开展基于用法的语言学(usage-based linguistics)研究,可作为量化实证研究的语言学教材和参考手册,供语言学研究者使用。
2.内容简介
全书分为4个部分,共20章,全面总结了R在语言学研究中的应用。
第一部分(第1至2章)是后续章节的铺垫。第1章介绍统计学的基本概念,如零假设、备择假设、显著性水平和临界值等。作者介绍了定类、定序、定距和定比变量的区别,指出应根据变量类型选择合适的统计方法。第2章讲解R及其统计模块的安装,介绍了R的基本变量类型、运算符和函数。作者详述了导入外部数据(如Excel、CSV等)的方法,强调了R对商业软件的良好兼容性。
第二部分(第3至4章)介绍描述性统计。第3章讨论如何测量数值变量的集中和离散趋势。作者以语料库词频分布和齐夫定律为例,分析了偏态分布的特点,并使用R的对数函数演示了偏态和正态分布的相互转换。第4章探讨分类变量的描述性统计。作者首先介绍变量的3种可视化方法:饼状图、条形图和圆点图,然后以美国当代英语语料库(COCA)中的英语基本色彩词为例,说明如何用观察频率、预期频率和比例偏差(deviation of proportions)描述变量在不同语域的分布差异。
第三部分(第5至第14章)从案例入手,分析推论性统计在语料库语言学、心理语言学和认知语言学中的应用。第5章介绍如何检测两个样本均值是否存在显著性差异。作者指出,首先应使用分位图、直方图和带状图等可视化方法检测变量是否呈正态分布。如果不满足正态分布条件,应使用非参数秩和检验,而非独立样本t检验检测零假设是否成立。第6章探讨如何测量变量间的相关系数。本章以皮尔逊相关系数为例,指出相关性测试需满足3个条件,即变量呈正态分布、同方差性和残差无相互关联。当违背上述条件时,可使用斯皮尔曼和肯德尔系数测量相关性。最后,作者推荐使用相关图(correlogram)直观展示多变量间的相互关系。第7章从单变量线性回归出发,介绍最小二乘法求解变量参数的过程和模型拟合度的评测方法。作者以心理语言学的词汇判断任务为例,探讨了如何使用R构建多元回归模型,重点阐述了前向、后向和双向筛选法选取最佳变量组合的过程。作者建议,为避免小样本多变量造成的过拟合现象,可使用自助抽样法(bootstrap sampling)多次训练和检测模型,求得最佳参数值。第8章首先介绍独立样本单因素和多因素方差分析的4个条件:1)样本相互独立;2)因变量为定距或定比变量;3)样本呈正态分布;4)样本方差相同。当条件3)或4)不成立时,可使用基于自助抽样法的非参数检验进行方差分析。作者以心理语言学的启动实验为例,探讨了混合模型多因素方差分析。作者指出,混合模型同时测量变量的固定和随机效应,能够有效排除个体差异对实验结果的影响。第9章讨论分类变量相关性检验。作者使用列联表描述了口语和学术语篇中介词over的隐喻和非隐喻用法分布,然后用卡方和费舍尔精确检验分析频率分布是否存在显著差异。除显著性p值外,作者建议汇报Cramér's V和φ相关系数以评测变量间的关联强度。第10章以俄语双及物构式为例,讨论了词汇-构式搭配强度的计算方法。作者对比了费舍尔精确检验、对数似然比、互信息、Z检验和t检验等21种搭配强度算法后指出,当样本数据较小时,费舍尔精确检验的信度高于Z检验和t检验;而对数似然比受样本量影响较小。在汇报研究结果时,应按搭配强度、观察频数和预期频数排列与构式相互吸引或排斥的词素。第11章探讨如何用显著共现词素分析法研究构式搭配。作者分析了美国和英国英语中“quite+形容词”构式与形容词的搭配强度。结果发现在英国英语中,与quite共现的多为量度形容词(如happy、hard等);而美国英语多使用限制形容词(如certain、successful等),并呈现积极的语义韵。第12章介绍基于二元逻辑回归模型的多因素分析研究。本章以荷兰语致使类助动词(doen和laten)为因变量,探讨致使结构功能、致使动词及物性和使用者国别等因素如何影响助词的选择。使用R构建逻辑回归模型后,作者详述了模型中各参数的含义,如截距、参照类(reference level)、对数发生比(log odds ratio)和变量交互作用等。第13章以英语使令结构为例,讨论基于多元逻辑回归的多因素分析。作者考察了影响使令结构动词(allow、let、permit)选择的4个因素:主语生命度、动词语气、语域和使用年代。作者以let为参照类,建立了多个二元回归模型。结果发现,let的使用概率随时间推移逐步升高;allow和permit更倾向与无灵主语共现;语域对使令动词的影响并不显著。第14章介绍条件推理树和随机森林算法。条件推理树是一种分类算法,具体步骤如下:1)选择与因变量相关性最强的自变量;2)使用该变量将数据分裂为两个子集;3)采用递归方法,重复步骤1)和2)分裂各子集,直到无法找到与因变量显著相关的自变量为止。随机森林是包含多个推理树的分类器,最终的分类结果由各推理树输出类别的众数决定。作者指出,随机森林算法适用于小样本多变量并且变量高度相关的数据。
第四部分(第15至20章)讨论如何用探索性统计揭示多变量间的隐含关系。第15章使用行为概貌法(behavioural profile)研究近义词汇和构式。作者从BNC语料库选取450例包含9种致使结构的例句,提取与之共现的语法和语义特征及其频率,构建特征向量;然后用兰氏距离算法计算向量间的距离,使用层次聚类分析变量的语义关系,并通过平均轮廓宽度确定了最佳聚类数。第16章为基于向量空间模型的词汇语义研究。作者从COCA语料库中选取了10个烹饪类动词及其搭配词,构建中心词-搭配词共现矩阵,用余弦相似度算法构建中心词相似度矩阵,然后用聚类算法分析动词间的语义关系,并与人工编纂的语义知识库WordNet和心理语言学的词汇相似度实验相互验证。作者指出,行为概貌法多采用人工标注分析词汇和构式的共现语境,而向量空间模型一般使用“词袋”(bag of words)模型自动统计词汇共现信息,是一种更加激进的数据驱动的研究方法。第17章使用多维尺度变换进行多变量数据的可视化分析。本章首先讨论了经典多维尺度变换,使用欧式距离算法构建多个变量间的距离矩阵,然后将矩阵中的多维变量投射到二维或三维平面,以图形方式显示变量间的关系。作者指出,如果数据为定序或定类变量,可使用非度量型变换算法,采用高氏距离计算变量距离后再进行降维处理和可视化分析。第18章介绍多维度分析研究。该方法首先从语料中提取各类特征的标准化频数,然后使用因子分析和主成分分析等统计方法归并共现频率较高的语言特征,并据此分析各语域特有的话语功能。本章以BNC语料库中的5种语体为例,重点介绍如何用特征值(eigenvalue)和因子负载(factor loading)选择维度数量和语言特征,同时讨论了在二维平面展示各语体特征的可视化方法。第19章用对应分析法研究德语中两类词汇范畴Stuhl(chair)和Sessel(armchair)的特征和原型,重点探讨了如何用R的绘图功能显示多维分类变量间的相关性,发现各范畴中的典型特征和示例。第20章用动态图(motion chart)研究语言的历时变化。作者从美国近当代语料库(COHA)中提取构式“be going to+动词”和“will+动词”槽位中的动词频率,考察了1820—2000年间两个构式的演变过程。作者指出,动态图可反映构式的整体变化趋势,也能聚焦具体词汇的发展轨迹,帮助研究者发现新的研究问题。
3.简要评价
本书内容广泛,结构合理。全书介绍了十余种统计方法在语言学中的应用,各章衔接紧密,逻辑性强。作者开篇阐述了变量类型和统计方法之间的关系,为后续描述性和推断性统计的讨论奠定了基础。在描述性统计章节中,除介绍平均数、中位数、方差和标准差的基本概念外,重点讨论了如何用分位图(Q-Q plot)和箱线图(boxplot)检测变量是否呈正态分布。第三部分为本书重点,共10个章节,但在前两部分的铺垫之下,显得脉络清晰。作者在介绍各类推断性统计方法时,建议用可视化分析验证数据是否满足正态分布假设,若假设成立选择参数检验,否则选择基于自助抽样的非参数检验。同时,作者强调除显著性p值外,研究结果还应汇报效应量(effect size),考虑样本量大小对研究结果的影响。
本书内容新颖。第10-11章介绍了认知语言学中的构式搭配分析法,通过对构式槽位中的词素进行聚类,揭示构式的深层意义(Schmid & Küchenhoff 2013)。作者综合前人研究,用R实现了20余种构式搭配强度的计算方法,并公开了脚本程序,为后续相关研究提供了便利。第12-13章探索语言学中的多因素分析,使用二元和多元逻辑回归探讨影响近义词汇或构式选择的潜在因素(Gries 2015;房印杰 2016)。逻辑回归的自变量和应变量均为分类变量,适合挖掘语言特征间的交互作用。现有语言学统计教材以线性回归模型为主,鲜有逻辑回归的介绍,本书弥补了这一不足。第15-16章借鉴了自然语言处理领域的向量空间模型计算词汇语义相似度,该方法的理论基础是语言学家Harris(1954)提出的分布假设,即词汇的意义由其使用语境决定。近年来,基于词汇向量的研究大幅度提高了计算机语义理解的准确率(Turney & Pantel 2010),为语言学提供了新的研究视角。此外,本书第17-20章讨论了语言数据的可视化分析,可以帮助研究者发现多变量间的隐含关系,形成新的研究假设。
本书实践性强,通过具体案例讲解统计方法。这些案例涉及语言研究的各个层面,如频率效应、语体变异、构式语法和词汇语义研究等。作者以语言学理论指导,形成研究假设,然后收集数据,设计实验流程和可操作变量,最后用R进行统计检验,验证假设是否成立。读者可从配套网站(https://benjamins.com/sites/z.195/)下载本书案例使用的数据、R脚本和习题,自行考察是否掌握了各章内容。
需要注意的是,本书案例的数据规模较小,未涉及大规模语言数据的统计分析。计算机处理能力和网络技术的提高为研究者收集数据提供了便利,数据的规模日益增长。因此,如何加工和分析大规模语料是研究者需要解决的问题(梁茂成 2015)。事实上,近年来R社区也涌现出了一批面向大数据处理的模块,如text2vec(Selivanov 2017)。读者可以借助这些模块拓展本书提到的统计算法,探索更具普遍性的语言规律。