大数据视野下的语言研究新观
2015-12-28李华勇
李华勇
(四川文理学院外国语学院,四川达州635000)
一、大数据
人类正在进入“大数据”时代。大数据将对人文社会科学的各学科门类产生巨大甚至是本质上的变化[1]V。Cukier和Schoenberge于2013年指出互联网革命性地改变了商业运作模式、政府管理方法和人的生活方式,信息急剧增长足以引起新的变革[2]。国外媒体将2013年称为“大数据元年”。研究者从不同的角度给出了不同的定义:大数据(big data)指所涉及数据的规模巨大到无法通过目前主流软件工具在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯[3],这是从数据的量的角度给出的定义;大数据指采用所有数据的方法[1],这是从研究时获取数据方法视角给出的定义;从数据规模、数据流转和动态的数据体系、数据多样性、数据的价值四个特征来定义大数据;大数据指迅速获取信息的能力[4],这是从数据的功能视角给出的定义。我们认为大数据是一种思维方式和重要的资源库,它将改变我们认识世界的方式,是获取新知识和新发明的源泉。大数据这种新思维方式将从根本上改变我们对人文社会科学相关学科的观念,实现相关学科研究的发展、深化和创新。
二、语言学研究与大数据思维
大数据将对语言学研究产生重要影响,促进其量化研究的深入发展。大数据突破了自然科学和社会科学研究的界限,实现了数据的可通约性,通过数据沟通了不同学科的资源,促进了学科交叉融合[5]。发源于上世纪60年代的语料库语言学,以经验主义和科学理性主义为哲学基础,以自下而上(bottom-up)的归纳法为方法论[6];从一开始就是建立在真实语言数据观察的基础上,以大量的日常使用语言为依据,以概率为特征,以统计量化为手段,对语言进行实证量化研究;基于真实语言使用数据的语料库语言学研究使该学科带上了科学的基因;语料库越来越大,类型越来越多样化,标注越来越详细,检索统计越来越智能化。这些变化将会对语言学研究产生重要影响:拓展了语言学研究的视野和应用服务领域。人们日常生活产生的海量数据具有丰富的语言信息,同时还可能避免研究者的认知偏见、语言感知误差[5],对语言现象或语言事实的分析更加量化、客观和科学,更重要的是能够借用语言大数据预测语言现象或事实发展的趋势,甚至通过相关语言数据信息的统计分析和建立相关数学模型,为相关公共服务领域迅速便捷地提供特别有价值的信息。例如,2009年H1N1流感爆发时,Google公司基于美国人检索与流感相关的词条和2003—2008年美国疾控中心的流感数据进行比较,聚焦于与流感相关的特定词条被检索的频率与流感在时间和空间上传播的关系,据此建立数学模型,成功地比美国疾控中心早1~2周预测到H1N1流感爆发的时间、地点、传播源等非常有价值的信息[1,3]。这是一个融合了语言学、大数据、数学和计算机等学科,提前成功预测H1N1流感爆发并服务于公共领域的典型例子。
在大数据及其思维视野下,作为人文社会科学之一的语言学研究应顺应科技和时代的发展,在更大范围使用各种类型的、共时和历时的语言大数据来进行相关实证研究,在更大范围和层面上研究语言事实之间的相关关系。几万词、几百万词、几千万词甚至于几亿词的语言数据按照大数据的理念在目前或未来形势下都不能很好地满足语言学研究的目的和要求。语言数据的获取越来越容易,相对来说建设服务于语言研究的更大规模的语料库也越来越容易。比如:美国Mark Davies教授2013年建立的GloWbE语料库规模达19亿词,“Google Books:British English”语言数据高达340亿词,“Google Books:American English”语言数据高达1 500亿词。大数据在进行语言研究时有其独特优势:其一是能够更加详细地展示语言事实或现象的演化过程,其二是能在更大范围内发现语言变化的规律和趋势,其三是能够在更大范围和更大程度上发现语言事实的相关性。尤其是第三点更加重要,因为大数据的一个核心理念是由追寻因果关系转变到追寻相关关系,相关关系比因果关系更为重要、更有价值——建立在相关关系分析基础之上的预测是大数据的核心[1]75。显然,现代语言学研究不仅要追寻语言事实之间的因果关系,更应该在语言大数据中追寻语言事实或现象之间的相关关系,在对语言事实相关分析的基础上对语言发展进行预测,进而服务语言教学和其它需要语言支持的公共领域。过去的语言学研究是在探寻语言事实背后的“为什么”,而语言事实丰富多彩、变化多端和纷繁复杂,我们探寻到的“为什么”往往只能在一定范围、一定时期解释和说明小部分语言事实,以至于我们陷入建立了成百上千种语言学理论和模型也无法走出把所有语言事实解释清楚的困境。造成这一局面的原因一方面是我们没有在更大范围内弄清楚相关语言事实是什么,另一方面是我们的各种语言理论和模型各自为阵,没有在更大范围和空间上考虑用语言事实相关关系来对语言事实进行解释。大数据思维方式要求通过探求“是什么”而不是“为什么”来帮助我们更好地了解这个世界[1]83。相应地,在大数据的今天,语言学研究得转变研究路径,才能够摆脱语言研究的上述困境,转变到寻找语言事实的“是什么”而不是研究“为什么”,在语言事实相关关系的指引下,更好地去了解和认识语言研究路径:语言事实相关关系分析很有用,它不但为我们认知语言提供新的视角,而且提供的视角非常清晰。一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉[1]87。这样做并不是说研究语言时因果关系不重要,通常情况下,一旦完成了对语言事实的相关关系分析后,又不满足于知道“是什么”时,可以继续探究更深层次的因果关系,追寻语言事实背后的“为什么”。
可见,新形势下的语言研究不能再像以前那样以追求“为什么”为终极目标,而是在基于语言事实大数据基础上研究语言事实“是什么”,在清晰综合考量各种相关关系之后,再考虑是否需要继续研究因果关系。
三、大数据对语言研究的独特价值
(一)大数据深化语言历时研究
与小数据相比,大数据对语言研究具有独特的优势,它能让研究者在更大范围内观察到语言现象或事实的相关程度和演化的具体历时过程,特别是低频的、新近出现的语言现象。比如利用数据量为1 500亿词的美语“谷哥图书”大数据,借用COCA①的检索界面来研究美语中“get被动式”的使用频率历时变化趋势,由于使用的数据量高达1 500亿词,相比以前研究所用的几万词、几百万或几亿来说,这些海量数据有助于更加精确地重现“get被动式”的使用变化趋势。在美语“谷哥图书”中,get被动式的使用频率在1810s年为7.13/MIL②,经过近200年的历时发展和演化,到2000s年,其使用频率上升到23.92,是1810年的3倍多。不但反映出get被动式的使用频率近200年总体趋势是上升的,还反映出它在中途某些时间段是有波动的(下降之后再上升)——由 1950s的 14.64下降到1960s的13.99,之后在1970s又升至14.6。如果某些研究人员收集的数据是集中在1950s—1960s这一时间段,据此研究会得出get被动式的使用频率是呈下降趋势的结论;这一结论在1950s—1960s这个特定时间段是正确的,如果据此预测其在1970s之后的使用频率仍然是下降的就错了。可见,要在更大范围和更长时间段去预测相关语言现象的发展趋势,需要大数据才能做到。
Davies认为小语料库提供的低频和中频词或结构的型符(token)数量过小,不能很好地比较和观察英式与美式英语两种变体的差异[7]。同理,过小的数据不能展现低频词或结构的使用特征与演化趋势,要详细研究低频词或结构的使用情况需要大数据支持。如果用布朗家族语料库(the Brown Family of Corpus:Brown,Frown,LOB,FLOB)去检索低频率动词vacuum,返回的结果是0个型符,说明不能利用库容极小的布朗家族语料库对vacuum进行任何有意义的研究。但是如果在库容超过4.5亿词的COCA语料库中检索,就能返回到882个型符,可以根据相应的研究目标和目的对动词vacuum的详细使用情况与特征进行描述。可见大数据对低频率词或结构的研究具有独特的优势,甚至可以说,对小库容检索不到的低频词或结构的研究只有在大数据中才可以完成。
(二)对语言的描述客观化和精细化
过去由于大量客观可以自动检索的语言数据比较匮乏,我们对词汇或语言结构进行研究时,绝大多数时候都基于语言研究者的语言直觉进行少量举例或引用经典作品的例句,然后进行理论思辨和演绎。在语言大数据日益丰富的今天,几乎所有的语言研究都可以借助各种客观的语言大数据进行。比如,在进行同义词词典编撰时,可以借助语料库大数据呈现的词语相关性的强弱信息来取舍词语和对所选词语进行排序,这类基于真实语言大数据的同义词词典比通过语言直觉编撰的同类词典更加真实可靠,也更能满足语言学习者的实际需求。
(三)弥补语言理论的缺陷
过去语言学研究在很大程度上受亚氏经典范畴理论的影响。例如建立在经典范畴理论上的规定语法、词汇学和语义学认为语言范畴的特征是二分的,边界是清晰的,范畴内成员地位是相同的。经历了维特根斯坦的“家族相似性”理论发展起来的原型范畴理论则认为:范畴是由典型特征构建起来的;范畴成员地位不平等,有典型和非典型之分;范畴成员之间由于相似性构成连续统一;范畴边界是模糊的[8]。原型范畴理论更符合日常生活中的语言使用与语言认知实际。规定性语法明确提出应该怎么用,不应该怎么用,具有很强的规定性,正确与错误是二元对立的。但是语言往往是动态发展的,同时语言还具有模糊性特征,因此语法上正确与错误的界限不明确。现在通过语言大数据检索,就会发现语言现象的模糊性与连续性特点。我们在学习英语语法时曾被相关语法书明确告知:to who是不正确的表达,to whom才是正确的,因为介词to后要接宾格。这种规定式的二元区分to who和to whom与它们的真实用法不相符。我们很容易从4.5亿词的COCA中检索到to who这一规定被语法学家视为不正确和不规范的表达使用情况(见表1)。从表1可见,to who表达在非正式的口语、小说文体中有使用,其频率分别为6.47、2.17;在比较正式的杂志、报纸和很正式的学术文体中也有使用,相应的频率为 2.03、2.33和1.80。尽管 to whom 这一表达在英语使用中更为常见:在COCA中检索发现它在口语和小说文体中的使用频率为5.01、9.89;在杂志、报纸和正式的学术文体中的使用频率分别为 7.42、5.29、11.62。从这些数据可见,to who与to whom的用法不存在绝对正确与错误之分,只有在不同文体中常用与不常用之分,同时这种常用与不常用的界限也是模糊的。因此,这类语言现象的认识只有基于大量的客观语言使用数据才能够得到,不能仅凭语言研究者的语言直觉获取。规定语法等理论的二元区分尽管对学术研究和语言教学带来极大的方便,但是也有阻碍对语言真实用法研究和认知的缺陷,需要根据大数据提供的证据来进行修正。
表1 to who与to whom在COCA中的使用分布情况
(四)监视语言发展
语言是处在动态发展和变化之中而非静止的,一些语言现象和结构随着时间的推移,它们或消失或变异,同时新的语言结构不断出现。在计算机和大规模记录存储与检索技术出现之前,没法或者很难观察和大规模重现语言现象或结构的动态发展过程。现在利用大数据可以很容易监视语言的发展,以海量客观的数据深化了对语言动态性的本质属性的认识。牛津大学出版社每年都会根据语言大数据汇总发布本年度收录的新词语;国家语言资源监测与研究中心在12亿字词语言大数据基础上,公布2013年的新词语364条就是大数据用于监视语言最新发展趋势的一个例子。
四、大数据下的语言研究新观
(一)重视概率
正如桂诗春先生指出的那样:数据的基本特征是频数(frequency),表现为概率关系,这就促使以概率为基础的语言研究的蓬勃发展[9]。Jurafsky指出语言的概率性对语言理解、产生,对意义提取、分解和生成产生作用;概率对建立语言变化和差异模型具有重要作用[10]。计算机和网络技术的发展使运用语言数据获取的途经多样化、数据检索和计算便捷化、数据库容巨型化,建立在语言数据概率性基础及概率特征之上的语言学、计算语言学、语料库语言学、心理语言学获得前所未有的发展机遇。随着语言数据的不断充实和数据处理的自动化程度不断提高,应把这些以概率为基础的研究方向推向新的高度,以大数据重塑尊重语言事实的研究理念。
(二)强化历时研究
语言的历时研究对探究语言及其结构的演变趋势和机制有着重要的价值;语言的历时研究对各个阶段语料的分布、数量及其分析处理手段有着特定的要求。以前由于语言历时数据受限,要想在历时研究方向实现重大突破和取得比较客观的结果几乎不可能。随着大数据的发展,海量语言历时数据获取、存储和检索变得简便易行,以语言历时大数据为基础的历时研究在追溯语言结构、词汇、形态、语音及语言文化的详尽演变爆发出新的活力,为语言历时研究提供了坚实的语料基础,是语言历时研究创新的源泉。李华勇借用COHA论述了其对美语词汇、形态、句法、语义到文化的历时研究中的作用,就是一个较好的例子[11]。
(三)坚持三个新取向
受大数据思维的影响,语言研究取向有三个新转变。正如舍恩伯格和库克耶指出:“大数据代表着我们分析信息的三个转变,这些转变将改变我们理解和组建社会的方法。”[1]17转变之一是语言研究由依据随机取样或例子列举转变到尽量分析更多的语言数据,甚至是处理某个特定语言现象的所有数据。全样本的语言数据有利于深入认识、分析和解释语言现象。转变之二是语言研究不再追求小范围的精确性。语言是纷繁复杂和变化多端的,面对语言大数据,小范围的精确会被大量的“例外”推翻,因此不再过度追求微观层面上的精确性会让我们在语言宏观层面拥有更好的洞察力。转变之三是语言研究由热衷于寻找因果关系和构建各种语言解释模型转变到研究语言事实的相关关系上。探索语言事实背后的因果关系是语言研究长久以来的模式。即使确定因果关系的难度很大,或者根本不可能或者即使确定出来了作用也有限时,我们还是习惯性地在寻找。在大数据思维的影响下,我们应该努力追寻语言事实之间的相关关系,它将给我们的研究带来非常新颖的观点和有意义的发现。尽管语言相关关系不能准确地解释某一语言现象发生的原因,但是会提醒我们这一语言现象和哪些语言现象或因素有关,或许这样的提醒对我们理解和认识这一语言现象已经足够了。
总之,语言研究的这三个新转变是适应大数据对语言研究带来巨大变革趋势的必然选择,有助于语言研究深入发展和创新。
五、结语
大数据及其思维方式将对人类产生革命性的影响,促进人文社会科学研究进一步量化和客观化。在大数据视野下,语言学研究将在更大范围和规模上使用语言大数据进行实证研究,由过去寻找语言事实背后的因果关系转向追寻语言事实之间的相关关系。大数据对语言研究具有独特的价值:能够大范围观察语言事实的相关程度和演化过程,促使语言研究更加数据化和精细化,可以解决实证语言学相关理论的缺陷。大数据背景下的语言研究更加强调以概率为基础,更加注重历时研究,积极谋求语言研究三个新取向的转向。
注释:
①美国语料库语言学家Mark Davies创建,http://corpus.byu.edu/coca/。
②这里的单位/MIL意为每一百万词出现的次数,即每一万百词中,get被动式出现的次数为7.13。7.13是后台统计的具体数据。后面相应的数字单位/MIL省略了。
[1]维克托·迈尔·舍恩伯格,肯尼恩·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[2]Cukier K N,Schoenberge V M.The rise of big data[J].Foreign affairs,1992(3):2013.
[3]Manyika M,Chuim,Brown B,et al.Big Data:The Next Frontier for Innovation,Competition,and Productivity[R].McKinsey & Company,2011:5.
[4]越国栋,易欢欢,糜万军,等.大数据时代的历史机遇:产业变革与数据科学[M].北京:清华大学出版社,2013:20-25.
[5]刘红.大数据:第二次数据革命[N].中国社会科学报,2014-01-21(B1).
[6]李华勇.论语料库语言学的学科地位[J].重庆理工大学学报(社会科学版),2014(7):119-124.
[7]Davies M.Powerful(yet simple)comparisons of a wide range of phenomena in British and American English[J].ICAME Journal,2014(38):39.
[8]Taylor J R.Linguistic Categorization[M].3rd ed.Oxford:OUP,2003:41-58.
[9]桂诗春.以概率为基础的语言研究[J].外语教学与研究,2004(1):4.
[10]Jurafsky D.Probabilistic modeling in psycholinguistics:Linguistic comprehension and production[C]//Bob R,et al.Probabilistic Linguistics.MIT Press,2003:4-39.
[11]李华勇.拓展历史认知语言学研究新视野的工具——美语历史语料库(COHA)的应用[J].重庆工商大学(社会科学版),2013,30(6):115-124.