国内语料库语言学研究综述
2018-04-01杨雨欣电子科技大学外国语学院四川成都610000
杨雨欣(电子科技大学外国语学院,四川成都 610000)
1.国内语料库的发展和建设
大规模的英语语料库建设起源于上世纪60年代,1959年,Quirk 等人开始建立的“英语用法调查”(Survey of English Usage),其建设收集了大量风格题材各异的英语口语及书面语语料,被称为现代语料库语言学研究的鼻祖。1961年,世界上公认的第一个电子英语语料库布朗语料库(Brown Corpus)问世。发展到今天,英语语料库的规模仍是其他语种语料库所不及,到后来网络语料库(Web as Corpus)技术的普及使得语料库的规模更是以几何倍数增长,亿词级语料库已屡见不鲜。
相比西方国家,国内的语料库语言学虽开始相对较晚,但国内语言学界研究语料库者已不再少数,对相关理论及技术的掌握也不落后于西方国家,从萌芽到现在的蓬勃发展仅30多年。
1982年,上海交通大学的黄人杰、杨惠中主持编制的科技英语语料库JDEST(Jiao Tong University Corpus for EST),共计100 万词,由2000 篇(每篇至少5 百字)科技英文文本组成;1987年,中国石油大学建成的广州石油英语语料库GPEC(Guangzhou Petroleum English Corpus),约41 万词,由石油专业英语英语文本组成;1999年,广东外语外贸大学桂诗春教授和上海交通大学杨惠中教授主持建设的中国英语学习者语料库CLEC(Chinese Learner English Corpus),库容为100 万词,语料来源于全国专业英语、大学英语以及中学英语学习者的书面语资料;而后国内相继成功建成的语料库源源不断,为国内语料库的发展及语言学研究,外语教育等都做出了自己的杰出的贡献。有代表性的还包括国家语委现代汉语语料库,香港科技大学学习者语料库(HKUST Learner Corpus),南京大学建立的中国英语学习者口语语料库(SECCL),北外建立的平行语料库,汉英平行语料库(PCCE)等等。
得益于政府与学术机构对语料库语言学的支持,语料库的建设和更新速度迅猛,除去由国家社科资金资助的项目,还有来自各大高校、机构及学者所自建的语料库,其库容各异,但类型基于功能可基本分为通用语料库、专用语料库、平行语料库、可比语料库、学习者语料库(段海鹏,2011)。
2.国内语料库语言学研究的特点
我国的语料库研究主要集中在以下3 个方面:汉语语料库与中文信息处理、学习者语料库与汉语中介语语料库、汉英双语平行语料库(肖忠华,2015)。
第一类中的汉语语料库建设遵循“扬我所长”原则,充分利用自身优势,不仅能给国内汉语研究者提供语言数据,还能促进汉语在国际上的交流。例如北京大学中国语言学研究中心CCL 语料库,建设有现代汉语语料库及古代汉语语料库,汉语总字符数783,463,175,其中现代汉语语料库总字符数为581,794,456,为汉语研究和教学提供了大规模语料库及方便快速的在线检索。
第二类包含上面已经提到的学习者语料库,由于国内重视英语语言的教育,学习者语料库主要来源于英语学习者语料,有英语专业和非英语专业的,也有不同初高中及大学阶段的,且多源自历年英语考试材料。目前国内所公认的三大学习者语料库为由桂诗春、杨惠中所编著的中国学习者英语语料库(CLEC)、由文秋芳、王立非、梁茂成编著的中国学生口笔语语料库(SWECCL-Spoken and Writing English Corpus of Chinese Learners)和由杨惠中、卫乃兴编著的中国学习者英语口语语料库(COLSEC-College Learners’Spoken English Corpus)。而汉语中介语语料库是指汉语为中介语的留学生作文和口语材料语料库,且这些留学生多来自亚洲及非洲国家。
第三类汉英双语平行语料库旨在推进汉语与英语之间的对比及翻译研究。汉语和英语是两门跨度较大的语言,两门语言的对比、及翻译研究不仅仅是语言学术研究的需要,更是我国英语教育事业,与英语相关的教育产业,如教育机构,网络英语学习软件、词典及应用的需要。
3.国内语料库语言学存在的问题
尽管我国的语料库建设得到了迅速的发展,其存在的问题也不容小觑。
首先,学科间沟通合作还不足(肖忠华,2015)。语料库的语料要发展全面,需来自各大学科的语料数据支持,且其建设更涉及语言学、计算机科学、概率统计学等多个学科,这便需要各学科专业人才都能有致力于语料库研究建设的目标,充分交流,相互合作学习,成立庞大的专业语料库建设队伍。因此当下国内要达到这样的目标,还需要一个较长的建设周期。让语言学家去选择更有代表性的语料,让计算机专家去开发更先进的语料加工、处理软件,双方相互学习取长补短,才能共同建设出更大更好的语料库。国外兰卡斯特大学的UCREL 和CASS 语料库研究中心就是这一方面的成功典例。
其次,国内语料库建设不够有序不足(肖忠华,2015)。国内的语料库建设基本来源于高校,只有部分建设项目能得到国家或其他公司机构的资助。较大型的语料库屈指可数,如北京大学中国语言研究中心CCL 语料库,北京语言大学BCC 语料库,以及北京外国语大学的BFSU CQPweb 等,除此外还有不少语料库是根据各高校的专业特色及需求建立起来的,其库容不算太大,但也不算太小,大部分属于自建自用,缺乏共享性,且其中绝大数多建而不研,大大的降低了语料库的使用率,严重增加了建设成本,其中,重复性建设更是不计其数。
最后,不得不提到的还有国内语料库建设的一些技术性问题,尤其是自动标注问题和双语语料库中的对齐问题,计算机技术在这方面责无旁贷。由于词性标注是大规模语料库自动分析的重要基础,也是句法剖析和语义标注的前提,同时还与短语提取有着不可分割的关系(梁茂成,2015),如何提高词性自动标注的准确率依旧是学术界关注的重要问题。以及尽管在双语语料库中已经研发出一些自动对齐工具,其自动对齐的效果仍有很大的改进空间。
4.国内语料库语言学的发展趋势
首先,继续多方位的全面的研究我们的母语——汉语。汉语是我们自身的优势,研究汉语也是我们的使命所在。今后对汉语语料库的建设研究可能有以下几个方向:
1)建立汉语口语语料库,对比口笔语间区别。许多语言学家普遍接受口语要比书面语更能揭示语言的本质(杨江,2008),自国内语料库开始建设以来,口语语料库便受到了广泛的关注,即使其语料采集及语音转写技术要比普通的书面语麻烦的多。国内目前单独的汉语口语语料库还寥寥无几,基本都是研究英语学习者的口语语料库,如中国学生口笔语语料库(SWECCL),以及中国学习者英语口语语料库(COLSEC)等。
2)建立少数民族语料库。由于不少少数民族居住地的迁移,少数民族汉化、城镇化影响等等,少数民族语言面临着消失殆尽的问题,建立少数民族语料库起到了保护和保存少数民族文化的作用。
3)建立现代网络用语语料库。伴随着手机,电脑的更新换代,WIFI、4G 像空气一样渗透进人们的生活,随之而来的是强烈的网络文化打破以往人们生活的方式、观念,各种网络新词、热词以迅雷不及掩耳之势随时散布在各大新闻网站,随之进入到人们交流的各大场合,这些新、快的语料可能是以往所建立的语料库里没有的,但又是当下最受广大民众欢迎的,建立现代网络用语语料库分析其特点,可以帮助了解人们的喜好,有助于开发迎合用户的应用。
其次,建设专门用途英语(ESP—English for Specific Purposes)语料库(张济华,2009)。通过采集专门领域的英文文献,建立某个特定领域或学科的ESP 语料库,检索能获取各专业词汇,从其词频高低判断并制定各专业英语大纲词汇表,从而为不同专业英语词汇的教学提供重要依据。建设学术英语语料库有助于学术英语语言的研究,也为各高校学生、学者提供多样化的教学和自学资源。例如,在建的由中国外语教育研究中心语料库语言学团队主持创建的DEAP 学术英语语料库项目(Database of English for Academic Purposes),截止到目前已建成的临床医学字库MedAca共计500 万词次,“临床医学”下的18 个包括儿科学、妇产科学、急诊科学等在内的18 个二级学科,且其建成对医学英语词典的编纂以及医学学术论文的写作有极大的帮助。
最后,继续建设平行语料库和可比语料库在内的多语种语料库,促进中外语言对比和翻译研究(何常丽,2008)。平行语料库和可比语料库的本质区别在于前者有翻译关系,且文本需要对齐(梁茂成 & 许家金,2012)。汉语本身与西方各大语系差距较大,对比研究像汉语和英语这样的大跨度语言对语言学理论具有重要意义。诚然,语料库的手段无疑为翻译研究及对比语言开辟了广袤的新天地,近年来,相关学术研讨会相继召开,很大程度的推动了这个研究领域的发展,例如,“基于语料库的语言对比与翻译研究”学术研讨会(UCCTS—Using Corpora in Contrastive and Translation Studies),每两年一届,是目前语料库翻译研究专业化程度最高的国际学术研讨会,某种程度上代表了这个领域的最新发展(赵秋荣,肖忠华,2015)。同时,在开展语言翻译和对比研究时,借助其研究成果能极大的帮助提高现代的机器翻译可靠性和有效性。
5.结语
国内的语料库语言学研究发展势头迅猛,借助语料库来进行科学的大规模的真实语言数据分析,有助于取得更可靠的研究成果。弄清楚语料库可以做什么,根据研究者自身需求建立合适的语料库,采用科学的统计分析手段,才能紧跟大数据时代步伐。相比较国外语料库的建设,国内语料库的建设和发展依旧还有很长的路要走,积极改进技术性问题,尤其在预料的加工及分析方面,提高自动词性标注的准确率,研发更好的对齐工具。认清国内语料库的发展现状,加强学科间的合作交流,取长补短,朝着更好的发展发向迈进。