关于BCC和CCL通用语料库建设的对比研究
2020-09-10王姝蕾
摘要: CCL语料库和BCC语料库是现代应用较为广泛的两大通用现代汉语语料库,在语言研究、语言教学、计算语言学等领域发挥着重要作用。本文从语料库的建设和编纂、加工与管理两个角度对两者进行对比分析,以期为将来语料库的建设和发展提供参考。
关键词:BCC语料库;CCL语料库;对比
一、引言
本文选取了应用较为广泛的两大通用语料库——北京大学CCL语料库、北京语言大学BCC语料库作为研究对象,从语料库的建设与编纂、加工与管理和服务的角度对以上两个语料库进行对比分析,以期为将来语料库的建设和发展提供参考。
二、语料库对比
(一)语料库的建设与编纂
在语料库的类型方面,BCC和CCL语料库都是动态、平衡、通用、单模块语料库。不同的是BCC语料库除了提供汉语语料外还兼顾如英语、西班牙语、法语、德语、土耳其语等其他语言,是多语语料库。而CCL语料库是汉语的单语语料库。另外,BBC语料库兼备共时语料和历时语料,而CCL语料库是历时语料库。
对于语料库的建设资源方面,我们可以从语料的规模、语料的来源、语料的分布三个方面来探讨。首先,BCC语料库全库约有150亿字,其中现代汉语130亿字,古代汉语20亿字。CCL语料库全库约有7亿字符,现代汉语占2亿字符,古代汉语占5亿字符。由数据我们可以看出,BCC语料库的语料规模要远远大于CCL语料库,且前者以现代汉语语料为主,后者以古代汉语语料为主。其次,语料来源方面,CCL语料库的现代语料主要来源于口语、史传、应用文、报刊(《人民日报》等)、文学、电视电影、相声、网络语料、翻译作品或戏剧和文学,其中1949年之前的“现代”语料占全部现代汉语语料的1.28%,1949年之后的“当代”语料占现代汉语语料的98.72%。BCC语料库包括文学、报刊、微博、科技、古汉语、学生作文等多个领域。其中,新闻语料主要采自《厦门日报》、《厦门商报》、《厦门晚报》等;口语(微博)语料采自2013年新浪微博;科技语料采自国内学术期刊;文学语料采自国内外文学作品;综合语料包括以上四个领域。将两者的语料来源进行对比后,我们不难发现CCL的语料涉及的领域更广泛且分类较细致,来源正式,注重官方性,多史料;而BCC的语料则更多选取当下的语料,语料更具有“新鲜度”,有“微博”、“科技”等的分类,更加现代化。最后,从语料的分布来看(仅对比现代汉语语料),由图1可知,CCL语料库的现代语料中报刊语料占较大比重,故具有权威性。而BCC语料库(如图2)语料分布相对均匀,可以全面反映当今社会语言生活。
(二)语料库的加工与管理
在语料的加工深度方面,CCL语料库是生语料库,除了分类、题目、作者等元信息外,正文部分未经过任何加工处理,检索系统以汉字为基本单位。而BCC语料库是熟语料库,其中现代汉语语料进行了分词和词性标注,支持带词性检索。古代汉语语料未进行分词和词性处理,只能以字为单位进行检索,此外少量语料库还做了句法分析。由此可见,BCC语料库的加工程度要高于CCL语料库,两者在加工程度上的不同主要取决于对语料库在语言研究中所起作用的定位差异,即所谓语料库驱动的语言学(CCL语料库)与基于语料库的语言学(BCC语料库)之分。前者把语料本身作为语言学理论的数据来源,追求在纯粹的原始语言数据基础上,构建全新的、区别于传统的、真正意义上的语料库语言学理论;后者把语料库作为工具看待,主张在标注语料基础上,检验并发展已有的语言学理论。
语料库的检索方面,两者都支持复杂的检索表达式。CCL语料库在普通检索的基础上还提供了批量查询和模式查询,用户可以自行上传查询文件和检索特定的模式,并对标点符号进行检索(比如查询“?”可以检索语料库中所有的疑问句)。但由于CCL语料库没有对语料进行分词与词性标注,其检索结果存在不够精确的问题。BCC在此方面的优点在于提供了更加丰富的检索功能,不仅可以共时检索还可以历时检索和自定义检索。此外,它还可以设定语料范围,在特定领域内进行检索。而BCC的局限性在于查询可以满足形式意义上的匹配,但在语义上则不一定。我们以检索“爱V不V”为例分别在两个语料库中进行检索,对比检索结果(表1)可以发现,BCC语料库检索结果虽然在语法上符合检索表达式,但在语义上却存在偏差。
除此以外,两者在其他的功能使用上也各有优劣。如BCC提供了统计功能,有利于对非普通字符串进行检索,而CCL并未提供此功能。但在下载方面,CCL可以下载所有检索结果,而BCC则最多只能下载10000条结果。
三、小结
通过上述的分析对比,我们可以总结出CCL语料库和BCC语料库在建设和编纂、加工与管理上有以下区别:
(一)BCC是多语、历时兼共时语料库,CCL是单语、共时语料库(汉英双语句对齐语料不对外开放)。
(二)BCC语料库规模更大,现代汉语语料占比大,更具现代性且分布均匀。CCL语料库古代汉语语料和“当代”语料占比大,现代汉语语料中报刊语料占比大,来源权威,类型丰富、可靠性高。
(三)BCC语料库是熟语料库,进行了分词、词性标注和句法标注。而CCL语料库是生语料库。BCC 在语料加工程度上远远高于CCL,体现了建设者在设计理念上的差异。
(四)BCC语料库支持历时和自定义检索,可设定语料范围,在特定领域内检索,但在查询结果的语义匹配上有待提高。CCL语料库可以进行批量查询和模式查询,且支持对标点符号的查询,但生语料导致其在精确度上有所欠缺
(五)BCC提供统计功能,而CCL不提供。BCC只限下载10000条检索结果,而CCL可以下载所以检索结果。
参考文献:
[1]荀恩东,饶高琦,肖晓悦,臧娇娇.大数据背景下BCC语料库的研制[J].《语料库语言学》,2016(1)
[2]詹卫东,郭锐,常宝宝,谌贻荣,陈龙.北京大学CCL语料库的研制[J].《语料库语言学》,2019(1)
[3]王超.关于CCL和COCA在线语料库使用方法的研究[J].《才智》,2014(28)
作者簡介:
王姝蕾(1999.03—),女,陕西商洛人,华侨大学,应用语言学专业,本科生