APP下载

PATTIE儿童读物及视听材料英语语料库的创建

2015-08-17外交学院

语料库语言学 2015年1期
关键词:库容语料儿童文学

外交学院 吉 洁

PATTIE儿童读物及视听材料英语语料库的创建

外交学院 吉 洁

本文介绍“PATTIE(Preschoolers- and Teenagers-oriented Texts in English)儿童读物及视听材料英语语料库”的建设概况。PATTIE语料库主要收集由成人所写,面向4岁到10多岁儿童的英文正式出版物,包括儿童文学、小学教材、科普读物、报刊新闻和少儿动画5种体裁,涉及英美等地出版物。语料库经过词性标注和元信息标记,可在BFSU CQPweb语料库平台在线检索。与面向成人的语料相比,儿童输入语料不仅在内容上更符合儿童的认知能力、价值观念和兴趣趋向,而且在语言使用上具有鲜明特点。PATTIE语料库的建成将对儿童语言学习和教学发挥积极作用。

儿童读物及视听材料英语语料库、PATTIE、儿童英语、语料库建设

1. 引言

近20年来,语料库语言学的研究热点更多集中于学习者语料库、双语语料库和短语学等研究(刘霞等 2014),儿童语料库似乎并未得到广泛关注。其实,基于儿童语料的研究已经持续了一个多世纪。Preyer(1889)和Stern & Stern(1907)基于其子女的语料,初步探讨了儿童语言的习得与发展。Thorndike(1921)和陈鹤琴(1922)为建立词表所收集的语料中,包含大量儿童文学、小学教材或课外读物。这些最初的纸质儿童语料,为语言习得与教学相关研究提供了数据基础(Braine 1963;Fries & Traver 1940;McCarthy 1954)。随着电子语料库的兴起和相关技术的成熟,越来越多儿童语料库建成,主要可分为两大类:儿童输出语料库和儿童输入语料库。

儿童输出语料库,主要收集儿童所产出的语言。其中规模较大的为卡内基梅隆大学的儿童语言数据交流系统CHILDES(MacWhinney & Snow 1985),主要包含0-5岁儿童的多语种历时口语语料。兰卡斯特大学的LCCPW语料库(Smith et al. 1998),为9-11岁儿童的英语历时笔语语料。这些历时口笔语语料多用于研究儿童的语言习得及发展(Le Normand et al. 2013;Ravid et al. 2008;范莉 2007)。此外,还有一些为特定研究目的而建设的儿童语料库。例如,CMU(Eskenazi et al. 1997)、CNG(Hamalainen et al. 2013)和Jasmin(Cucchiarini & Van hamme 2013)语料库分别收录英语、葡萄牙语和荷兰语的儿童口语,以改进语音识别系统;Gabania et al.(2011)自建儿童口语语料,以辅助诊断语言障碍;赵守辉、刘永兵(2007)建立了新加坡华族儿童语料库,以服务于国家语言规划政策。

儿童输入语料库,主要收集面向儿童的语言,如儿童文学、教材等。Sealey &Thompson(2004;2007)从BNC语料库中抽取了40篇儿童文学,建成小型CLLIP语料库,并将其分别用于课堂语言教学和文学特征分析。Johns et al.(2008)将儿童文学Swallows and Amazons建成小型语料库,让台湾学生通过解读索引行来学习词汇,取得了较好的教学效果。目前规模较大的输入型语料库较少,英语中仅有牛津儿童语料库OCC(Wild et al. 2013)。该库包含儿童文学和非文学两部分输入语料,以及部分儿童输出的笔语语料,库容约3,000万词。

总的来讲,儿童输出语料库数量较多,相关研究也较为丰富,仅基于CHILDES语料库的语言习得研究就多达数千篇1。相比之下,儿童输入语料库的数量较少,相关研究也寥寥无几。成人语料库已证实其在语言教学和数据驱动学习中的重要作用,但其语料不一定符合儿童学习者的认知能力、价值观念和兴趣趋向。已有的儿童输出语料库主要为尚在发展中的儿童语言,也不适合作为例句教给学习者。因此,建立一个由成人所写的、面向儿童的输入语料库,既能保证语料的合理性,又能保证内容的贴合性,对儿童语言学习和教学有一定的意义。然而,已有OCC语料库仅供牛津出版社编纂词典,并未公开发行。其输入语料中,小说文学约占80%,略显单一,且未包含儿童经常接触到的影视动画等口语语料。基于以上原因,本研究试图建设一个采样平衡、对研究人员开放的儿童读物及视听材料英语语料库,即Preschoolers- and Teenagers-oriented Texts in English语料库,简称PATTIE语料库。

2. PATTIE语料库的设计与建设

2.1 语料构成

本语料库主要收集由成人所写的、面向4岁至10多岁儿童的英文正式出版或发行作品2。语料总库容约为200万词3,包括36个文本文件,分属5种体裁:儿童文学、小学教材、科普读物、报刊新闻、少儿动画。详见表1。

儿童文学包括当代文学和经典文学两部分。其中,当代文学主要收集1990年之后出版的畅销作品或获奖书籍,包括《哈利波特》系列、《神奇树屋》系列、《穿条纹衣服的男孩》和《爱德华的奇妙之旅》等7部作品,共约49万字,占总库容24.75%。经典文学主要收集1960年之前出版的,至今仍然被广泛阅读的经典作品,如《爱丽丝漫游仙境》、《夏洛的网》、《小王子》、《绿野仙踪》等8部作品,共约43万字,占总库容21.36%。

小学教材主要收集近年来英、美两国主流小学教材或读物,包括《加州语文》、《牛津阅读树》等4套教材,共约36万字,占总库容17.88%。

科普读物收集了畅销科普图画书《神奇校车》,以及著名儿童出版社DK和Scott Foresman的两套科学教材,共约8万字,占总库容4.19%。

报刊新闻主要收集美国《时代周刊儿童版》近两年的新闻报道,涉及娱乐、体育、健康、科技、国内、国外6大方面,共约10万字,占总库容5.36%。

少儿动画主要收集近20年收视率较高的、或者获得较多奖项的动画片剧本,包括“降世神通”、“数字精灵”等8部动画,共约53万字,占总库容26.46%。

总体来讲,本库涵盖4岁至10多岁儿童的大部分语言输入形式,并将其在儿童日常生活中的实际比例考虑在内。例如,文学、教材及动画所占比例可能较大,而科普和新闻的比例可能略小。就来源地域而言,本库优先选用英国与美国的原始语料,仅有《伊索寓言》、《安徒生童话》和《格林童话》这3部作品属于译本语料。且总体取样较为平均,英式英语和美式英语几乎各占一半。就出版或发行时间而言,约80%语料取自1990年以后,较能体现当代英语语言的特色。

表1 . 儿童英语输入语料库PATTIE的构成

(续表)

2.2 语料采集、整理与标注

本库语料来源主要有4种形式:电子书、纸质书、网页、字幕文件。针对不同的形式,有以下不同的采集方式:1)文学作品主要为pdf格式的电子书,需要先使用Adobe Acrobat Pro软件将页眉页脚裁剪掉,仅保留正文部分,并另存为Word文档。再从Word文档复制粘贴到纯文本文件中4,并保存为ANSI编码格式。2)小学教材和科普读物主要为纸质书,需要先将书籍扫描为pdf格式的电子书,然后使用ABBYY FineReader软件进行OCR文字识别。经人工核对后,另存为纯文档。3)报刊新闻主要来源于网页,需要从网页中将新闻正文复制粘贴到纯文本文件中,并删掉广告等无关信息。4)少儿动画主要取自于srt格式的字幕文件,需要先编写正则表达式,将时间轴等无关信息删除,仅保留动画字幕文字正文,再将所有字幕文件合并另存为纯文本文件。

语料采集完毕后,需要进行格式整理。在PowerGREP软件中执行Text Cleaning Library.pgl操作5,通过“噪音删除”、“断行修正”、“文本清理”和“精益求精”4个步骤,可解决非正常断行、中文或全角字符、多余空格或空行等多项问题。

语料整理完毕之后,即得到生文本语料库(PATTIE_RAW)。使用CLAWS(C7编码)对生语料进行POS词性标注,即得到标注过词性的语料库(PATTIE_POS)。根据表1为本语料库标注以下元信息:类别(genre)、出版时间(time)和区域(region),并单独存储为制表符分隔的(tab-delimited)文本文件。

2.3 在线检索平台

本语料库可在BFSU CQPweb进行在线检索6。该平台既可对单词、短语进行简单查询,也可使用正则表达式对词性赋码、类联接等形式进行复杂检索,还可实现生成词表、计算主题词等多项功能(许家金、吴良平 2014)。根据标注的元信息,用户可选定一个或多个限制条件(如1990年之后英国出版的儿童文学),对本库中部分语料进行针对性检索。

3. 儿童英语输入语的特点

建立专门面向儿童的输入语料库,不仅由于其内容更符合儿童的认知水平和观念兴趣,也是由于其语言使用与面向成人的语料明显不同。为了更好地挖掘儿童英语输入语的特点,本研究专门组建了400万库容的参照语料库,包括布朗家族的6个语料库(Brown、LOB、Frown、FLOB、Crown、LOB)中的小说部分,以及其中Crown和CLOB两库的一般、学术和新闻部分,并自建了“老友记”和“摩登家庭”两部情景剧的语料,以保证参照语料在内容、结构与比例上均与本语料库具有可比性(见表2)。并且,布朗家族语料库涵盖英、美两个地域,时间跨度从上世纪60年代至今,其中最新的Crown和CLOB两库皆为2009年左右的语料(Xu & Liang 2013),因此在时间和地域上也与本语料库相似。具体对比结果如下:

就语料难度而言,面向儿童的语料整体难度低于成人语料。这主要表现在以下几方面:1)儿童语料的标准类形比(STTR,每千词)为38.13,成人语料为43.71,这说明儿童语料的词汇丰富度不及成人语料。2)儿童语料的平均词长和句长均低于成人语料。尤其是平均句长,儿童语料仅为8.59词,约为成人句长的一半,句式相对短小简单。3)使用Range软件得到GSL词表分布情况,其中第三级和词表外词汇对文本难度有较好的判别能力(梁茂成等 2010:138)。表2可见,儿童语料的三级词汇占0.78%,词表外词汇占11.63%,分别低于成人语料的3.38%和12.76%,这说明儿童语料中的词汇更加容易一些。

就常用词语而言,儿童语料的词语意义更具体,更物理化、可见化。成人语料的词语意义更抽象,更心理化、社会化。对比两种语料的关键词发现:1)儿童语料更常使用实体名词,如亲人(daddy、father、mum(my)、grandpa、granny、grandma、uncle)、动物(dragon、rabbit、lion、duck、dog、dinosaur、bird、mouse、fox、frog)、自然(tree、forest、flower、water、snow、moon、sun、sky、wind、rock、sea、mountain)、食品(food、potato、cake、chocolate、apple)、玩具(toy、wand、rope、sword、kite)等,其所指较具体。而成人语料更常使用抽象名词,如表示政治(administration、government、election)、经济(economy、finance、market、insurance、budget、income、fund)、社会文化(society、culture、religion、media、law)、关系(relationship、marriage)等词,其意义较抽象。2)儿童语料更常使用身体动词,如看(look、see)、听(hear)、说(said、ask、yell、shout、squeak、whisper、sing)、哭笑(cry、laugh、giggle)、四肢动作(run、jump、hop、climb、ride、pull、grab)等。这些均属物理动作,具有可视性。而成人语料更常使用心理动词(know、consider)或者名物化了的心理活动(analysis、decision、assessment)来表示动作。3)儿童语料的常用形容词多表示物理属性,如形状(little、big、giant、long)、颜色(red、green、blue)、温湿(warm、cold、wet)、音量(loud、quiet)等。而成人语料的常用形容词多表示社会属性,如政治经济(financial、commercial、political)、社会文化(religious、married、legal)、区域性(local、global、international、British)、公开性(public、private)等。

就时态和句型而言,儿童语料常用过去时态和疑问句,成人语料常用完成时态、进行时态和从句。对比两种语料的POS码发现:1)儿童语料更常使用动词过去式(VVD)、动词原形(VVO)、动词不定式(VVI)以及情态动词(VM)。而成人语料更常使用动词过去分词(VVN)、现在分词(VVG)和第三人称单数形式(VVZ)。2)儿童语料更常使用疑问副词(RRQ),如where、how。而成人语料更常使用从属连词(CS),如that、if、whether、because、although等。使用从句也许是成人语料句长更长的原因之一。

表2 . 参照语料库的构成及其与本库的对比

4. 结语

本文主要介绍了儿童英语读物及视听材料语料库PATTIE的设计与建设,并初步探讨了儿童英语输入语言的特点。PATTIE语料库主要收集由成人所写的、面向4岁到10多岁儿童的英文正式出版或发行作品,包括儿童文学、小学教材、科普读物、报刊新闻和少儿动画5种体裁,涉及英国和美国不同地域,取样结构较为平衡。语料库经过词性标注和元信息标注,可在BFSU CQPweb平台在线检索。与面向成人的语料相比,儿童输入语料不仅在内容上更符合儿童的认知能力、价值观念和兴趣趋向,而且在语言使用上具有鲜明特点,对儿童语言学习和教学有更多的实用价值。限于时间与精力,目前PATTIE语料库的库容较小,后续仍需作进一步的扩充。本语料库还可与儿童输出语料库、国内英语教材库进行交叉对比研究。

注释

1. 根据CHILDES网站数据(http://talkbank.org/info/usage/childesbib.pdf),截止到2008年,基于该库发表的相关研究共3,104篇。

2. 本库所收语料的版权归原出版社或发行方所有。本库为免费在线检索平台,不提供全文查看或下载。仅供学术研究或学习教学使用,请勿用于任何商业用途。

3. 本文库容采用“[A-Za-z0-9-]+”的计算方法。

4. 不直接另存为纯文本,是为了避免行末出现多余换行符。

5. Text Cleaning Library.pgl是由笔者编写的文本清理代码,需在PowerGREP软件中执行,可从http://www.bfsu-corpus.org/channels/tools下载。

6. 本库在线检索网址为http://124.193.83.252/cqp/pattie/,用户名和密码均为“test”。

Braine, M. 1963. The ontogeny of English phrase structure: The first phase [J]. Language 39: 1-13.

Cucchiarini, C. & H. Van hamme. 2013. The JASMIN speech corpus: Recordings of children,non-natives and elderly people [A]. In P. Spyns & J. Odijk (eds.). Essential Speech and Language Technology for Dutch [C]. Berlin: Springer. 43-59.

Eskenazi, M., J. Mostow & D. Graff. 1997. The CMU Kids Corpus LDC97S63 [OL] https://catalog.ldc.upenn.edu/LDC97S63 (accessed 09/02/2015). Philadelphia: Linguistic Data Consortium.

Fries, C. & A. Traver. 1940. English Word List: A Study of their Adaptability and Instruction [M].Washington, D.C.: American Council of Education.

Gabania, K., T. Soloriob, Y. Liua, K. Hassanalia & C. Dollaghanc. 2011. Exploring a corpus-based approach for detecting language impairment in monolingual English-speaking children [J].Artificial Intelligence in Medicine 53: 161-170.

Hamalainen, A., S. Rodrigues, A. Judice, S. M. Silva, A. Calado, F. M. Pinto & M. S. Dias.2013. The CNG corpus of European Portuguese children’s speech [A]. In I. Habernal & V.Matousek (eds.). Text, Speech, and Dialogue [C]. Berlin: Springer. 544-551.

Johns, T., H. Lee & L. Wang. 2008. Integrating corpus-based CALL programs in teaching English through children’s literature [J]. Computer Assisted Language Learning 21: 483-506.

Le Normand, M., I. Moreno-Torres, C. Parisse & G. Dellatolas. 2013. How do children acquire early grammar and build multiword utterances? A corpus study of French children aged 2 to 4 [J]. Child Development 84: 647-661.

MacWhinney, B. & C. Snow. 1985. The child language data exchange system [J]. Journal of Child Language 12: 271-296.

McCarthy, D. 1954. Language development in children [A]. In L. Carmichael (ed.). Manual of Child Psychology [C]. New York: Wiley. 492-630.

Preyer, W. 1889. The Mind of a Child [M]. New York: Appleton.

Ravid, D., W. Dressler, B. Nir-Sagiv, K. Korecky-Kroll, A. Souman, K. Rehfelt. 2008. Core morphology in child directed speech: Crosslinguistic corpus analyses of noun plurals[A]. In H. Behrens (ed.). Corpora in Language Acquisition Research: History, Methods,Perspectives [C]. Amsterdam: Benjamins. 25-60.

Sealey, A. & P. Thompson. 2004. ‘What do you call the dull words?’ Primary school children using corpus-based approaches to learn about language [J]. English in Education 38: 80-91.

Smith, N., A. McEnery & R. Ivanic. 1998. Issues in transcribing a corpus of children's handwritten projects [J]. Literary and Linguistic Computing 13: 217-225.

Stern, C. & W. Stern. 1907. Die Kindersprache: Eine psychologische und sprachtheoretische Untersuchung [M]. Leipzig: Barth.

Thompson, P. & A. Sealey. 2007. Through children’s eyes? Corpus evidence of the features of children’s literature [J]. International Journal of Corpus Linguistics 12: 1-23.

Thorndike, E. 1921. The Teacher’s Word Book [M]. New York: Columbia University.

Wild, K., A. Kilgarriff & D. Tugwell. 2013. The Oxford Children’s Corpus: Using a children’scorpus in lexicography [J]. International Journal of Lexicography 26(2): 190-218.

Xu, J. & M. Liang. 2013. A tale of two C’s: Comparing English varieties with Crown and CLOB(The 2009 Brown family corpora) [J]. ICAME Journal 37: 175-183.

陈鹤琴,2014,语体文应用字汇[J],《语料库语言学》(1):94-102。

范 莉,2007,儿童对普通话中否定词的早期获得 [J],《现代外语》(2):144-154。

梁茂成、李文中、许家金,2010,《语料库应用教程》[M]。北京:外语教学与研究出版社。

刘 霞、许家金、刘 磊,2014,基于CiteSpace的国内语料库语言学研究概述(1998-2013)[J],《语料库语言学》(1):69-77。

许家金、吴良平,2014,基于网络的第四代语料库分析工具CQPweb及应用实例 [J],《外语电化教学》(5):10-15。

赵守辉、刘永兵,2007,新加坡华族学前儿童口语语料库的生成 [J],《世界汉语教学》(2):98-105。

附录一 PATTIE常用关键词表(前100)

(续表)

(续表)

附录二 PATTIE常用词组列表(前50)

通信地址:100037 北京市外交学院英语系

猜你喜欢

库容语料儿童文学
第四届福建省启明儿童文学双年榜揭榜
第三届福建省启明儿童文学双年榜揭榜
唯童年不可辜负
——两岸儿童文学之春天的对话
基于语料调查的“连……都(也)……”出现的语义背景分析
全省已建成水库总库容
月潭水库防洪库容的确定
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
零库容梯级电站联合调控策略研究
国内外语用学实证研究比较:语料类型与收集方法