基于语料库的词汇和句子层面的宫泽贤治童话文体总体特征分析
2018-09-18刘超
刘超
摘 要:本文将从青空文库下载的宫泽贤治的80篇童话作为研究对象,处理为“Wordsmith Tools”可识别的形式后得到样本语料库,利用“Wordsmith Tools”这一语料库检索工具的Wordlist(词表)功能,通过与参照语料库——处理过后的“日语书面语均衡语料库”中的小说类别的文本对比,分析两者的词表,从词汇和句子两个方面在宏观上把握宫泽贤治童话文体的总体特征。
关键词:宫泽贤治童话;语料库;Wordlist;词汇;句子;总体特征
引言
语料库在文体上的应用促成了语料库文体学的诞生,从此文学作品分析有了语料库的新方法,相对于文学作品的传统分析方法,语料库方法因为有了现实数据的支撑,结果更加客观可信。宫泽贤治是家喻户晓的日本童话作家,本文结合语料库检索工具“Wordsmith Tools”,从词汇和句子两个方面在宏观上把握宫泽贤治童话文体的总体特征。
1.词汇
根据Wordlist的statistics项,样本语料库大小为8898172个字符,参照语料库大小为161404560个字符,样本语料库大小比参照语料库小得多。分析样本语料库和参照语料库各自在类符、形符、类符形符比、标准类符形符比、平均词长、词长标准差、2字符以下的词汇百分比这七个方面的情况,如表1所示。
単位語を同じ語か異なる語かという基準で整理して得られる語を見出し語と呼び、テキストに含まれているすべての見出し語の数を異なり語数と呼び、同じテキスト中に含まれている単位語の総数を延べ語数という。(『語彙の研究と教育(上)』P82)(将单位词按照是否是同一词的标准整理得到的词称为词条,文本中所含的所有词条的数称为类符数,同一文本中所含的单位词的总数称为形符数)。类符形符比表明文章的丰富程度,即词汇密度,该值越大说明词汇密度越大,使用相同词汇的比例越低,词汇种类越丰富。由于两个语料库的文本收容能力不同,因此相对于类符形符比,通常用标准类符形符比来计算词汇密度。平均词长是文本中词汇的平均长度,以字符数为单位,表明文本中所用词汇的复杂程度。平均词长越长,表明该文本中使用长词汇越多。词长标准差则反映了文本中各词汇的长度和文本的平均词长之间的差异,该值越大,表明文本中使用的各词汇长度存在较大差异。
具体分析表1中的数据,样本语料库和参照语料库类符数分别为10354、72680。样本语料库和参照语料库形符数分别为339443、8382729。可知,样本语料库文本的词汇数比参照语料库文本的词汇数小得多。样本语料库和参照语料库的标准类符形符比分别为31.69、34.34,即参照语料库文本中的词汇种类更丰富,文本更充实。关于词长标准差,样本语料库和参照语料库的词长标准差分别为0.82、0.87,即样本语料库文本中所使用的各词汇的词汇长度差异更小。Wordlist中Statistics项的词汇长度的跨距也可以证明这一点。参照语料库的词汇长度跨距为1-14字符,样本语料库则为1-11字符。由此可以说明样本语料库文本用词相对而言更加整齐。另外,样本语料库2字符以下的词汇百分比达到了总词数的89.12%,由此也可以知道样本语料库文本的词汇多为较短词汇。
2.句子
样本语料库和参照语料库有关平均句长,句长标准差的情况如下表2所示。
句长在某种程度上能反映句子的复杂程度。样本语料库和参照语料库文本的平均句长分别为34.55、342.61,也就是说,宫泽贤治童话作品的平均句长比参照语料库文本的平均句长短的多。句长标准差反映了文本中句子的长度和文本平均句长之间的差异,该值越大表明文本各句子间长度差异越大。樣本语料库和参照语料库文本的句长标准差分别为2363.38、30580.62,从这两个数据以及平均句长的数据可以看出,宫泽贤治童话作品句子间长度差异比参照语料库中的小的多,因而从整体来看,文本语言显得更加平稳简洁。
3.结论
综上所述:在用词方面,宫泽贤治童话并没有一般小说用词丰富;宫泽贤治童话中所使用的各词汇的词汇长度差异更小,用词相对而言更加整齐,且所用词汇多为较短词汇。在句子方面,宫泽贤治童话作品的平均句长比一般小说的平均句长短的多,句子间长度差异也比一般小说小的多,因而从整体来看,宫泽贤治童话语言显得更加平稳简洁。
本文利用语料库辅助工具“Wordsmith Tools”的词表功能,从词汇和句子两个方面较为浅层地分析了宫泽贤治童话文体的总体特征,今后还要充分利用“Wordsmith Tools”的主题词和索引功能,从童话自身语言出发,对宫泽贤治童话文体作具体深入的分析。
参考文献
[1]国立国語研究所.語彙の研究と教育(上)[M].昭和59年9月20日 発行
[2]王立非,梁茂成.Wordsmith方法在外语教学研究中的应用 [J].外语电化教学,2007.
[3]毛文伟.现代日语书面语均衡语料库应用研究[J].日语学习与研究,2013年 第2期 总165号
[4]王璐怡.语料库文体学:文学语篇分析的新手段 [J].科技创新导报,2014.
(作者单位:天津工业大学人文学院)