基于词频分布的齐夫定律朝鲜语适用性研究
2017-03-07王萌
王 萌
(延边大学 吉林 延吉 133002)
1 词频的定义与发展
(1)表达意义的基本原子单位是词。例如house一词使人脑海里浮现一幅景象:一幢有房顶的长方形建筑。当house一词出现在一篇文本中时,读者便会依据其上下文去联想“房子”的意象。所谓词频是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
(2)词语频次的观念古已有之。1898年,德国语言学家凯定在5000名速记人员和800名合作者的帮助下,手工统计了以报刊为主的14个语料来源的资料,所统计的总词汇量达10,910,777条,而其中频次在4以上的词共有79716个。这些统计结果被编纂成了世界上第一部频率词典“Haufigkeits Worter buch der Deutschen Sprache”(《德语频率词典》),这也被普遍认为是第一次现代意义上的以统计调查方法完成的词汇研究工作。美国教育学家与心理学家桑代克先后于1921年和1944年编写了《教师二万词词书》和《教师三万词词书》,对英语的词汇作了大量的频率统计工作①。我国在1930年王文新对包括三种版本的国语教科书等在内的共910417字的语料进行了统计和分析,首先把词语分为单词单音词和复词复音词两种,并分别统计了这两种词语所出现的频次及其各自所占的比率。统计结果,复词出现的词次为214,558词次,复词总词数为6411个,复词中频次最高的词出现的频次为3513次,最低的为1次②。
2 齐夫定律概述
(1)美国哈佛大学教授乔治·金斯利·齐夫通过研究词语频次与词语等级之间的关系,揭示了词频现象的内在形式化规律。在1935年齐夫在艾思杜、贡东、朱斯等学者研究的基础上通过对文献词频规律的研究,认为:若把一篇较长的文章中每个词出现的频次从高到低进行递减排列,即频率最高的词序号为1,频率次之的词序号为2,以此类推。每个单词的序号r与其使用频次f的乘积接近为一常量c。即r×f=c如果用横坐标表示词序号r,纵坐标表示相应的频次f,就可以得到一条双曲线,即齐夫分布曲线;如果公式r×f=c写成logf=logc-logr,就得到了使用频次的对数和序号之间的线性关系,即为齐夫分布对数曲线,图像接近与一条直线。
(2)英国语言学家哈特曼和斯托克对齐夫定律的解释则是“齐夫定律是词的分布和频率的总描述f×r=c,其中f为频率,r为序号。之后齐夫得出了c的值为0.1,因而认为是一个常数。但后来经过验证发现c值有波动的范围,在0到0.1之间。
3 齐夫定律的朝鲜语适用性研究
本文的统计样本语料为十九大报告韩文版中的最前面两个段落。统计手段为人工分词,辅以计算机计数。分词时所依据的原则是:根据朝鲜语自身的语言特点,以齐夫定律理论为基础,以保留词语语义的完整性为前提。此段语料共有2084个单词,其中汉字词有1382个,固有词有702个。
齐夫定律词频统计表
通过上述的词频统计表和齐夫对数分布曲线可以看出,除了排名5以下的低频词外,频次f与词级r的乘积均比较平稳,基本围绕着一个常数上下波动,齐夫对数分布曲线也大致呈现出直线的趋势,可见统计结果中的词频分布呈现出较为明显的齐夫分布规律。结果表明如果除去少数出现频率少的词语,朝鲜语文本完全地符合齐夫定律,齐夫定律同样适用于朝鲜语。
注释:
① 冯志伟.齐普夫定律的来龙去脉[J].情报科学,1983
② 王文新.小学分级词汇研究[J].教育研究.国立中山大学教育学研究所,1922,31.
[1] 许文霞.齐普夫定律的实践和理论基础[J].图书馆建设,1984,(1).
[2] 邓洛华.词频分析[J].武汉大学学报(人文科学版),1987,(1).
[3] 沈关龙.齐普夫定律与专题文献标题词频的研究与应用[J].情报理论与实践,1988,(2).
[4] 十九大报告全文.延边日报[N].2017