APP下载

藏文教材词汇计量统计及分析

2015-07-20端智项杰安见才让

亚太教育 2015年5期
关键词:藏语文用词种数

端智项杰 安见才让

藏文教材词汇计量统计及分析

端智项杰 安见才让

本文以小学至高中藏语文教材为语料,利用计算机对教材中藏语词的频次,数量等信息做出统计,进而摸索出目前藏语文教材编辑中藏语词的分布规律,目的在给藏语词的安排、重要程度等是否科学合理,即是否符合各个年龄段藏族学生对知识的接受状况,提供重要的指导作用。

藏文教材;词统计;分布

藏文教材词汇计量统计中,藏文分词采用软件自动切分和人工校对相结合的方法,尽量与藏语语感中的“词”保持一致,即能独立运用、使用稳定且具有固定语义的最小单位。

小学藏语文教材词汇计量统计课文用词和课文生词两部分;初中和高中阶段,课后不再列举生词,词汇计量统计课文用词及“读和写”习题词汇两部分。

一、课文用词

课文用词指课文正文中出现的所有词语。课文用词是构成藏语文教材最基础的材料之一,学生可以通过课文学习掌握大量的词汇。藏文有四种形态的动词:现在时、未来时、过去时、命令式,统计词种数时按形态不同分别统计。课文用词统计包括:各体裁词种数、各册词种数、词次、词语频次、出现课文数的统计及高频词的统计等。经过统计,藏语文小学教材1—12册共274篇课文,词种数9224条,97366词次,每个词种平均出现10.56频次;藏语文初中教材共6册126篇课文,共有词种数12920条,191062词次,每个词种平均出现14.79次;高中教材共6册124篇课文,共有词种数14593条,205072词次,每个词种平均出现14.05次。藏语文小学、初、高中共统计词条18309个,493500词次。

二、词频统计

藏语文小学教材1—12册词种数9224条,97366词次,每个词种平均出现10.56频次;藏语文初中教材共有词种数12920条,191062词次,每个词种平均出现14.79次。高中教材共有词种数14593条,205072词次,每个词种平均出现14.05次。

三、分频段词频统计

按照词频从高到低的顺序分别对词种进行排序,小学阶段分为前500词、501—2500词、2501—9224三个频段;初中、高中阶段分前1000、1001—5000、>5000这样三个频段统计分析,词频分布见表4-1。

表3-1各频段词种分布表

表3-1显示小学阶段出现频率最高的前500词占课文用词的69.24%,平均词次为134.83,而其余的8724个词种仅占全部词频的30.76%,平均词次为3.43。

初中阶段出现频率最高的前1000词占课文用词的70.13%,平均词次为133.995,而其余的11920个词种仅占全部词次的29.87%,平均词次为4.79。

高中阶段出现频率最高的前1000词占课文用词的69.13%,平均词次为141.761,其余的13593个词种占全部词次的30.87%,平均词次为4.66。

四、词次统计

表4—1显示,小学藏语文除第11册以外,其余各册词总数呈线性递增;除第1册字母学习以外平均词次增加相对平稳,平均词次为4.19。

除高中第六册,初中和高中阶段其他各册平均每课词种数、词次及平均词次在相对稳定的范围内呈波浪式变化,属于典型的分散式教学。高中第六册课文篇数大幅度减少,在平均词频即每个词种重复出现平均次数与其他各册基本一致的基础上,每课平均词种及词次却达到最大,说明第6册课文跟其他各册相比,用词更丰富、词量更大、篇幅更长。

表4—1各册词频总数分布统计

[1]程曾厚:《计量词汇学及其他》,江苏教育出版社1987版.

[2]周毛草:《藏语文政策与实施状况探讨》,《中国藏学》2004年第1期.

[3]宗成庆:《统计自然语言处理》,清华大学出版社2008版.

(作者单位:青海民族大学藏文信息处理与软件研究所)

猜你喜欢

藏语文用词种数
苍凉又喧嚣:《我与地坛》中的用词
请“球”入“盒”问题八例
请“球”入“盒”问题八例
写话妙计之用词准确
汪曾祺小说的用词特点赏析
藏语文信息监测关键技术初探
通过电影和网络来普及与传承藏语文知识的平台设计
如何提高高中藏语文教学质量
绝句(二首)
全国少数民族文字期刊分类种数、印数、总印张、总金额