浅议小学语文教学语料库的设计与开发
2013-04-29马晓霞
马晓霞
【摘要】小学语文教学语料库收集了小说、诗词、戏剧、散文等类别的文章和一些趣味性比较强的寓言、通话、儿歌、谜语等,提供了根据作者、标题、体裁、内容等检索,方便教师快速的查找所需要的文献。为教师的教学和学生的学习都提供了方便。
【关键词】语料库 小学语文 教学 设计开发
【中图分类号】G623.2 【文献标识码】A 【文章编号】2095-3089(2013)07-0045-02
小学语文教学语料库主要是借鉴了前人提出的建设原则和检索功能,使用ASP程序设计语言,SQL SEKVER2000数据库服务器来采集、加工语料以及开发语料库检索功能等,并规定小学语文语料库的建设目的和样本大小等,来解决语文阅读资源中的篇章检索、词语检索和句子检索所存在的问题。
一、概念
小學语文教学的教学语料库是为了研究和应用于小学教学而搜集的并且用电子数据的形式保存下来的语言材料,这些内容主要是由书面语或者口语的样本汇集起来的,它代表着小学语文中的语言。在这一语料库有了足够的规模时,能够反映和记录小学的语言在实际使用中的情况。这有利于相关人员对于语料库的把握和研究,借助语料库可以分析小学学习的语言系统的规律。它无论对教学还是对研究都是极其有利的。
二、建库注意项
小学语文教学语料库的建立是有特定的目的,就这个目的和一些专家的观点,对语料库的建立原则和方法做出以下总结:
2.1首先就是要明确小学语文教学语料库的建库目的。它属于专型语料库,专门为小学语文的教学和研究服务的,这种语料库主要有两个特点,选择名家大作和突出趣味性。它收录的大都是寓言、童话、诗歌、谜语等,对一些政治、文学和经济方面的内容牵涉较少。
2.2关于语料库的容量方面的问题。由于我们所建立的语料库是小学语文的教学语料库,所以它主要采集的是整个原始文本作为样本的形式比较合理,可以另外建立数据库存储由原始文本分解得来的句子样本。这样比采取把原始语料切分为片段的方式要好。
2.3建立小学语文教学语料库的时候,要注意语料库样本的多样性,因为小学语料库属于文科门类,文学类的样本的多样性主要是文学门类下的子门类的多样性。
2.4做好小学语文教学语料库的预料样本处理,一定要根据小学语文语料库的教学和研究的需求。建立比较适合的预料库检索方式和存储方式。
2.4.1要把每个语料库的样本都当作一条数据记录存放在数据表中,这样有利于查找扩展阅读所需要的篇章,方式是通过关键词来进行全文的检索。
2.4.2把需要处理的所有预料划分为句子,再把每个句子当作数据记录放在数据表中。这样做的好处是利用字串、句子和词语来进行检索,方式是利用关键词进行句子检索。
三、开发和研究
小学语文教学语料库主要是采用的ASP语言写程序,采用SQL SE1KVE1K2000数据库服务器做数据存储服务以及采用IIS60 Web服务器发布语料库检索网站。这个过程主要有:语料采集、原料库加工和开发语料库的检索功能等环节。
3.1语料一般都是来源于互联网上的一些读书网站,这是主要来源。
3.2在小学语文教学语料库设计时肯定会碰到难点,在建设资料库时需要收集的资料并不是汇集在一起的,需要设计者进行搜集,要把这些结构多样的资源转化为结构统一的语料库并不是一件简单的事,而且很多资源都是网页形式的,而语料库的全文却是文本形式的,这样就要求设计者进行处理,这也是一项比较困难繁杂的工作。
3.3对于小学语文教学语料库所遇到问题的解决方法,大多数网站的资源格式基本上都是一样的。这样我们就可以利用这些相同点来进行解决,我们可以去发现各个网站对于文章的作者、标题等的标记的规则,将其转化为我们需要的文本格式,运用到我们的语料库中。但是在有些情况下某个网站的不同的页面中对文章的同一部分所用的标记也不相同,这些地方我们的解决方法是寻找两者之间的共性,尤其是在标记部分的共性,利用这些共性对这两种标记方式进行统一的表达。
3.4注意结果的统计。小学的语料库中共收集了一万零六百六十五篇,这些结果的收集对教学和研究是非常有益的。小学语文教学语料库的加工要注意句子层次的加工和篇章层次的加工,句子 层次的加工主要是将篇章分割成若干句子,同时确定每句话的长度, 而后将这些句子数据存入句子数据表中。篇章层次的加工在语料采集 过程已经部分的完成,包括对标题、作者、体裁和字数等属性。
四、开发重点
在小学语文教学语料库的开发中最为重要的一点就是检索功能,下面就这以重点进行详细的分析。
4.1句子检索
可进行关键词居中(KWIC)检索,关键词为简体中文的任意字符串,通过设定跨距(span)来限定检索关键词的左右语境范围,跨距要一汉字为单位。返回的检索结果以原始预料的句子为最大话语单位,作为检索的上下文语境的最大范围。如果需要查看更大范围的上下文语境可以更进一步查看该句子所在的篇章,允许对检测的结果进行复制和保存。句子检索功能可实现基于连续字串、短语和复句句型的句子检索,方便课件制作人员查找关于某个词语多种应用情景的句子。
4.2篇章检索
篇章检索的检索项有:作者、标题、体裁、语体等,对作者、标题等检索提高模糊匹配功能。对体裁和语体等则提供全文检索,检索全文内容中包含的一项或多项内容。
结语
小学语文教学语料库的开发以篇章为单位,收集了适合小学语文教学的各类体裁的文献,在保证知识性、思想性的基础上,突出了一定的趣味性。收集了一些名家的散文、诗词、小说、戏剧等。提供了基于作者、题目、体裁、出处等以及全文内容检索的功能方式,以方便教师快速查找教学所需的文献和资料,为教学提供了方便。
参考文献:
[1]何克航.儿童思维发展新论和语文教育的深化改革—对皮亚杰“儿童认知发展阶段论”的质疑[J].教育研究,2009,07(02):135—138.
[2]魏顺平,何克抗.小学语文教学语料库的设计与开发[B].中国化教育—学习资源,2009,06(245):148—151.