基于视频点播系统和PatCount 的“影视语料库”的研究与开发
2014-07-21吴艳霞王莹
吴艳霞 王莹
摘 要:电影、电视等未经改写的原始材料,注重语言的原生性和学习的场景性,是练习纯正地道英语的首选。但往往线性播放,作为听说材料,不利于主题的加深及意义的构建。本文拟利用视频点播系统和Patcount技术,与教材单元主题同步,垂直整合电影、电视的精彩片段,开发“影视语料库”。
关键词:“影视语料库”;视频点播系统;PatCount
一、国内外研究现状
1.国外研究现状
自20世纪60年代第一代大型机读语料库问世以来,语料库已有了近50年的发展历史。但目前国外关于“影视语料库”的相关文献还不多见,“影视语料库”建设仍属于一个新的研究领域。所以本文只能就国外语料库在教学中的应用进行一个简单的梳理,以期帮助我们了解“影视语料库”建库的宏观国际背景。国外早在20世纪70年代便开始将语料库作为一种辅助性工具应用于语言教学,主要围绕三个方面进行:
(1)语言描写,如Thompson利用语料库调查了农业专业博士论文的文献引用和情态动词使用情况。
(2)语言教学,如Simpson等人建立的学术英语口语语料库Micase。
(3)学习者语料库建设,如Granger为首建成了国际学习者英语语料库ICLE。
从语料库的研究内容不难看出,语料库已从语言描写走向语言应用,语料库的建设正在从广泛走向精深。我们拟建的 “影视语料库”正属于学习者语料库。
2.国内研究现状
我国语料库语言学研究始于20世纪80年代,我国英语学习者语料库的建设起步不算晚,先后建成了“中国学习者英语语料库” [1]和“中国学生英语口笔语语料库” [2]等。这些语料库为深入研究学习者的二语语音、词汇、语法、语篇、语用提供了充分的依据。但这些语料库均以中国学生的口语、书面语或外国学生的书面语作为语料,并不能直接用于听说学习。目前,直接用于听说学习的语料库很少有人问津,是个亟待开发的领域。
基于以上研究,本文拟构建“影视语料库”,以达到听、说、训练的最佳效果。
二、“影视语料库”的研究框架
“影视语料库”的研究内容包括 “影视视频语料库”的建立和检索与“影视文本语料库”的建立和检索。研究框架如图1所示。
三、研究方法
“影视语料库”主要包括语料库的建立和检索两个方面,检索工具是重点。语料库建好后,利用价值的大小取决于检索工具的使用。所以本文重在介绍两种检索工具在语料库中的应用。
1.视频点播系统
“影视视频语料库”的检索将基于美萍VOD视频点播系统8.4标准版。VOD系统由编码器、服务器、终端播放器三大部分组成。三大部分分工协作,共同完成语料的加载和点播。
(1)编码器: 由一台普通计算机、一块流媒体采集卡和流媒体编码软件组成。流媒体采集卡负责将音视频信息源输入计算机;编码软件负责将流媒体采集卡传送过来的音视频信号压缩成流媒体格式,使其成为可供服务器发布的流式文件。
(2)服务器: 由VOD视频服务器和一台硬件服务器组成。这部分负责增
加、删除、修改、分发编码器传上来的流媒体节目。
(3)终端播放器:这部分由一台普通PC和播放器组成,可以实现在线查找、浏览、点播、下载以及评论音视频语料等功能。我们将安装的播放器为QQ影音或KMPlayer,这两款播放器可以有效进行字幕显示、隐藏以及字幕语言切换,并且具有开始、停止、暂停和随机播放等功能。
2.PatCount
文本分析工具PatCount的核心程序用Perl语言汇编而成,全面支持正则表达式。图2为PatCount的主界面。
PatCount的主界面分为上下两个窗口,上部窗口用于读入模式文件。模式文件分两类:一类是本义字符串,如sharply, lead to, at the same time等。另一类为正则表达式,如 “\S+_PPH1\s\S+_VB\w*\s\S+_J\w+\s\S+_CSW\s”,表达的是 “it + BE + adj + whether”结构。PatCount的使用步骤如下:
第一,用正则表达式编写工具PatternBuilder编写正则表达式,并保存为模式文件。
第二,在PatCount上部窗口加入需要的模式文件,并添加需要分析的语料,点击运行,下部窗口出现分析结果。
第三,将分析结果存为Excel文件,导入SPSS统计软件,进行卡方检验。
四、结论
研究还有很多不足之处:本文拟构建的“影视语料库”规模有限;“影视语料库”的层次性还不够明显;还不能实现人机互动,这些都是笔者今后努力的方向。
参考文献:
杨惠中,桂诗春.中国学习者英语语料库.上海:上海外语教育出版社,2003.
文秋芳,王立非,梁茂成.中国学生英语口笔语语料库.北京:外语教学与研究出版社,2009.endprint