大数据背景下体育英语词频数据库建设
2018-06-11杨春会张晓菲姜洋徐雪婕赵果巍
杨春会 张晓菲 姜洋 徐雪婕 赵果巍
摘 要:大数据时代为体育英语词频数据库的建设和使用提供了更有力的条件。在合理地划分体育英语词频数据层次的基础上,利用大数据的优势,广泛采集体育英语词频数据、科学建设体育英语词频线上和线下数据库、及时维护体育英语词频数据库,体育英语词频数据库就能够有效地发挥其功能,为体育专业从业者和体育爱好者清除语言上的障碍,使其能够轻松地生活和工作。
关键词:体育英语 词频数据库 大数据
中图分类号:G80 文献标识码:A 文章编号:2095-2813(2018)07(c)-0226-02
人们因专业需求或兴趣爱好不同对英语词汇的需求也不尽相同。语言是满足人们交流的工具,不同的需求意味着人们在学习英语时不必面面俱到,有所侧重会使学习效率变得更高。体育英语词频数据库的研究和建设能够帮助体育从业者和体育爱好者更快速、更轻松地扫清语言方面的障碍。大数据时代为体育英语词频数据的采集和研究提供了便捷的方法和途径,使体育英语词频数据库的研究更科学准确、更新速度更快。
1 体育英语词频层次的划分
要建设体育英语词频数据库,首先要对体育英语词汇进行整理和归类。科学的归类方法既是建设数据库的良好基础又是提高人们使用数据库时的效率的有力保障。为了满足不同群体在体育英语词汇方面的需求,数据的归类标准是多重的。首先,可以按照专项进行分类。在分类过程中,将通识性体育英语词汇和体育项目英语词汇分开,便于人们查找和使用。通识性体育英语词汇包括体育组织和赛事名称等体育综合词汇、裁判员和解说员常见用语、赛事报道(书面、口头)用语等。体育项目英语词汇包括各种项目的技术动作用语、器材和场地用语、运动员和教练员用语等[1]。普通体育爱好者了解前者即可满足语言需求,想深入了解某一项目的人可以参照后者。其次,可以按照大型赛事对体育项目进行分类。奥运会是最受人们关注的世界性的赛事,可以按照奥运会项目和非奥运会项目对体育项目进行归类,其中,奥运会项目又可分为夏季奥运会项目和冬季奥运会项目,满足大众在奥运会等大型赛事期间对体育英语语言的需求。再次,可以按照应用频率对体育英语词汇进行分类。区分词汇的应用频率是短期内提高人们学习效率的有效途径。高频词汇是指通过多批次、多层面地收集语言交际素材并统计其中的词频数据,筛选出的在某些领域语言交流中应用较为普遍的词汇[2]。反之,则是低频词汇。将通识性体育英语词汇和各个项目体育英语词汇中的高频词汇和低频词汇单独统计出来可以使人们聚焦于广泛应用的词汇,摒弃应用频率过低的词汇,节省了使用者的时间,提高了使用者的学习效率。此外,按照素材形式进行分类。体育英语词频数据库不应仅局限于词汇的收集,应该把能够有效地呈现各种词汇信息的文本、音频、视频等资源都囊括在内[3]。多样的形式有助于加深人们的印象,也促进了人们对体育英语文化的了解。
2 体育英语词频数据的采集
随着体育项目的不断发展,体育英语词汇层出不穷。体育项目中技术动作、器材、场地等的更新必然会淘汰新的词汇,衍生新的词汇。因此,不同时期,热点词汇也不尽相同,词频数据是动态的。在这种情况下,词频数据采集的及时性就尤为重要。在大数据时代,线上和线下的数据采集应该同步进行。
线上数据采集的特点是及时、便捷,其主要对象是网络文本资源、网络视频新闻和赛事转播。数据库的主体形式是文字,网络文本资源不仅为数据采集提供了海量的资源,而且为数据库的建设提供了便利条件,是数据库建设的基础。然而,网络文本资源的劣势是误差较大、更新不及时,要靠视频资源来弥补。网络视频新闻和赛事转播能够使人们突破时间和空间的限制,以最快的速度获取词频数据。
线下据采集的特点是准确、实用性强,其主要对象是体育类报纸、杂志和书籍、训练和比赛现场等。数据库是供人们查找和学习的工具,准确性是重中之重。纸质书刊都是经过严格的审查程序才出版的,准确性相对较高,是数据库参照的首要标准[4]。在训练和比赛现场,词频数据采集者可以获取更丰富、更鲜活的词汇信息,是其他采集手段无法替代的。
线上和线下的数据采集的同步开展弥补了线上数据采集的误差和线下据采集的速度,是合理有效的数据采集方式。
3 体育英语词频数据库的建设
体育英语词频数据库的建设以体育英语词汇使用频率的统计和分析为基础。为了确保词频数据的准确性,应该运用数据分析程序进行词频数据的统计和分析以规避主观因素对结果造成的误导,确保数据库的科学性。数据分析程序的应用需要专业人士的指导和协助,弥补体育英语研究者在技术方面的不足,是体育英语词频数据库建设的基础。
体育英语词频数据库的建设要通过线上数据库和线下数据库相结合的方式来完成,以线上数据库为主,线下数据库为辅。线上数据库主要包括基于电脑端的在线网站和基于移动端的应用软件。基于电脑端的在线网站的优势在于同一网页内容显示丰富、层次清晰,适用于某一群体某一时期内的集中学习。基于移动端的应用软件的优势在于操作灵活、便捷,适用于个体的长期学习。在线学习的最大优势就是能够通过网络把具有相同需求的人聚集在一起,因此,线上数据库的建设应该设计互动和问题反馈界面,便于人们探讨问题或提出对数据库的要求。线下数据库主要包括纸质书籍和电子书。纸质书籍适用于对电子产品不熟悉的群体,尤其是年长者更愿意阅读纸质书籍。电子书适用于习惯使用移动電子产品但网络不便的群体。
体育英语词频数据库的建设需要进行定期的维护。词频数据的收集应该是不间断的,每隔3~6个月应对网站和应用软件进行维护,每年应对纸质书籍和电子书中的内容进行更新。
4 体育英语词频数据库的应用与维护
体育英语词频数据库的服务对象主要是体育从业者和体育爱好者,受众群体比较年轻,以尚处于学习阶段的大学生居多。因此,数据库的网站应该推广到各个高等院校中,在高校校园网站中可以显示相关链接以便于学生了解和使用,同时,年轻人对移动端的使用较为普遍,数据库的应用软件应该适用于各种不同的手机应用系统。
语言的发展是不间断的,新生词汇不断出现,体育英语词频数据库的更新与维护是数据库能否持续发挥作用的关键。因此,体育英语词频数据库的建设是没有截止点的。数据库的更新与维护需要体育人才、英语人才和信息技术人才的通力合作,以半年为周期进行数据调研与更新。时时关注体育项目的技术动作、规则、赛事信息等方面的变化是必要的,但会花费大量的人力和物力。大数据为人们在数据库的更新与维护方面节省了时间和精力,为数据库能够持续地发挥作用提供了保障。
5 结语
大数据能够帮助人们更轻松地辨别出体育英语中的高频词汇和低频词汇,为人们在短时间内高效地习得体育英语词汇提供了便捷的渠道。当人们在体育英语方面遇到障碍时,基于大数据的体育英语词频数据库可以使人们及时地通过网络查找到所需要的体育英语词汇,成为实用价值很高的工具。大数据时代对于体育英语词频数据库的更新与维护提供了广阔的资源,对体育英语的持续研究是非常有益的。
参考文献
[1] 陈梅.体育英语词汇构成及使用特点分析[J].哈尔滨体育学院学报, 2015,33(1):74-77.
[2] 郑春丹.体育英语高频词汇研究及其在体育院校英语教学中的运用[J].校园英语, 2014(32):47.
[3] 李雪花.英语高频词汇习得水平与阅读水平相关性研究[J].常州工学院学报:社科版,2014,32(3):117-120.
[4] 李梦圆.英语高频词汇的采集方法[J].考试周刊, 2018(27):110.