“一带一路”高新技术汉语词“VR”语料模式研究
2018-05-09区诗柔徐雅静郑世珏
区诗柔,肖 遥,刘 聪,徐雅静,郑世珏
(华中师范大学 计算机学院,湖北 武汉 430079)
2017年5月在北京召开的“一带一路”国际合作高峰论坛会上,习近平总书记从世界形势和人类命运的角度观察思考,描绘了人类命运共同体建设的美好画卷,形成我国长期国家战略的重大布局。“一带一路”沿线约64个国家,使用的语言约2 488种,这使汉语教学和我国高新技术推广面临巨大挑战。因此,要采用新思路和手段进行这类技术性汉语词教学。
自2013年“一带一路”倡议提出至今,关于“一带一路”与汉语教学的论文与日俱增,国内的专家学者从不同角度和方向进行了大量研究:宋阳等[1]提出“一带一路”战略的实施需要语言铺路;陈思琦[2]调研得出在“汉语热”潮流下,学习汉语的人数估计已过亿,目前已有100多个国家近2 500多所大学开设了汉语课程;刘君[3]提出当今以高铁等大型建设工程为代表的工业文化代表了我国的高科技水平,成为当代中国文化的代表性内容,这种科技文化十分值得传播,并且“一带一路”潜在的文化圈受众规模庞大,可以利用信息化方法打造智能的文化一体化管理模式以及利用网络手段搭建虚拟的文化设施,实现多媒体、多渠道、多维度的跨文化交流法;黄方方[4]认为汉语教育资源面临重带轻路的问题,我国孔子学院的分布缺少战略,离国家“一带一路”战略布局相距甚远;张日培和张露等[5-6]提出智库交流是民间外交的重要方式,是“一带一路”人文交流的重要内容,因此培育国家语言文字智库并加强沿线国家在语言、文化以及教育领域的政策沟通,是“一带一路”语言规划的迫切任务。
以上研究结果说明了采用新技术进行“一带一路”高新技术汉语词教学以及对其建立资源库的必要性,且关于这类教学新方法的研究仍有欠缺。针对这一问题,本文结合相关成果,面向“一带一路”,对高新技术汉语词进行分析,建立起一种高新技术汉语词数字媒体库,应用于一个高新技术汉语词新型教学系统,并结合VR技术生成一种模拟环境,给学习者带来极强沉浸感,帮助沿线人民便捷高效地学习高新技术汉语词并掌握其使用语境。
1 系统需求分析
1.1 系统结构
本文所建立的面向“一带一路”的高新技术汉语词教学系统分为两个子系统:高新技术汉语词学习系统以及高新技术汉语词管理系统。在学习系统中,任何人都可以注册普通用户并登录,普通用户可安装不同版本的系统,登录后可学习词汇,其学习情况(次数、时间、方式)会被记录。在管理系统中,管理员可以随时使用密码登录并增加、修改和删除词条。系统结构如图1所示。
图1 系统结构
1.2 词语及语种的选取规则和词条设计流程
系统主要面向“一带一路”沿线人民,因此如何选择词语、选择语种及设计词条能够方便他们高效地掌握汉语词汇十分关键。以下描述词语及语种的选取规则和词条设计流程。
1.2.1 词语及语种的选取规则
(1)候选词语选取。
候选词语选取的来源基于国家语委语言资源网提供的语料库。首先,根据当前我国的主要高新技术建设项目及“一带一路”沿线20国青年于2017年5月评选出的中国“新四大发明”,系统的汉语词涉及对象选出12个类别:“共享单车”“航天工程”“北斗导航”“桥梁建设”“孔子学院”“高速铁路”“机器人”“无人机”“网购”“清洁能源”“支付宝”“针灸”。然后对每一个类别,从国家语委语言资源网中人工挑选出100个汉语词。
(2)候选词语与对应类别相关性计算。
按照候选词与对应类别共现性的范例个数作为分析指标去计算它们的相关性。统计并计算两个词语在国家语委语言资源网的语料库中单独出现的频率和同时出现的频率,根据互信息方法的公式计算其相关性,其数学模型如下:
其中,分子是两个词汇共同出现的概率,分母是两个词汇分别单独出现的概率。
(3)用矩阵数据分析法计算词语得分。
选取词语的因素(按重要性降序排列)有:词语与对应类别的相关性(a)、词语在国家语委语言资源网的语料库中出现的频率(b)、词语在网络上出现的频率(c)。根据3个因素的重要性确定对比分数,自己对比的地方打0分,以 “行”为基础,逐个和“列”对比,若“行”比“列”重要,给正分,否则取倒数。组成数据矩阵如表1所示。
表1 数据矩阵
根据选择因素的权重计算词语得分,公式如下:
(4)词语确定。
根据计算结果,将各词语按照得分降序排列,每个类别挑选出前20个词语左右,共300个词语。
(5)语种界定。
“一带一路”沿线国家使用的语言频率最高的前5种语言依次为汉语、阿拉伯语、英语、俄语、德语,因此选取这5种语言对词语进行描述。
1.2.2 词条设计
系统对每个汉语词建立起汉语、阿拉伯语、英语、俄语、德语这5种语言的对照词表,并对每个词语进行配音及录制音频。
因此,每个高新技术词汇有汉语、英语、俄语、阿拉伯语、德语物种语言的描述,每种语言有对应的音频,每个词汇有相应的视频,数据库存放音频和视频的URL即可。
1.3 开发与运行环境
(1)系统的开发采用LAMP网站架构,其组成软件均开放源码。在Linux的环境下采用MySQL建立数据库、创建视图并添加300个词语,再用PHP编写系统接口,最后启动Apache以运行系统。
(2)系统采用B/S网络结构模式,它将系统功能实现的核心部分集中到服务器上,简化了系统的开发、维护和使用。
(3)用户佩戴VR眼镜后,可通过眼球定位词语3秒选择需要学习的词语。VR眼镜通过眼球追踪技术得到用户选择的词语,向系统接口发送请求从而调用接口从数据库中检索出该词语的相关数据。
(4)系统在目前流行的新型智能手机、iPad等环境下均可结合VR眼镜使用。在手机上打开系统,将手机横向放置于VR眼镜中,用户佩戴上VR眼镜即可进行学习。
2 数据库开发
2.1 概念结构设计
通过需求分析阶段所得的应用需求,设计概念模型,如下为数据库对象属性E-R关系(见图2)。
2.2 逻辑结构设计
根据E-R图,设计出以下逻辑模型,有下划线的属性为主键。
文学作品只有不断攀登精神高峰,才能在展现精彩人世的同时,体现美学价值,保持艺术生命力,网络文学、传统文学概莫能外。
高新技术词汇(词号、类别号、汉语、英语、俄语、德语、阿拉伯语、汉语音频、英语音频、俄语音频、德语音频、阿拉伯语音频、视频)
用户(用户号、姓名、密码、操作权限)
管理员(管理员号、姓名、密码、操作权限)
系统(版本号、类别)
学习情况记录(情况记录号、学习时间、学习次数、学习方式、高新技术词汇词号、用户号)
类别(类别号、类别名)
2.3 链接及索引设计
(1)情况记录表与高新技术词汇表、用户表都分别存在多对多关系,因此在情况记录表与高新技术词汇表、用户表之间建立链接。在情况记录表中属性word_id、user_id都是外键,分别作为链接高新技术词汇表与情况记录表、用户表与情况记录表的桥梁,从而实现表间的关联查询,并避免数据冗余。
(2)对每个表的主键、外键建立索引,另外由于高新技术词汇可被用户搜索,因此对词汇的汉语、英语、俄语、德语、阿拉伯语属性建立索引,从而提高数据查询速度。
图2 数据库对象属性E-R关系
3 数据库设计的其他方面
3.1 数据格式统一规范
为合理使用有限的存储空间,并确保数据的传输速度,对于系统中使用到的所有数据,均需遵循以下格式规范(见表2)。
表2 数据格式规范
3.2 数据统一处理过程
为保证系统中所有数据符合格式规范,对于收集的数据,均先进行如下处理过程。
(1)将所有数据转换成符合规范的格式;将图片、动图和视频转换成符合规范的分辨率。
(2)对音频和视频剪辑,去除无用部分。
(3)若数据的大小超过规范,对于文字,人为进行删改;对于其他,则进行压缩。
(4)对音频和视频消除杂音。
(5)对于文字,直接将内容储存至数据库;对于其他,先上传至服务器,再将相应URL存放至数据库。
4 系统测试
“高速铁路”汉语词条表如图3所示,可见属性Num是汉语词唯一标识的主码,类别“高速铁路”的Sort为6,现有20个与“高速铁路”相关的词汇,表中存储了每个词汇对应的5种语言以及每个语种所对应的音频和描述该词条的短视频,用户佩戴VR眼镜后观看类别“高速铁路”中的词语“高速列车”的短视频如图4所示。
5 结语
本文中的教学系统结合VR技术为“一带一路”背景下的汉语教学以及高新技术的推广提供了新的方法,是一种帮助沿线人民高效便捷地学习高新技术汉语词的新尝试,还需要不断完善和开发,便于更有利地向世界各国推广我国的高新技术,促进我国与沿线国家工程建设领域交流合作。
图3 高速铁路汉语词条
图4 高速列车
[参考文献]
[1]宋阳,黄宣方.“一带一路”背景下的汉语与中国文化传播研究综述[J].才智,2017(4):227.
[2]陈思琦.一带一路下对外汉语教学的新方向[J].课程教育研究,2015(19):43-44.
[3]刘君.“一带一路文化共同体”与汉语国际教育[J].语文学刊,2015(22):123-124.
[4]黄方方.“一带一路”沿线国家汉语教育状况探析[J].河南师范大学学报(哲学社会科学版),2017(3):102-106.
[5]张日培.服务于“一带一路”的语言规划构想[J].云南师范大学学报(哲学社会科学版),2015(4):48-53.
[6]张露,马丽.数据库设计[J].安阳工学院学报,2007(4):76-79.