客家语库系统设计及初步数据分析实现
2022-07-11黄鸿哲黄舒婷邵敬毅
黄鸿哲 黄舒婷 邵敬毅
(1.嘉应学院 广东省梅州市 514011 2.上沙中学 广东省深圳市 518048 3.天津财经大学 天津市 300222)
1 背景
普通话现在是中华人民共和国的官方语言,这是妇孺皆知的。普通话作为官方语言是一件值得庆幸的事情,因为这统一了中国人民的交流语言,使得各地各名族沟通变得有一定的保障。孩子们从小学习普通话,人人都用普通话交流。然而,我们不可忽略的一个实际性问题就是,现在的小孩从幼儿园开始就接收普通话的熏陶,这毅然不是一件坏事,但凡事都有两面性,我们也应该从另外一个发现问题;孩子们从小忽视方言学习,是否不用日常练习就可以脱口而出呢?这显然不是,问卷调查表明(图1),对于这代年轻人来说,很多客家人只是听懂客家语言而不会说客家话。那再经过几代人的迭代,客家语言会不会就此被遗忘呢?甚至一些客家优秀传统是否也会被人们所忘记呢?按照当前发展趋势,这一个问题还是值得所思的。为此,客家语库的存在就是为了人民在学习普通话的同时,也可以对客家语言进行了解和练习;而不至于想要学习客家语言而没有平台资源。
图1:问卷调查结果
2 系统语音库原理
智能识别音频技术的发展是人工智能和云计算发展的结果。从翻译服务到口译服务是翻译转化的关键。自音频识别技术发展以来,尤其是中小型词汇量的非特定人音频识别系统的识别准确率高达98%,而特定的音频识别系统的识别率更高。如此高的辨别率已经能够应付常见应用需求了,由于大规模集成电路的不断发展,这些抽象的语音识别系统也可以制成特定芯片,用于大规模生产。科大讯飞的语音引擎将文本转换为TTS 语音文本存储起来,供阅读者语音阅读。现在你也可以用Android 手机安装科大讯飞语音库,可以直接转换和识别语音云,语音翻译的效果也很好。如图2 所示。
图2:音频处理流程
3 成为客家语库用户
所以,我们开发了客家语音资料库系统,由黄鸿哲负责平台开发工作,黄舒婷负责客家语音词条收集,邵敬毅负责数据分析工作。当然,生活在现在的社会上,人人都需要一个身份标识,这不仅仅是个人身份的证明,也是一个通行证和后期处理事务的重要依据,因为身份标识和个人是一对一的关系,有着极大的信服力。在客家语库平台系统中,用户标识也是你在该系统的通行证,倘若是游客身份,那么您将无法体验客家语库系统的所有功能,这将会影响您在该系统的用户使用体验。用户通行证也是为了更加方便您对客家语库系统的使用以及记录您学习客家语言过程,另一方面也是为了该系统对用户的统一管理,让客家语库系统更好的为大家服务。成为客家语库新用户只需要点击注册按钮,待页面跳转后填写相关学习即可(国家级保密,不会透露个人信息)成为客家语库用户后将会赠与客家学习资料一份。如图3 所示。
图3:部分学习资料
4 客家语库练习系统
好记性不如烂笔头,学习客家方言也是如此,客家语库提供了听、练一体的练习系统,在学习客家话的同时,为了巩固学习的客家语言和拓展对客家语言的界限,练习系统会随机提供一条客家语音,用户可以根据自己所听到的内容翻译成对应的汉字信息后提交,提交后系统将数据提交至审核系统,通过后成为信息流输入到该条音频对于的提交表中,在经过系统信息过滤展现在该条音频对应的提交区反馈给用户查看,查看后系统还会根据每条提交的支持数形成降序展现,这是为了激发用户的好胜心,让用户认真提交而设置。如图4 和图5 所示。
图4:数据I/O 流图
图5:用户与提交的实体联系
5 数据分析和解释
如图6 所示,根据清洗后的有效数据,统计用户的发音和音调得分。颜色越深,数字越多。直观地获得每个类别的评分频率。在1732 次评估中,5 分的评论占比最高,而用户的发音得分最高。
图6:发音、音调的评分分布直方图
6 客家辞典
存储翻译语库的大数据集中化趋势。存储翻译语库、术语语库等资源集中在中央服务器的文件中,将具有不同搜索习惯的用户通过网络连接到服务器进行有针对性的辨别,检索和维护更加方便。另一方面,通过资源数据集成,也是实现对语库数据知识产权的有效保障,更好地顺应当下网络数据安全的趋势。在用户索检对应客家语音的时候会有专业的语音和索检关键词的相对于解析,还有协助用户学习的发音标准。如图7 所示。
图7:客语辞典语音转译界面
7 有关于其他客家文化地区
可能大家耳熟能详的客家文化的典型代表为有着中国客都之称的广东省梅州市,但是我们也应该知道,客家文化不在广东梅州。客家文化包括客家话,客家民俗,戏剧等多个方面。其中广东省的惠州、河源、深圳等地级市;江西,福建等多个省会;甚至远至印度尼西亚、马来西亚、日本、台湾等地区都有客家文化存在的身影。客家文化分布广泛,影响深远,有三个经中华人民共和国文化部批准的国家客家文化生态保护试验区。而客家系统根据大数据也设立了其他地区客家文化的特色资料学习,也利用python 爬虫技术收集了各个地区客家文化的主要官网地址供用户学习和揽阅。
8 基于客家语库数据的补充和总结
8.1 数据的填充
对于一个系统核心而言,逻辑功能必不可少,其次就是大量的准确而具有科学性的数据。本系统不仅利用某些计算机技术进行数据的开掘,另一方面也是进行了实实在在的大量的数据搜素匹配,然后进行过滤打量,对数据本身进行筛选和优化,才给予录入该系统的条件;然而这样庞大的工作量仅仅有开发团队来收集和处理显然应付不了大后期的系统需求;因此团队还开发了线上注音的功能,如图8 所示,这一举措也可以让热爱客家文化的用户对我们的客语系统进行数据的补充,从而缓解开发团队本就紧张的时间和成本资源,也能收集更多更广的客家文化,让开发团队和用户一起进行客家文化的运用和传承。
图8:线上注音
不过,收集的数据可能会鱼龙混杂,因此还是需要专业的客家后台管理人员进行对用户提交的注音进行审核后在觉得是否录用用户的提交,这样不仅能保证数据的可靠性,也还是可以从一定的角度缓解开发团队的压力。
8.1.1 应添加的语库后台
对于现有的语库系统,从具有用户权限的练习系统到对用户开源的客家辞典;无论是查看客家资料,还是转换到其他客家官网,都可以进一步的精述为致至用户使用的一个系统。除开添加功能外,系统难免会对客语系统现有的数据进行一些管理的更改,倘若从源码底层去动用这些庞大的数据流,先不谈及工作量,也会导致管理效率变得及其的底下,因为要进入源码层,需要预先配置好的系统环境变量以及源码等条件,光是系统环境变量和源码这两项,开发人员不可能随身携带这些现成条件。所以,我们应该给语库系统添加理论上的可视化系统后台数据管理界面以及功能。
8.1.2 语库后台功能介绍
(1)语库练习系统:在众多的用户提交答案中,难免有些用户会提交一些系统过滤不了的不良的、不合乎正常逻辑的答案,那么我们就需要将这些提交的答案进行一个删除操作
(2)用户权限管理:基于语库练习系统的不良用户提交,倘若该用户多次利用系统本身具有的过滤功能的BUG 进行一个提交答案,影响正常用户的使用,那我们会给予撤销该用户的用户权,并且对该用户进行用户注册时填写的联系信息进行一个短信警告。
(3)客家辞典:一个系统好坏首先看功能性能方面实现的如何,其次是该系统归属下的数据量海纳多少,客家辞典就如同字典,数据信息必须齐全,用户使用体验才会良好。对于添加数据,开发人员亦然可以从底层数据库进行添加,但这样就会显得冗余,故该数据后台应该具备上传文件的功能以导入数据,不必动用底层代码而产生更多的系统问题。
(4)审核在线注音:数据可以有开发人员进行添加,但不同的人,见识会有差异,项目团队的认知并不是十全十美的,或许有些用户正好见识过项目组所未见识的,那么这些用户就可以行对客家知识的一个提交。提交的数据汇流到语库后台,由专业组进行一个审核与处理音频,确定用户提交的价值性后再给予纳入系统数据。
8.2 总结
8.2.1 客家语言文化
世界上现在仅存约六千种语言,约是上世纪末的一半,像不少的动植物一样,有些弱势语言只剩下几个人讲,马上就要淘汰。但是若以人口计算,客语在头三十名内,照算是没那么快会消失的。然而,有资料显示,客家语被认为是地球上衰落最快的语言之一。近20 年,全球会说客家话的人由6000 多万减少到不足3000 万,流失速度惊人。客家语言文化历史悠久,虽是一方语言,但也是博大精深的中华文化缺一不可的一部分,也算是特色文化之一,承载了文化发展的脚印,具有重大的文化意义。而这种语言的形成,则是客家人向客家群体归属的基本条件。客家方言作为一种文化现象,不是孤立的,而是深深植根于客家民系的总体文化之中,昭示着自己祖先、来源的一面明镜。
8.2.2 客家语库
(1)客家语库提供汉转译客家语音的功能供给用户使用。
(2)系统配备的练习系统方便用户的学习。
(3)系统收集了各地区的客家方言,供给用户参考差异。
(4)考虑到客家系统的往后发展,客家系统可考虑类似的论坛功能,为客家文化。小白和客家文化热衷者提供交流平台,方便用户之间的沟通。