汉字的大数据分析与可视化
2018-05-30木合塔尔·沙地克布合力齐姑丽·瓦斯力
木合塔尔·沙地克 布合力齐姑丽·瓦斯力
摘 要:学国语是每位中国人的神圣职责。作为少数民族,学国语的难点莫过于是声调。为了掀起学习国语的热潮、揭开汉字声调的神秘面纱,创新理念思路、创新方式方法对汉字进行大数据分析并可视化。首先自动获取Unicode汉字字符集中的所有汉字及其拼音,其后进行基于声调、多音字、同音字等多角度的分析并其可视化。分析发现,汉字中第四声调的最多;忽略声调有421种发音,前二十发音的汉字累计占比20%;加声调有1202种发音,前二十发音的汉字累计占比10%。虽然汉字入门比较难进,但学会常用字后,无需死记硬背海量词汇。
关键词:多音字 同音字 声调 基本汉字
中图分类号:TP392 文献标识码:A 文章编号:1003-9082(2018)05-0-02
引言
中华文化历史悠久,内涵丰富。能够代表中华文化的符号数量众多,其中最具有代表性的,一定非汉字莫属。这不仅因为汉字是中华文化的载体,更是因为汉字本身就是中华文化不可或缺的组成部分1。汉字是世界上最古老的文字之一,已有四千多年的历史。汉字的数量并没有准确数字,大约将近十万个,日常所使用的汉字只有几千个。
Unicode 是全球文字统一编码。它把世界上的各种文字的每一个字符指定唯一编码,实现跨语种、跨平台的应用。基本汉字Unicode編码范围为4E00-9FA5,其中:大陆(S)提出的汉字17124个,台湾(T)提出的汉字17258个;S与T的并集,即中国(C)提出的汉字为20158个。日本(J)提出的汉字为12157个,中国未提出的690个(Ja);韩国(K)提出的汉字为7477个,其中中国未提出的90个(Ka);Ja与Ka并集共744字2。
《国家中长期语言文字事业改革和发展规划纲要(2012-2020年)》提出了到2020年,普通话在全国范围内基本普及,汉字社会应用的规范化程度进一步提高,汉语拼音更好地发挥作用3。十九大报告提出“文化是一个国家、一个民族的灵魂。文化兴国运兴,文化强民族强。没有高度的文化自信,没有文化的繁荣兴盛,就没有中华民族伟大复兴” 4。
本文为了推广和普及国家通用语言文字、提高国民语言文字应用能力、弘扬传播中华优秀文化、掀起学习国语的热潮、揭开汉字的神秘面纱,创新理念思路、创新方式方法,对Unicode基本汉字字符集中的20902个汉字进行了统计分析与可视化。
一、分析与可视化
1.声调占比分析(含多音)
在基本汉字字符集的常用发音(即一字一音)声调占比分析5基础上,对含多音情况进行声调占比分析,如表1所示:
表中看到,在基本汉字字符集中,发音为第一声调的有7053个;第二声调的有7734个;第三声调的有4789个;第四声调的最多,即9830个;轻声或非汉字的有244个。在此基础上,进行占比分析,如图1所示:
图中看到,第一声调占比23.79%,第二声调占比26.08%,第三声调占比16.15%,第四声调占比33.15%,轻声或非汉字发音占比0.82%。
另外,发音总数有明显增大,即20902个汉字共有29650中发音,比常用发音多出了8748个音。各声调的发音数也相应的增加,其中第四声的增幅最大,即增加了3167个,第三声增加1418个,第二声增加2098个,第一声增加1969个,轻声或非汉字发音增加96个。
2.多音字分析
在基本汉字字符集20902个汉字中,多音字有6164个(有两个及以上发音),其中发音最多的前十汉字,如表2所示:
表中看到,有些汉字的发音包括非汉语拼音,如“欸”、“誒”等。
3.同音字分析
3.1不带声调情况
在基本汉字字符集20902个汉字中,共有421种不带声调的发音(即忽略声调),其中前十同音字如表3所示(表中每种发音只取前十汉字):
表中看到,读音为yi的汉字共有364个,前十同音字中每个发音对应的汉字数均超过200。
3.2带声调情况
在基本汉字字符集20902个汉字中,共有1202种带声调的发音(不考虑多音字情况),其中前十同音字如表4所示(表中每种发音只取前十汉字):
表中看到,读音为yì的汉字共有203个,比不带声调的yi减少了161个,前十带声调同音字中每个发音对应的汉字数均超过90。
4.同音字频率分布
4.1不带声调情况
对基本汉字字符集中20902个汉字的421种不带声调发音进行频率分布分析,如图2所示:
图中看到,频率最高的前二十个发音的汉字数占整个汉字的20%;yi,ji,yu,xi,zhi,li,yan,fu等八个发音的汉字占整个汉字的10%。
4.2带声调情况
对基本汉字字符集中20902个汉字的1202种带声调发音进行频率分布分析,如图3所示:
图中看到,频率最高的前二十个带声调发音的汉字数占整个汉字的10%;yì,lì,xī,yù,zhì,bì,jī,jì,qí,fú等八个发音的汉字占整个汉字的6%。
5.拼音云
5.1不带声调情况
绘制基本汉字字符集中20902个汉字的421种不带声调发音的拼音云图,如图4所示:
图中看到,yi,ji,yu,zhi,xi等包含最多同音词的不带声调发音以大字显示。
5.2带声调情况
绘制基本汉字字符集中20902个汉字的1202种带声调发音的拼音云图,如图5所示:
图中看到,yì,lì,xī,yù,zhì等包含最多同音词的带声调发音以大字显示。
结语
汉字的大数据非常博渊深奥,探渊索珠不易之事。本文只是对基本字符集中汉字的一知半解(因篇幅原因,除了声调占比分析外,其它部分没考虑一字多音情况)。学习汉字学的意义远不止于了解汉字的这些特征,通过汉字的深入研究,可以获得更多的灵感,学到更多的研究汉字的方法6。
中国文化起源于汉字,汉字对中华文明的传播起到了不可或缺的作用。它是中华民族和世界的共同财富,不仅给汉民族带来了文化的繁荣,也对我国其他少数民族的文化发展产生了深远影响。在几千年的历史当中,继续发展传播日本、韩国、越南、新加坡等国家,在他们的文字和文化发展中发挥了重要作用。
文化认同是一种群体文化认同的感觉。对外来文化价值的认同,足以瓦解一国的政治制度,民族的凝聚力;反之,人民对本国自身文化的强烈认同,既是该国自立于世界民族之林的伟大精神力量,又是使民族在激烈的国际竞争中立于不败之地。
学国语是每位中国人的神圣职责。作为少数民族,学国语的难点莫过于是声调。经过分析发现,汉字中第四声调的最多,忽略声调时有421种发音,考虑声调有1202种发音。虽然汉字入门比较难进,但学会常用字后,无需死记硬背海量词汇。作为中华文化的传承人,“要以科学武装自己、把文化自信作为底气,发展中国特色社会主义文化”4是我们不可推卸的责任。
参考文献
[1]王立.汉字的强大生命力源自哪里?[EB/OL].(2017-11-30)[2017.12.4].光明日报微信平台: http://mp.weixin.qq.com/s/g3zVyAW0_Kq_VqcB_Kfcsg.
[2]汉典.汉字简介. [EB/OL].[2017.12.4].http://www.zdic.net/appendix/f21.htm.
[3]360百科.《國家中长期语言文字事业改革和发展规划纲要(2012-2020年)》. [EB/OL].[2017.12.4]. https://baike.so.com/doc/8706653-9028846.html.
[4]习近平.中共十九大开幕,习近平代表十八届中央委员会作报告(直播全文).[EB/OL].(2017-10-18)[2017.12.4].http://www.china.com.cn/cppcc/2017-10/18/content_41752399.htm.
[5]木合塔尔·沙地克,布合力齐姑丽·瓦斯力. 用Python数据分析方法进行汉字声调频率统计分析[J].电脑知识与技术, 2017年12月(已录用).
[6]百度文库.汉字学.[EB/OL].(2011-01-09)[2017.12.4].https://wenku.baidu.com/view/f3f0e52558fb770bf78a55ba.html