一种改进的哈萨克文编码字符处理方法
2017-10-11蒋同海艾孜麦提艾尼瓦尔
董 军,蒋同海,艾孜麦提·艾尼瓦尔,程 力,徐 春
(1. 中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011;2. 中国科学院大学,北京 100049;3. 新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011;4. 新疆财经大学 计算机科学与工程学院,新疆 乌鲁木齐 830012)
一种改进的哈萨克文编码字符处理方法
董 军1,2,3,蒋同海1,3,艾孜麦提·艾尼瓦尔1,2,3,程 力1,3,徐 春1,2,4
(1. 中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011;2. 中国科学院大学,北京 100049;3. 新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011;4. 新疆财经大学 计算机科学与工程学院,新疆 乌鲁木齐 830012)
哈萨克文;编码字符;Unicode;OpenType
Key words: Kazakh; coded character; Unicode; OpenType
收稿日期: 2016-03-09 定稿日期: 2016-05-18
基金项目: 中科院西部之光项目(YG2012114);中科院仪器设备功能开发技术创新项目(YBXM-2014-04)
1 引言
我国哈萨克族人口约146万,其中绝大多数生活在新疆的伊犁哈萨克自治州、木垒哈萨克自治县和巴里坤哈萨克自治县[1]。哈萨克文是新疆哈萨克族群众使用的主要文字。根据我国宪法和民族区域自治法,哈萨克文和汉文在哈萨克族自治地方并行使用,在自治地方的行政、司法、教育、新闻出版等领域发挥着重要作用。另外,随着我国与哈萨克斯坦等国家贸易往来和文化交流的日益频繁,哈萨克文在我国的国际交流中也发挥着重要作用。
2 哈萨克文的书写习惯
哈萨克文继承了阿拉伯文从右向左书写和连写的书写习惯。所谓连写即字母在书写的时候需要与前后相邻的字母连接。这导致每个字母有多种书写形式,如图1所示。字母在书写时必须根据自身及其前后字母的连接特性选择正确的书写形式,如图2所示。
图1 哈萨克文字母的四种书写形式
图2 三个相邻哈萨克文字母的连写
3 哈萨克文编码字符处理的现状
国际标准Unicode对哈萨克文处理提供了基本的支持。Unicode在阿拉伯文编码字符的基本区(字符编码: 0600-06FF)包含了全部哈萨克文字母以及符号的编码字符。其中编码字符(0674)、(0675)、(0676)、(0677)和(0678)专用于处理哈萨克文字母[2-3]。此外,Unicode定义的用于处理字母从右向左书写的双向算法[4],以及用于处理字母连写的字符连写规则也适用于哈萨克文字母的处理[5]。但除字母独立书写形式(FBDD)的编码字符外,Unicode没有定义字母其它书写形式的编码字符[6-7]。我国于2008年颁布的国家标准GB 21669定义了字母各种书写形式的编码字符[8]。但是Unicode和GB 21669都没有提供字母特殊书写习惯的处理方法。
当前,在哈萨克文信息处理工作中,普遍采用字母替换法处理字母
。字母替换法即使用另外四个哈萨克文字母
与字符
结合表示哈萨克文字母
[10]
。例如,
(我们)用字母替换法就表示为
。我们分析了新疆人民政府网哈萨克文版、昆仑网哈萨克文版、天山网哈萨克文版、人民网哈萨克文版等政府主办的哈萨克文网站使用的字符编码,它们无一例外都采用字母替换法处理字母
。图4是采用字母替换法输入单词
(我们)在Windows 7记事本应用程序中的显示结果。字母替换法产生的哈萨克文文本看上去是正确的,因为人们在阅读的时候不会觉察到字母被替换。字母替换法的实现很容易,主流操作系统只需要安装哈萨克文输入法,以及包含哈萨克文字母字形及其连写规则的OpenType字体,就可以具备哈萨克文处理能力。
表1 字母替换前后的单词排序
4 改进方法
4个分区根据不同标高主要包括C组填料回填、A、B组填料和级配砂砾垫层回填。填筑采用薄层轮加法,填筑时,每层松铺厚度不得超过30cm,由路基中心向两侧分层填筑压实。
表2 改进后哈萨克文单词排序
表3 字母的全部书写形式
表4 处理字母各种书写形式和字形需要的判断和操作
5 设置字形替换规则
正确设置字形替换规则是哈萨克文OpenType字体制作的关键。有很多工具可以用来设置OpenType字体中的字形替换规则,例如,VOLT、AFDKO、Fontlab等。字形替换规则由若干字段构成,所有类型字形替换规则拥有的字段是相同的。制作哈萨克文OpenType字体需要分别对六个规则的三个字段进行设置。这六个规则是
每种类型的规则都有特定的用途。规则
6 结论
[1] 中华人民共和国国家统计局.第六次人口普查数据.[EB/OL]. http://www.stats.gov.cn/tjsj/.html,2015-12-16.
[2] Unicode 8.0.0 Character Code Charts. Arabic [EB/OL].http://www.unicode.org/charts/PDF/U0600.pdf,2015-12-16.
[3] 陈壮. 中国在ISO/ IEC JTC1/ SC2 的活动与中文编码的国际标准化[J]. 中文信息学报, 2007, 21(4): 122-128.
[4] Unicode Bidirectional Algorithm.[EB/OL]. http://www.unicode.org/reports/tr9/tr9-33.html,2015-12-16.
[5] The Unicode Standard Version 8.0.0-Core Specification, Middle East-I Modern and Liturgical Scripts Eastern Script [EB/OL].http://www.unicode.org/versions/Unicode8.0.0/ch09.pdf,2015-12-20.
[6] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-A[EB/OL].http://www.unicode.org/charts/PDF/UFB50.pdf,2015-12-16.
[7] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-B[EB/OL].http://www.unicode.org/charts/PDF/UFE70.pdf,2015-12-20.
[8] 全国信息技术标准化技术委员会.GB 21669-2008,信息技术 维吾尔文、哈萨克文、柯尔克孜文编码字符集[S].北京: 中国标准出版社,2008: 4.
[9] 肖明,胡金柱,赵慧. 字形技术及OpenType字体文件格式研究[J]. 中文信息学报, 1999, 13(6): 54-61.
[10] 木合亚提·尼亚孜别克, 古力沙吾利. 哈萨克文信息处理的现状和发展方向[J]. 中文信息学报, 2010, 24(4): 111-114.
[11] Microsoft Typography Home. OpenType Registered features[EB/OL].http://www.microsoft.com/typography/otspec/features_ae.html,2015-12-20.
董军(1975—),博士,主要研究领域为自然语言处理、软件测试。
E-mail: dongjun@ms.xjb.ac.cn
蒋同海(1963—),通信作者,博士,主要研究领域为计算机应用技术、自然语言处理。
E-mail: jth@ms.xjb.ac.cn
艾孜麦提·艾尼瓦尔(1988—),硕士,主要研究领域为自然语言处理。
E-mail: azmat@ms.xjb.ac.cn
An Improved Kazakh Letter Representation
DONG Jun1,2,3, JIANG Tonghai1,3, Aizimaiti Ainiware1,2,3, CHENG Li1,3XU Chun1,2,4
(1. The Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Sciences, Urumqi, Xinjiang 830011, China;2. University of Chinese Academy of Sciences, Beijing 100049,China;3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi, Xinjiang 830011, China;4. College of Computer Science and Engineering, Xinjiang University of Finance and Economics, Urumqi, Xinjiang 830012, China)
1003-0077(2017)04-0094-06
TP391
A