APP下载

一种改进的哈萨克文编码字符处理方法

2017-10-11蒋同海艾孜麦提艾尼瓦尔

中文信息学报 2017年4期
关键词:哈萨克字符字形

董 军,蒋同海,艾孜麦提·艾尼瓦尔,程 力,徐 春

(1. 中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011;2. 中国科学院大学,北京 100049;3. 新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011;4. 新疆财经大学 计算机科学与工程学院,新疆 乌鲁木齐 830012)

一种改进的哈萨克文编码字符处理方法

董 军1,2,3,蒋同海1,3,艾孜麦提·艾尼瓦尔1,2,3,程 力1,3,徐 春1,2,4

(1. 中国科学院 新疆理化技术研究所,新疆 乌鲁木齐 830011;2. 中国科学院大学,北京 100049;3. 新疆民族语音语言信息处理实验室,新疆 乌鲁木齐 830011;4. 新疆财经大学 计算机科学与工程学院,新疆 乌鲁木齐 830012)

哈萨克文;编码字符;Unicode;OpenType

Key words: Kazakh; coded character; Unicode; OpenType

收稿日期: 2016-03-09 定稿日期: 2016-05-18

基金项目: 中科院西部之光项目(YG2012114);中科院仪器设备功能开发技术创新项目(YBXM-2014-04)

1 引言

我国哈萨克族人口约146万,其中绝大多数生活在新疆的伊犁哈萨克自治州、木垒哈萨克自治县和巴里坤哈萨克自治县[1]。哈萨克文是新疆哈萨克族群众使用的主要文字。根据我国宪法和民族区域自治法,哈萨克文和汉文在哈萨克族自治地方并行使用,在自治地方的行政、司法、教育、新闻出版等领域发挥着重要作用。另外,随着我国与哈萨克斯坦等国家贸易往来和文化交流的日益频繁,哈萨克文在我国的国际交流中也发挥着重要作用。

2 哈萨克文的书写习惯

哈萨克文继承了阿拉伯文从右向左书写和连写的书写习惯。所谓连写即字母在书写的时候需要与前后相邻的字母连接。这导致每个字母有多种书写形式,如图1所示。字母在书写时必须根据自身及其前后字母的连接特性选择正确的书写形式,如图2所示。

图1 哈萨克文字母的四种书写形式

图2 三个相邻哈萨克文字母的连写

3 哈萨克文编码字符处理的现状

国际标准Unicode对哈萨克文处理提供了基本的支持。Unicode在阿拉伯文编码字符的基本区(字符编码: 0600-06FF)包含了全部哈萨克文字母以及符号的编码字符。其中编码字符(0674)、(0675)、(0676)、(0677)和(0678)专用于处理哈萨克文字母[2-3]。此外,Unicode定义的用于处理字母从右向左书写的双向算法[4],以及用于处理字母连写的字符连写规则也适用于哈萨克文字母的处理[5]。但除字母独立书写形式(FBDD)的编码字符外,Unicode没有定义字母其它书写形式的编码字符[6-7]。我国于2008年颁布的国家标准GB 21669定义了字母各种书写形式的编码字符[8]。但是Unicode和GB 21669都没有提供字母特殊书写习惯的处理方法。

当前,在哈萨克文信息处理工作中,普遍采用字母替换法处理字母

。字母替换法即使用另外四个哈萨克文字母

与字符

结合表示哈萨克文字母

[10]

。例如,

(我们)用字母替换法就表示为

。我们分析了新疆人民政府网哈萨克文版、昆仑网哈萨克文版、天山网哈萨克文版、人民网哈萨克文版等政府主办的哈萨克文网站使用的字符编码,它们无一例外都采用字母替换法处理字母

。图4是采用字母替换法输入单词

(我们)在Windows 7记事本应用程序中的显示结果。字母替换法产生的哈萨克文文本看上去是正确的,因为人们在阅读的时候不会觉察到字母被替换。字母替换法的实现很容易,主流操作系统只需要安装哈萨克文输入法,以及包含哈萨克文字母字形及其连写规则的OpenType字体,就可以具备哈萨克文处理能力。

表1 字母替换前后的单词排序

4 改进方法

4个分区根据不同标高主要包括C组填料回填、A、B组填料和级配砂砾垫层回填。填筑采用薄层轮加法,填筑时,每层松铺厚度不得超过30cm,由路基中心向两侧分层填筑压实。

表2 改进后哈萨克文单词排序

表3 字母的全部书写形式

表4 处理字母各种书写形式和字形需要的判断和操作

5 设置字形替换规则

正确设置字形替换规则是哈萨克文OpenType字体制作的关键。有很多工具可以用来设置OpenType字体中的字形替换规则,例如,VOLT、AFDKO、Fontlab等。字形替换规则由若干字段构成,所有类型字形替换规则拥有的字段是相同的。制作哈萨克文OpenType字体需要分别对六个规则的三个字段进行设置。这六个规则是,三个字段是DIRECTION、SUBSTITUTION和CONTEXT。

每种类型的规则都有特定的用途。规则用于设置字母字形与各种书写形式字形的替换。规则用于设置相邻字形与合体字形的替换。规则用于设置字形上下文环境满足特定条件时的替换。另外,规则是按顺序执行的,后面的规则将在前面规则执行结果的基础上继续执行。因此,同样的规则按不同的顺序执行,将得到不同的字形替换结果。为了得到我们希望的结果,应当先执行规则,然后执行规则,最后执行规则

6 结论

[1] 中华人民共和国国家统计局.第六次人口普查数据.[EB/OL]. http://www.stats.gov.cn/tjsj/.html,2015-12-16.

[2] Unicode 8.0.0 Character Code Charts. Arabic [EB/OL].http://www.unicode.org/charts/PDF/U0600.pdf,2015-12-16.

[3] 陈壮. 中国在ISO/ IEC JTC1/ SC2 的活动与中文编码的国际标准化[J]. 中文信息学报, 2007, 21(4): 122-128.

[4] Unicode Bidirectional Algorithm.[EB/OL]. http://www.unicode.org/reports/tr9/tr9-33.html,2015-12-16.

[5] The Unicode Standard Version 8.0.0-Core Specification, Middle East-I Modern and Liturgical Scripts Eastern Script [EB/OL].http://www.unicode.org/versions/Unicode8.0.0/ch09.pdf,2015-12-20.

[6] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-A[EB/OL].http://www.unicode.org/charts/PDF/UFB50.pdf,2015-12-16.

[7] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-B[EB/OL].http://www.unicode.org/charts/PDF/UFE70.pdf,2015-12-20.

[8] 全国信息技术标准化技术委员会.GB 21669-2008,信息技术 维吾尔文、哈萨克文、柯尔克孜文编码字符集[S].北京: 中国标准出版社,2008: 4.

[9] 肖明,胡金柱,赵慧. 字形技术及OpenType字体文件格式研究[J]. 中文信息学报, 1999, 13(6): 54-61.

[10] 木合亚提·尼亚孜别克, 古力沙吾利. 哈萨克文信息处理的现状和发展方向[J]. 中文信息学报, 2010, 24(4): 111-114.

[11] Microsoft Typography Home. OpenType Registered features[EB/OL].http://www.microsoft.com/typography/otspec/features_ae.html,2015-12-20.

董军(1975—),博士,主要研究领域为自然语言处理、软件测试。

E-mail: dongjun@ms.xjb.ac.cn

蒋同海(1963—),通信作者,博士,主要研究领域为计算机应用技术、自然语言处理。

E-mail: jth@ms.xjb.ac.cn

艾孜麦提·艾尼瓦尔(1988—),硕士,主要研究领域为自然语言处理。

E-mail: azmat@ms.xjb.ac.cn

An Improved Kazakh Letter Representation

DONG Jun1,2,3, JIANG Tonghai1,3, Aizimaiti Ainiware1,2,3, CHENG Li1,3XU Chun1,2,4

(1. The Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Sciences, Urumqi, Xinjiang 830011, China;2. University of Chinese Academy of Sciences, Beijing 100049,China;3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi, Xinjiang 830011, China;4. College of Computer Science and Engineering, Xinjiang University of Finance and Economics, Urumqi, Xinjiang 830012, China)

1003-0077(2017)04-0094-06

TP391

A

猜你喜欢

哈萨克字符字形
异体字字形类似偏旁的互用类型综合字图构建
阿依努尔——献给一位哈萨克支教女孩
论高级用字阶段汉字系统选择字符的几个原则
字符代表几
一种USB接口字符液晶控制器设计
图片轻松变身ASCⅡ艺术画
天马双翼(一):托忒文在哈萨克与清朝交往过程中的媒介作用
甲骨文中的字形直立化二则
复习生字字形的方法
添一笔变个字