信息技术藏文编码字符集扩充集A
2020-02-18扎西
扎西
一、背景
1997年,我国的藏文小字符集(基本字符集,简称基本集)被收入了国际标准ISO/IE 10646 《信息技术 通用多八位编码字符集》(对应的我国国家标准编号为GB 13000)。同年,我国发布了国家标准GB/T 16959-1997《信息技术信息交换用藏文编码字符集基本集》。
由于藏文本身的书写特点和现阶段我国技术水平的限制,仅靠藏文基本集,难以彻底解决 藏文信息处理和交换问题。为此,我国专家于2002年向国际标准化组织提交了藏文编码字符集扩充集提案(“大丁”字符集,本标准草案的前身和技术基础),由于非技术原因,该提案未被采纳。但我国的藏文信息化建设却不能因此而停顿,因此,国家标准化管理委员会于2002年底下达了制定藏文编码字符集扩充集的任务。
二、藏文编码国家标准制定的原则
以2004年04月13日藏文编码标准编制工作组第一次会议(北京,电子工业标准化研究所)和2004年6月藏文编码工作组第二次会议(拉萨,拉萨饭店)纪要的内容为准,结合2003年12月成都会议的决议,确定了藏文编码国家标准制定的指导纲要,即“在国际标准框架下制定藏文大字符集编码国家标准,定义垂直预组合的藏文字符,应作为我国藏文信息处理发展的策略;同时,不排斥小字符集的技术方案,并积极跟踪研究动态组合技术”。
三、藏文大中小字符集及字汇定义
基本藏文字符集(Basic set):已经在0F00-0FCF编码的全部藏文字符(又称小字符集,共有195个编码字符和15个未用的编码位置)。所收集的字符及各种用符号分别 由“非组合字符”和“组合字符”組成。
扩充字符集A (Extension set A) :由基本字符纵向叠加而成的结构稳定的藏文字符和最常用梵音转写字符的集合。
四、扩充字符集A的字符确定依据
1.扩充字符集A共有1536个垂直预组合字符。
2.现代藏文(三次规范后的藏文书写形式)、古藏文(规范之前藏文书写形式)和已成 为藏文部分的梵音转写藏文字符,共 962个字符。
3.最常用梵音转写藏文字符574个。以西藏收集的大字符集、藏学中心提供的出现频率 高的梵音转写藏文字符和其它佛教经典中出现的常用梵音转写藏文字符为主要依据, 同时参考了青海师大、西北民大提供的字频统计,确定了574个最常用梵音转写藏文字符。
五、与我国有关的现行法律、法规和相关强制性标准的关系
1.藏文扩充集A与GB/T 16959-1997(藏文基本集)的关系
扩充集A是基本集的扩充集;
扩充集A和基本集能表示和交换以现代藏文为载体的所有信息,满足现代藏文信息处理的需要。
2.藏文扩充集A与GB 13000的关系
GB 13000规定了通用多八位编码字符集(UCS)。它可用于世界上各种语言(文字)的书面形式 以及附加符号进行表示、传输、交换、处理、存储、输入及显现。
本标准的编码字符集与 GB 13000的多八位基本多文种平面的形式一致。适用于藏文的书面形式 的表示、传输、交换、处理、存储、输入及显现。