APP下载

对中职计算机“汉字编码”的认识和解题方法的探讨

2022-02-23吴迪

学习与科普 2022年13期
关键词:字节编码汉字

吴迪

摘要:汉字编码相关的知识点在湖北省计算机类技能高考的技能考试中是一个必考的难点。本文从相关概念出发,研究并总结了相关的考点知识。

关键词:汉字编码;计算机技能高考

在湖北省计算机类技能高考的技能考试中,“计算机字符编码”作为一个重要知识点,是每年都会出现的必考题。而作为“计算机字符编码”的重点,“汉字编码”由于其概念繁杂,运算复杂而让不少学生望之生畏。对此,本文将针对这一专题进行整理和探讨。

一、概念梳理

1、“汉字编码”的概念

计算机中汉字的表示也是用二进制编码,汉字编码(Chinese character encoding)是为汉字设计的一种便于输入计算机的代码。ASCII码只对英文字母、数字和标点符号进行了编码,汉字在计算机中的表示形式统称为汉字编码。

2、“汉字编码”的分类

汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。针对这些问题,我们一般将汉字编码分为四大类:汉字输入码、汉字交换码、汉字内码和汉字字形码。

(1)汉字输入码

输入码也叫外码,是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码和电报码等。

(2)汉字交换码

①“国标码”的概念

计算机内部处理的信息是用二进制代码表示的,但二进制代码使用起来不方便,于是需要采用信息交换码。其中的汉字代码需要符合国家规定的交换码标准,这个标准指的是中国标准总局1981年制定了中华人民共和国国家标准GB2312--80《信息交换用汉字编码字符集--基本集》,也就是所谓的“国标码”。

②“区位码”概述

区位码是国标码的另一种表现形式。它把国标GB2312--80中的汉字、图形符号组成一个94×94的方阵,分为94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是从01至94。94个区中位置总数=94×94=8836个,其中7445个汉字和图形字符中的每一个字符占一个位置,还剩下1391个空位保留备用。

(3)汉字内码

当计算机输入外部码时,一般都要转换成内部码才能进行处理和存储。内部码是汉字最基本的编码,通常用其汉字字库中的物理位置表示。它可以是汉字在字库中的序号或者是汉字在字库中的存储位置,每个字的内码是唯一的。

(4)汉字字形码

字形码是汉字的输出码,又名字模。输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。汉字字形是指原来铅字排版汉字的大小和形状,在计算机中指组成汉字的点阵。汉字点阵和字形的对应关系是:有笔画处的点为1,无笔画处的点为0。汉字的点阵越多,打印字体越美观。

二、计算问题

1、“汉字编码”占用的存储字节

汉字编码是用两个扩展的ASCII码两两组合起来的,一个扩展的ASCII码是一个字节,所以汉字编码是两个字节。当题目涉及到存储字节时,这里的汉字编码已涉及到在计算机中内部的表示,即汉字的内码。为了区分,人们将组成汉字编码的两个字节的最高位都改为1,由此可把汉字编码与扩展的ASCII码区别开来。

故此,做这类题应依照以下结论解答:微机中采用的ASCII编码表示一个英文字符,采用汉字国标码表示一个汉字,存储一个汉字的内码所需的字节数是两个字节,每个字节的最高二进制位的值分别为1,1。

2、“内码”与“交换码”间的运算

(1)进制问题

由于功用不同,各种内码的原始进制并不一致。如果要进行运算,先要统一进制问题。

区位码:4位10进制数(区码+位码)

国标码:4位16进制数,(双字节编码,每个字节最高位为0)

机内码:4位16进制数,(双字节编码,每個字节最高位为1)

(2)转换方法

①区位码转为国标码

国标码是由区位码中表示汉字代码的区号和位号各加32得到的(十进制规则)

转换公式为:国标码D=区位码D+3232D(国标码H=区位码H+2020H)

②国标码转为机内码

汉字的国标码和内码有—一对应关系,即将高位加l,国标码就变为内码。故机内码的计算方式就是将国标码的两个字节的最高位由0变成1,其余7位不变(二进制规则)。计算最高位的变换,27=128(十进制规则),转成十六进制数为80(十六进制)

转换公式为:机内码H=国标码H+8080H

如果转换对象换成区位码则有:

机内码H=国标码H+8080H=(区位码H+2020H)+8080H=区位码H+A0A0H

(3)有效范围的求法(判断某编码是否表示汉字)

①区位码值的有效范围

区位码中94行94列二维代码表示汉字,故其范围为0101~9494(十进制)

计算时需要将区码和位码分开,分别转换为十六进制数。而01D=01H,94D=5EH,故有0101~5E5E(十六进制)

②国标码和机内码值的有效范围

根据国标码H=区位码H+2020H,得到国标码的有效范围为2121~7E7E(十六进制)

根据机内码H=区位码H+A0A0H,得到机内码的有效范围为A1A1~FEFE(十六进制)

3、“字形码”的运算

在显示或打印汉字时,还涉及到字形码。把一个方块看成m行n列矩阵,共有m×n个点,称为汉字点阵,一个点用一个二进制位表示。汉字的点阵可以对应若干字节长的字形码,这种表示汉字点阵的方法称为汉字字形的数字化表示法。

我们通常用16×16点阵来显示汉字,一个16×16点阵的字形码需要16×16=1024bit ,由于1B=8b,故将结果除以8,得到32 Byte存储空间。

故在m×n点阵字库中,每个汉字的字形码所占字节的计算公式为:m×n / 8 (字节)

参考文献:

[1]中国汉字编码研究会.汉字编码方案汇编[M].北京:科技文献出版社,1980,3.

猜你喜欢

字节编码汉字
No.8 字节跳动将推出独立出口电商APP
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
No.10 “字节跳动手机”要来了?
Genome and healthcare
简谈MC7字节码
汉字这样记
汉字这样记
人类进入“泽它时代”