教师继续教育（一）信息技术：汉字的编码

创建时间：2013-01-25

信息技术组学习材料：

了解汉字编码

关于汉字编码，教材只是蜻蜓点水地提了一下，很多人也只是了解汉字编码占用2个字节。至于汉字编码具体情况是怎样的，gb码，unicode，cjk等是怎么回事，则是一头雾水。下面这篇文章对常见的汉字编码做了简单的说明，请各位老师认真阅读。写出100字左右的心得体会。

要求：要言之有物，有自己的真实感受与认识。如果想对汉字编码内容有更深层次的了解，请自行搜索相关知识。也可以在心得中把自己对汉字编码的理解写出来。

GB2312

GB2312码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。

GB2312或GB2312-80是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集•基本集》，又称为GB0，由中国国家标准总局发布，1981年5月1日实施。GB2312编码通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB2312。

GB2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。

GB2312的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。

GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区位码。

01-09区为特殊符号。

16-55区为一级汉字，按拼音排序。

56-87区为二级汉字，按部首/笔画排序。

10-15区及88-94区则未有编码。

举例来说，“啊”字是GB2312之中的第一个汉字，它的区位码就是1601。

每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”（也称“区字节）”，第二个字节称为“低位字节”（也称“位字节”）。

“高位字节”范围是0xA1~0xF7(即0xA0+01~0xA0+87【10100001~11110111】)

“低位字节”范围是0xA1-0xFE(即0xA0+01~0xA0+94【10100001~11111110】)。

由于一级汉字从16区起始，汉字区的“高位字节”的范围是0xB0-0xF7，“低位字节”的范围是0xA1-0xFE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。例如“啊”字在大多数程序中，会以两个字节，0xB0（A0+16）0xA1（A0+01）储存。

对于人名、古汉语等方面出现的罕用字，GB2312不能处理，这导致了后来GBK及GB18030汉字字符集的出现。

GB2312兼容ASCII，即GB2312对英文字符的编码是和ASCII完全一样的，而所有中文字符的GB2312内码高位都为1,不会出现0,所有的ASCII内码的最高位都为0，并且每个汉字占用2个字节,对于程序来说只要检查一个字节的最高位,就可以很容易的判断这个字符是中文还是英文字符,非常方便。

GBK

GB2312仅收汉字6763个，这大大少于现有汉字，随着时间推移及汉字文化的不断延伸推广，有些原来很少用的字，现在变成了常用字，例如：朱镕基的“镕”字，未收入GB2312-80.

GBK最初是由微软对GB2312的扩展，也就是CP936字码表(CodePage936)的扩展（原来的CP936和GB2312-80一模一样），最初出现于Windows95简体中文版中，由于Windows产品的流行和在大陆广泛被使用，中华人民共和国国家有关部门将其作为技术规范。注意GBK并非国家正式标准，只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。

GBK之所以成功，正是因为它弥补了GB2312的缺陷：1。收录的汉字量大大增加；2。完全向下兼容GB2312，为GB2312所写的程序、文档无需任何变更即可正常使用。

GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。

GBK/2：OXB0A1-F7FE【1011000010100001~1111011111111110】

收录GB2312汉字6763个，按原序排列；

GBK/3：OX8140-A0FE【1000000101000000~1010000011111110】

收录CJK汉字6080个；

GBK/4：OXAA40-FEA0【1010101001000000~1111111010100000】

收录CJK汉字和增补的汉字8160个。

GB18030

2000年的GB18030取代了GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。

GB18030是最新的汉字编码字符集国家标准,向下兼容GBK和GB2312标准。GB18030编码是一二四字节变长编码。

一字节部分从0x0~0x7F与ASCII编码兼容。

二字节部分,首字节从0x81~0xFE,尾字节从0x40~0x7E以及0x80~0xFE,与GBK标准基本兼容。

四字节部分,第一字节从0x81~0xFE,第二字节从0x30~0x39,第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从0x0080开始,除去二字节部分已经覆盖的所有Unicode3.1码位。也就是说,GB18030编码在码位空间上做到了与Unicode标准一一对应,这一点与UTF-8编码类似。

UNICODE

GBK,GB18030以及同期流行于台湾香港的BIG5编码.虽然编码有些不同,但是设计思想是一致的:兼容ASCII,并确保不会有某个字节值为0的内码出现.有一个共同的特点是:它们都是局部的标准,只流行于某个地区/国家内.

由于内码表都是各个国家独自制定的,同一个内码,在不同的国家表示的可能是不同的字符.(除了ASCII字符,ASCII字符在所有国家指定的内码表中都有同样的值.)不利于国家间的信息交换.于是UNICODE应运而生.

UNICODE采用一种很简单的办法来解决这个问题.就是采用2个字节（UCS-2）或者4个字节（UCS-4）字节标识一个字符.2个字节总共可以表示65535个字符,足够表示世界上的所有语言的所有字符.(汉字不就有4万多个吗,65535怎么够.我估计只是常用的汉字几千个被编在UCS-2中吧.目前被正式编码到UNICODE码位的只有不超过65534个,所以就目前的情况来说,用2个字节是可以的.)注意UCS-4,UCS-2和ASCII是向下兼容的,只要前面补0就可以了.这点很重要,可以一直扩展下去包含全宇宙的字符.

现在地球上每个字符在所有采用UNICODE字符编码的计算机内都有一个唯一的内码了.

要注意,除了ASCII字符外,其他国家文字的字符的内码是重新分配过的,不一定和各国原有的编码相同.比如大部分汉字的GB2312内码和UNICODE内码都是不同的.

UTF-8

很显然,对于英语国家来说,UNICODE内码非常浪费空间,对于UCS-2浪费了50%的存储空间,对于UCS-4则浪费了70%的存储空间.而且还有一个更大的问题,UNICODE的内码中含有很多'',原有的C标准库函数没办法处理这些字符串.于是有人发明了一种针对UNICODE的变换规则,把UNICODE字符串中的0去除.注意这个变换规则不是通过查表实现的,而只要用一些位移操作就可以实现.这就是UTF8.UTF8只是UNICODE内码在存储/传输时的状态.而从GB2312编码转换到UNICODE编码需要查表.UTF8和UNICODE的关系与GB2312和UNICODE的关系有本质的不同.UTF8和UNICODE是一个人的两个面孔,GB2312和UNICODE是两个人.所以,要实现UTF8编码到GB2312编码的转换必须先把UTF8编码还原为UNICODE编码,再通过查表的方式,把UNICODE编码转化为GB2312编码。

CJK

中日韩统一表意文字（CJKUnifiedIdeographs），目的是要把分别来自中文、日文、韩文、越文中，本质、意义相同、形状一样或稍异的表意文字（主要为汉字，但也有仿汉字如日本国字、韩国独有汉字、越南的喃字）于ISO10646及Unicode标准内赋予相同编码。



当前位置：网站首页>校园新闻

上一页：教师继续教育（一）物理：高中物理课堂教学中有效提问的策略新探

下一页：2012年5月5日校领导深入教研组参加本次研修活动