@lasdtc 2013-11-21T15:14:37.000000Z 字数 2023 阅读 994

编码

字符编码

1. ASCII码（American Standard Code for Information Interchange）

用8位也就是1个字节来表示字符。
确定了从0到127号所代表的字符。

2. GB2312

GB2312 是对 ASCII 的中文扩展。
2个字节表示一个字符。
规定：一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从0xA1用到 0xF7，后面一个字节（低字节）从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。
在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的”全角”字符，而原来在127号以下的那些就叫”半角”字符了。

3. GBK 标准

但是中国的汉字太多了，后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。
中国是个多民族国家，各个民族几乎都有自己独立的语言系统，为了表示那些字符，继续把 GBK 编码扩充为 GB18030 编码。

因为当时各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码。当时的中国人想让电脑显示汉字，就必须装上一个”汉字系统”，专门用来处理汉字的显示、输入的问题，装错了字符系统，显示就会乱了套。

4. UNICODE（Universal Multiple-Octet Coded Character Set）

ISO 就直接规定必须用两个字节，也就是16位来统一表示所有的字符，对于 ascii 里的那些”半角”字符，UNICODE 包持其原编码不变，只是将其长度由原来的8位扩展为16位，而其他文化和语言的字符则全部重新统一编码。
”半角”英文符号只需要用到低8位，所以其高 8位永远是0，因此这种大气的方案在保存英文文本时会多浪费一倍的空间。
UNICODE 是用两个字节来表示为一个字符，他总共可以组合出65535不同的字符，这大概已经可以覆盖世界上所有文化的符号。

5. UTF（UCS Transfer Format）

UNICODE 来到时，一起到来的还有计算机网络的兴起，UNICODE 如何在网络上传输也是一个必须考虑的问题，于是面向传输的众多 UTF标准出现了。
UTF8 就是每次8个位传输数据，而 UTF16 就是每次16个位。
为了传输时的可靠性，从UNICODE 到 UTF 时并不是直接的对应，而是要过一些算法和规则来转换。
- Unicode转UTF-8：

Unicode	UTF-8
0000 – 007F	0xxxxxxx
0080 – 07FF	110xxxxx 10xxxxxx
0800 – FFFF	1110xxxx 10xxxxxx 10xxxxxx

例如”汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以要用3字节模板：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 1100 0100 1001，将这个比特流按三字节模板的分段方法分为0110 110001 001001，依次代替模板中的x，得到：1110-0110 10-110001 10-001001，即E6 B1 89，这就是其UTF8的编码。

6. 其它

UTF-8 既然能保存那么多文字、符号，为什么国内还有这么多使用 GBK 等编码的人？因为 UTF-8 等编码体积比较大，占电脑空间比较多，如果面向的使用人群绝大部分都是中国人，用 GBK 等编码也可以。但是目前的电脑来看，硬盘都是白菜价，电脑性能也已经足够无视这点性能的消耗了。所以推荐所有的网页使用统一编码：UTF-8。
比较常见的一个问题：我已经把文件保存成了 XX 编码，为什么每次打开，还是原来的 YY 编码？！原因就在于此，你虽然保存成了 XX 编码，但是系统识别的时候，却误识别为了 YY 编码，所以还是显示为 YY 编码。为了避免这个问题，微软公司弄出了一个叫 BOM 头的东西。当使用类似 WINDOWS 自带的记事本等软件，在保存一个以UTF-8编码的文件时，会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。它是一串隐藏的字符，用于让记事本等编辑器识别这个文件是否以UTF-8编码。

二进制编码

1. 反码和补码

反码。将二进制数反转（若某一位为0，则使其变为1，反之亦然），得到的数即为原二进制的反码，又称一补数(ones' complement)。例如，二进制数10010的一补数为01101。
补码。将二进制数求反码，再将结果加1，得到的数即为原二进制的补码，又称二补数（2's complement）。
- 在补码系统中，一个负数就是用其对应正数的补码来表示。显然，二进制数与其补码相加等于0。
- 只要有加法电路及补码电路即可完成各种有号数加法及减法，在电路设计上相当方便。
  2. 校验和

编码

字符编码

1. ASCII码（American Standard Code for Information Interchange）

2. GB2312

3. GBK 标准

4. UNICODE（Universal Multiple-Octet Coded Character Set）

5. UTF（UCS Transfer Format）

6. 其它

二进制编码

1. 反码和补码

2. 校验和

内容目录