ASCII-UTF码解析

	ASCII 码	Unicode	UTF-8	GBK/GB18030
产生	从文字、图像等到计算机的0/1处理方式的编码	ASCII码支持的字符过少，Unicode产生	解决Unicode的缺陷，针对Unicode的可变长编码方式	ASCII码不支持中文，解决中文编码问题
字节	1个字节	2个字节	1-4个字节，可变长
字符占位	一个字符占1个字节	一个字符占2个字节	英文占1个字节汉字占3个字节	英文1个字节，中文2个字节

在计算机中无论任何数据的传输、存储、持久化，都是以二进制的形式体现的。

人类只认识文字，计算机只认0和1，产生了从文字到0、1的映射

文字----> 0/1：编码

0/1---->文字：解码

计算机只能处理0、1，如果需要处理文字，要先将文字转成数字。最早的计算机将8个比特（bit）作为一个字节（byte）

一个字节一共可以用来表示256（2的8次方）种不同的状态，每一个状态对应一个符号，就是256个符号，从00000000到11111111。0-255之间用来表示英文字母，数字和一些符号，这个编码就是ASCII码

ASCII 码一共规定了128个字符的编码，比如空格SPACE是32（二进制00100000），大写的字母A是65（二进制01000001）。这128个符号（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的一位统一规定为0。

ASCII码是8位表示一个字符

ASCII 码采用指定 7 位或 8 位二进制组合来表示 128 或 256 种字符。奇偶校验表示的是一个字节中1的个数必须是奇数或者偶数个。

标准 ASCII 码：标准 ASCII 码每个字符采用 8 bit（1 byte）传输，在 7 位 ASCII 码基础上，最高位用于奇偶校验。

奇校验：代码一个字节中 1 的个数必须是奇数个。以 7 位 ASCII 码的奇校验为例，如果 7 位中有奇数个 1，最高位补 0；如果 7 位中有偶数个 1，最高位补 1。

偶校验：代码一个字节中 1 的个数必须是偶数个。以 7 位 ASCII 码的奇校验为例，如果 7 位中有奇数个 1，最高位补 1；如果 7 位中有偶数个 1，最高位补 0。

由于计算机一开始是老外发明的，英文字母只用一个字节表示，没有将其他国家的字符考虑进去，所以其他国家有了自己的编码：中国制定了GB2312（使用两个字节表示一个汉字），日本和韩国等也有了自己的编码。

世界上存在着多种编码方式，同一个二进制数字可以被解释成不同的符号。如果有一种编码，将世界上所有的符号都纳入其中，就可以统一全球所有语言的所有字符。

为了统一标准，通用字符集（Universal Character Set, UCS）制定了两种标准字符集： UCS-2 、UCS-4。分别表示 2 个字节定长字符编码和 4 个字节定长字符编码。

Unicode 编码采用 2 字节（16 bit）表示一个字符，对于以前的 ASCII 码则高字节全部补 0 进行处理。

总结：Unicode解决的是ASCII只能表示少量字符（256个，2的8次方）的问题。Unicode编码采用2个字节（16bit）表示一个字符

Unicode为每个字符发了一张类似身份证的数字ID，这个ID号在世界上具有唯一性，起名为码点。UTF，Unicode Transformation Formats，Unicode转换格式，是为了解决码点在计算机中的存储方式而设计的。

码点经过映射后得到的二进制串的转换格式称之为码元，code unit

码点是一串二进制数，码元就是切分这个二进制数的方法

如果一个字符的码点二进制有n个字节（n*8个二进制），其码元为8位，则其拥有n个码元

每32位去读一个码点。它的码元是32位，每一个 UTF-32值都可以直接表示对应的码点。 UTF-32（字符用四个字节表示），UTF-8， UTF-16同理。

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，又称万国码

UTF-8用1到4个字节编码Unicode字符。用在网页上可以统一页面显示中文简体繁体及其它语言（如英文，日文，韩文）

Unicode是一种编码方式，而UTF是一种存储方式，UTF-8是Unicode的一种实现方式之一

由于ASCII编码不支持中文，需要寻求一种编码方式来支持中文。国人就定义了一套编码规则：

这样大约可以组合7000多个简体汉字。这个规则叫做GB2312

由于汉字众多，有些字无法表示，重新定义规则：在要求低字节一定是127之后的编码，只要第一个字节是大于127，就固定表示这是一个汉字的开始。这种扩展方案称之为GBK

但是，中国有56个民族，再次对编码规则进行了扩展，又加了近几千个少数民族的字符,再次扩展后得编码叫做GB18030