数据编码

方便存储、检索和使用的数据形式

字符编码

美国信息交换标准码（American Standard Code for Information Interchange，ASCII）为国际标准 ISO 646。仅可显示英文字母、数字及英文标点符号。

不同的国家和地区制定了不同的字符集和字符编码标准以显示更多的语言文字。但由于缺乏统一规划，这些字符编码有可能存在冲突，例如：

在常见的 GB 2312（中国大陆的中文字符集）和 BIG5（台湾、香港等地区使用的繁体中文字符集）编码标准中，同一个编码数值 0xA6A1 所代表的字符是不同的：

为了解决不同字符编码之间相互冲突、无法通用的问题，提出了统一字符编码（Unicode）的概念。

Unicode 为世界上几乎所有已知文字和符号分配了唯一的编号，称为码点（Code Point），通常表示为 U+XXXX 的形式。例如：

Unicode 本身只规定字符与码点的对应关系，并不规定具体的存储方式。

为了在计算机中存储 Unicode 码点，需要将其转换为具体的字节序列，这种转换方式称为 Unicode 编码方式，常见的有：

UTF-8（Unicode Transformation Format – 8-bit）是一种可变长度编码方式，也是目前互联网上使用最广泛的字符编码。

其特点包括：

例如：

由于其兼容性好、效率高，UTF-8 成为现代操作系统、网页和程序中最常用的字符编码。

简单来说：

字符集回答“是什么字符”，字符编码回答“怎么存储”。