1. 字符集(Character Set):
字符集是一个定义了所有可能字符的集合。字符集决定了可以表示的字符种类,比如字母、数字、符号和控制字符。
举例:
- ASCII 是一种字符集,它包含 128 个字符,主要包括英文字母(A-Z, a-z)、数字(0-9)以及一些常见的符号和控制字符(如换行符、回车符等)。
- Unicode 是一个更大的字符集,它可以表示世界上几乎所有语言中的字符,包含了数百万个字符。
常见字符集:
- ASCII:美国信息交换标准代码(只能表示 128 个字符)。
- ISO-8859-1(Latin-1):支持西欧语言的字符集。
- Unicode:可以表示所有语言的字符,包括中文、日文、韩文、阿拉伯文等。
2. 编码格式(Character Encoding):
编码格式是将字符集中的字符转换为二进制表示的方法。字符集定义了要表示哪些字符,而编码格式决定了如何在计算机中存储这些字符。
由于计算机只能处理二进制数据(0 和 1),字符集中的字符必须被转换为字节序列,这就是编码格式的作用。
举例:
- 在 ASCII 编码 中,字母 'A' 的编码是 65(十进制),即
01000001
(二进制)。 - 在 UTF-8 编码 中,字母 'A' 也是
01000001
,但对于中文字符 '你',其编码是两个字节:11100100 10111000 10101101
。 - UTF-16 编码会使用两个或更多字节来表示字符,尤其是对于非拉丁字符(如汉字)。
常见编码格式:
- UTF-8:一种常用的 Unicode 编码格式,使用 1 到 4 个字节表示字符,广泛用于互联网和现代应用。
- UTF-16:一种 Unicode 编码格式,通常使用 2 个或 4 个字节表示字符。
- GBK:一种用于简体中文的编码格式,主要在中国大陆使用。
3. 字符集和编码格式的关系:
- 字符集定义了字符的集合,比如 Unicode 定义了“你”这个字符。
- 编码格式则是将字符转换为二进制的具体方法。比如在 UTF-8 中,“你”会被编码为
11100100 10111000 10101101
,而在 UTF-16 中它可能是01001111 01100000
。
4. 常见问题:字符集与编码格式不匹配:
当一个程序尝试用错误的编码格式读取文本文件时,字符会被错误地解析,显示乱码,或者抛出异常(如 MalformedInputException
)。这是因为程序读取的字节序列无法正确映射到字符集中定义的字符。
例子:
- 文件是 GBK 编码,但程序用 UTF-8 读取,可能会出现乱码或读取错误。
- 字符集 定义了可以使用哪些字符。
- 编码格式 决定了如何将这些字符转换为计算机可理解的二进制格式。