MySQL 字符集概念、原理及如何配置 — 图文详解

目录

一、字符集概念

1、字符(Character)

2、字符编码

3、字符集(Character set)

二、字符集原理

1、ASCII字符集

2、GB2312

3、GBK

4、GB18030

5、BIG5

6、Unicode 编码

三、字符序

四、MySQL字符集 & 字符序

1、mysql 字符集

2、mysql 字符序

3、字符集与字符序的关系

五、MySQL 数据存储字符集

1. 字符集层级关系

2、如何设置字符集

2.1 服务器字符集设置

2.2 数据库字符集设置

2.3 数据表字符集设置

2.4 字段字符集设置

3、多级的字符集 & 多种字符集的作用

六、MySQL 客户端与服务端交互字符集

1、交互示意图

2、如何设置字符集


    我们在使用 MySQL 的过程中,经常会碰到诸如乱码之类的问题。字符编码与字符集密切相关,MySQL 支持种类繁多的字符集类型,这些字符集到底如何影响 MySQL 数据存储与数据传输的呢?我们该如何选择正确的字符集?那就通过这篇文章来帮你捋清细节和解除困扰吧!

本文依赖以下环境:

操作系统:MAC OS 10.11.6

MySQL:Server version: 5.6.21 MySQL Community Server (GPL)

一、字符集概念

1、字符(Character)

字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字、😀(emoji表情)等属于字符的范畴。

2、字符编码

计算机是通过 BIT 来存储数据的,将人类可识别的字符转换成计算机能够存储的形式,这个过程就是字符编码。

3、字符集(Character set)

字符集是多个字符的集合,包含一组字符以及对应的编码方式。字符集种类较多,每个字符集包含的字符个数和编码方式不同,常见字符集名称:ASCII 字符集、GB2312 字符集、BIG5 字符集、 GB18030 字符集、Unicode 字符集等。

二、字符集原理

1、ASCII字符集

我们熟知的 ASCII 字符集是一种现代美国英语适用的字符集。包括的字符有数字、大小写字母、分号、换行之类的符号,编码方式是用一个 7bit 表示一个字符,例如A的编码是 65,b 的编码是 98。

ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,主要编码表如下图所示。

2、GB2312

GB2312 字符集是一种对汉字比较友好的字符集,共收录 6700 多个汉字,基本涵盖了绝大部分常用汉字。不过,GB2312 字符集不支持绝大部分的生僻字和繁体字。对于英语字符,GB2312 编码和 ASCII 码是相同的,1 字节编码即可。对于非英字符,需要 2 字节编码。

3、GBK

GBK 字符集可以看作是 GB2312 字符集的扩展,兼容 GB2312 字符集,共收录了 20000 多个汉字。GBK 中 K 是汉语拼音 Kuo Zhan(扩展)中的 “Kuo” 的首字母。

4、GB18030

GB18030 完全兼容 GB2312 和 GBK 字符集,纳入中国国内少数民族的文字,且收录了日韩汉字,是目前为止最全面的汉字字符集,共收录汉字 70000 多个。

5、BIG5

BIG5 主要针对的是繁体中文,收录了 13000 多个汉字。

6、Unicode 编码

ASCII 只对英文符号和英文字母做了编码,GB2312对英文符号,英文字母,汉字做了编码。每个国家为了更加适合本国语言,都有一套自己的字符集。不同的字符集可以表示的字符范围以及编码规则存在差异。同一个编码,对于不同的字符集来说就可能代表不同的字符:

这就导致了一个非常严重的问题:使用错误的编码方式查看一个包含字符的文件就会产生乱码现象。就比如说你使用 UTF-8 编码方式打开 GB2312 编码格式的文件就会出现乱码。示例:“牛”这个汉字 GB2312 编码后的十六进制数值为 “C5A3”,而 “C5A3” 用 UTF-8 解码之后得到的却是 “ţ”

为了解决不同语言编码之间不兼容的问题,Unicode 出现了。Unicode 字符集致力于为全世界每一个语言的每一个字符都有统一且唯一的编码,Unicode 字符序号的范围是 0x000000 到0x10FFFF,可以容纳 110 多万个字符。UTF8、UTF16、UTF32 是 Unicode 编码的不同实现方式:

  • UTF-8 使用 1 到 4 个字节为每个字符编码, UTF-16 使用 2 或 4 个字节为每个字符编码,UTF-32 固定位 4 个字节为每个字符编码。
  • UTF-8 可以根据不同的符号自动选择编码的长短,像英文字符只需要 1 个字节就够了,这一点 ASCII 字符集一样 。因此,对于英语字符,UTF-8 编码和 ASCII 码是相同的。
  • UTF-32 的规则最简单,不过缺陷也比较明显,对于英文字母这类字符消耗的空间是 UTF-8 的 4 倍之多。
     

三、字符序

一个字符集中有多个字符,那么如何对其中的字符进行排序呢?这就是字符序。简单来说,字符序就是字符排序的规则集合。

一个字符集中有多个字符,那么如何对其中的字符进行排序呢?这就是字符序。比如一个字符集有下面几个字符以及字符编码:

我们可以直接按照 A > B > a > b 的规则来进行排序,这就是这个简单字符集的一个字符序。如果想让小写字母放在前面,比如 a > b > A > B,这又是一种字符序。如果还想加上大小写无关或大小写相关,这就产生了不同的字符序。

四、MySQL字符集 & 字符序

接下来我们来看看 MySQL 的字符集与字符序。MySQL 目前支持多种字符集,支持在不同的字符集之间转换(便于移植和支持多语言)。

1、mysql 字符集

通过命令: mysql -u[username] -p[password]  连接上MySQL后,用下面命令查询MySQL 支持的字符集:

SHOW CHARACTER SET;

结果:

指定条件查询: 

SHOW CHARACTER SET LIKE 'utf%';

结果:

字段含义:

  • Charset: 字符集的名称;
  • Description:字符集的简单描述;
  • Default collation:该字符集的默认字符序;
  • Maxlen:该字符集中字符最大存储长度。

2、mysql 字符序

每个字符集都对应一个或多个字符序,可以通过下面的语句查看所有的字符序:

SHOW COLLATION;

结果(部分展示):

 指定条件查询:

SHOW COLLATION WHERE Charset = 'utf8mb4';

结果:

字段含义: 

  • Collation:字符序名称;
  • Charset:该字符序关联的字符集;
  • Id:字符序ID;
  • Default:该字符序是否是所关联的字符集的默认字符序。比armscii8_general_ci就是armscii8的默认字符序,而armscii8_bin就不是;
  • Compiled:字符集是否已编译到服务器中;
  • Sortlen:这与对以字符集表示的字符串进行排序所需的内存量有关;
  • Pad_attribute:这表明了字符序在比较字符串时对末尾padding的处理。NO PAD表明在比较字符串时,末尾的padding也会考虑进去,否则不考虑。

每个字符序都是以该字符序所关联的字符集为前缀的,同时还有一些有规律的后缀:

  • bin:二进制;
  • ci:大小写不敏感;
  • cs:大小写敏感;
  • ai:口音(Accent)不敏感;
  • as:口音敏感;
  • ks:假名(Kanatype)敏感。

同时有的字符序是面向某种语言的,也会在字符序名字中有所体现,比如big5_chinese_ci。
 

3、字符集与字符序的关系

字符集与字符序的关系可以上面的图来表示:

  • 每个字符集都有一个或多个字符序;
  • 每个字符集都有一个默认的字符序;
  • 每个字符序都关联一个且只有一个字符集;
  • 两个不同的字符集没有相同的字符序。

五、MySQL 数据存储字符集

1. 字符集层级关系

MySQL 是按层级来设定字符集与字符序的,MySQL 可以设置:服务器级字符集、数据库级字符集、数据表级字符集、表列级别字符集。实际上,最终使用字符集的地方是存储字符的列,它决定了数据库中存储的数据采用哪个字符集的编码和字符序。

结构图:

 层级图:

如上图所示:

上一层级如果没有指定字符集与字符序,就采用下一层级的字符集与字符序。也就是说:新建数据库时没有指定字符集,就默认设置为服务器的字符集;如果新建数据表时没有指定字符集,就默认设置为数据库的字符集;如果向数据表添加新列时没有指定列的字符集,那么这些列就默认设置为数据表的字符集。与字符集相同,如果不特别指定,字符序也采取了默认值继承的方式。

另一方面,直接改变这四个层次的编码并不会改变它们各自所有下层对象的当前编码。比如修改 Server 级,那么所有已经存在的数据库、数据表、表、列的字符集都不会发生改变。同时,数据表中每一条现有记录的字符字段仍然是按原来的编码存储的。

2、如何设置字符集

我们先来看下,MySQL 刚安装完,MySQL 字符集的的初始字符集和字符序是什么?

查看字符集变量:

SHOW VARIABLES LIKE 'character_set\_%';

查看字符序变量:

SHOW VARIABLES LIKE '%collation%';

查询结果:

character_set_server:服务器的字符集是 latin1

collation_server: 服务器的字符序是 latin1_swedish_ci

character_set_database:数据库的字符集是 latin1

collation_database:数据库的字符序是 latin1_swedish_ci

从上图可以看出,MySQL 服务器安装后已经初始化了服务器和数据库的默认字符集和字符序,另外,我们在创建数据库、表、添加字段时,都可以默认采用上一级的字符集和字符序,也可以在创建时自行指定:

2.1 服务器字符集设置

通过 character_set_server 变量的设定字符集的几个方式:

方式1:在 my.cnf 中配置

[mysqld]
character-set-server=utf8

方式2:启动时配置参数

mysqld --charater-set-server=utf8

方式3:编译时指定

[root@database-one ~]# cmake . -DDEFAULT_CHARSET=utf8

2.2 数据库字符集设置

// -- 示例: 创建数据库create database if not exists dbtest character set utf8;// -- 示例:修改数据库ALTER DATABASE dbtest CHARACTER SET 'utf8';

2.3 数据表字符集设置

// -- 创建表时:DEFAULT CHARSET=utf8mb4 设置字符集CREATE TABLE `t_employee` (`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '员工ID',`code` varchar(10) NOT NULL COMMENT '员工编码',`name` varchar(10) NOT NULL COMMENT '员工姓名',`age` int(10) unsigned DEFAULT NULL COMMENT '年龄',`sex` int(10) unsigned DEFAULT NULL COMMENT '性别',`cert_type` int(10) unsigned DEFAULT NULL COMMENT '证件类型',`cert_no` varchar(20) DEFAULT NULL COMMENT '证件号',`birthday` date DEFAULT NULL COMMENT '生日',`income_date` date DEFAULT NULL COMMENT '入职日期',PRIMARY KEY (`id`),UNIQUE KEY `code` (`code`),UNIQUE KEY `cert_type` (`cert_type`,`cert_no`)) ENGINE=InnoDB AUTO_INCREMENT=28 DEFAULT CHARSET=utf8mb4 COMMENT='员工表';// -- 修改表的字符集ALTER TABLE `dbtest`.`t_employee` CHARACTER SET = utf8mb4;

2.4 字段字符集设置

// -- 创建表时:CHARACTER SET utf8mb4指定字段字符集CREATE TABLE `t_employee` (`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '员工ID',`code` varchar(10) NOT NULL COMMENT '员工编码',`name` varchar(10) NOT NULL COMMENT '员工姓名',`age` int(10) unsigned DEFAULT NULL COMMENT '年龄',`sex` int(10) unsigned DEFAULT NULL COMMENT '性别',`cert_type` int(10) unsigned DEFAULT NULL COMMENT '证件类型',`cert_no` varchar(20) CHARACTER SET utf8mb4 DEFAULT NULL COMMENT '证件号',`birthday` date DEFAULT NULL COMMENT '生日',`income_date` date DEFAULT NULL COMMENT '入职日期',PRIMARY KEY (`id`),UNIQUE KEY `code` (`code`),UNIQUE KEY `cert_type` (`cert_type`,`cert_no`)) ENGINE=InnoDB AUTO_INCREMENT=28 DEFAULT CHARSET=utf8 COMMENT='员工表';// -- 修改字段的字符集:CHARACTER SET utf8mb4ALTER TABLE `dbtest`.`t_employee` MODIFY COLUMN `cert_no` varchar(20) CHARACTER SET utf8mb4 NULL DEFAULT NULL COMMENT '证件号' AFTER `cert_type`;

3、多级的字符集 & 多种字符集的作用

多级继承的字符集与字符序:可以方便快捷的确定下一层级的字符集和字符序,比如一个数据库下面有很多张表,只需要将数据库的字符集设置为 UTF8,所有表创建时就指定了默认的字符集。

早期只支持有限数量字符集,后来不断的扩展,例如早期的 UTF8(阉割版本,早期 MySQL 版本为了节省存储空间,最多三个字节)完全够用了,后面出现了 EMOJI 表情符号、比较复杂的汉字、繁体字又不能满足要求了,于是有 utf8mb4 字符集。并且支持在同一个服务器下数据库有不同的字符集,同一个数据库下的不同表也可以设定不同的字符集,同一个表的不同字段也可以设定不同的字符集,都是为了方便业务的移植和扩展。(例如以前一个业务只覆盖了欧洲英文国家,采用 ladin 1字符集就足够了,但是后来有扩展到中国,于是需要将字符集扩展到 UTF8;之前全部采用UTF8字符集,但是发现用户注册的昵称使用了 EMOJI 表情符号,于是将 nickname 字段的字符集修改为 utf8mb4)。

六、MySQL 客户端与服务端交互字符集

上面 4 种级别的字符集都是用于数据保存的,其实客户端和服务器之间的交互也受到字符集和校对规则的影响。

MySQL提供了character_set_client、character_set_connection 和 character_set_results 三个参变量:

  • character_set_client
  • character_set_connection
  • character_set_results

1、交互示意图

既:

  1. 客户端的语句从客户端出发时,使用的字符集是 character_set_client
  2. 语句到达服务器时,服务器将语句转换成 character_set_connection字符集;
  3. 服务器执行完,将结果返回给客户端时,使用的是 character_set_results字符集。

2、如何设置字符集

方式1:在 MySQL 配置文件中设置 my.cnf:

[client]
default-character-set=utf8

方式2:在客户端执行:

SET NAMES utf8;

方式3:在连接地址配置:

jdbc:mysql://localhost:3306/mydatabase?useUnicode=true&characterEncoding=utf8

以上三种方式等效于在客户端同时执行三条命令:

SET character_set_client utf8;SET character_set_connection utf8;SET character_set_results utf8;

参考:

MySQL配置文件my.ini详解

你真的搞懂MySQL的字符集了吗?

MySQL字符集的不同级别和效果

深入理解MySQL字符集及校对规则(一)

MySQL的字符编码体系(一)——数据存储编码

MySQL-解析客户端SQL执行字符集参数设置

MySQL中的字符集与字符序

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/100304.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git标签

Git 中的标签,指的是某个分支某个特定时间点的状态(静态)。通过标签,可以很方便的切换到标记时的状态。 比较有代表性的是人们会使用这个功能来标记发布结点 (v1.0、v1.2等)。 下面是myatis-plus的标签: 1 标签相关命令 命令作用git tag查看标签&…

Go语言入门指南:基础语法和常用特性(下)

上一节,我们了解Go语言特性以及第一个Go语言程序——Hello World,这一节就让我们更深入的了解一下Go语言的**基础语法**吧! 一、行分隔符 在 Go 程序中,一行代表一个语句结束。每个语句不需要像 C 家族中的其它语言一样以分号 ;…

解决多模块开发中的问题(聚合继承)

🐌个人主页: 🐌 叶落闲庭 💨我的专栏:💨 c语言 数据结构 javaweb 石可破也,而不可夺坚;丹可磨也,而不可夺赤。 Maven 一、聚合1.1创建Maven模块,设置打包类型…

ThreadLocal内存泄漏问题

引子: 内存泄漏:是指本应该被GC回收的无用对象没有被回收,导致内存空间的浪费,当内存泄露严重时会导致内存溢出。Java内存泄露的根本原因是:长生命周期的对象持有短生命周期对象的引用,尽管短生命周期对象已…

ABAP 定义复杂的数据结构

最近有个需求是实现ABAP数据类型与JASON类型的转换。想要创建个ABAP的数据类型来接JASON类型是个挺麻烦的事。例如下面这个JASON数据,是个很简单的数据结构。但对ABAP来说有4层了,就有点复杂了。 不过ABAP的数据类型也是支持直接定义数据结构的嵌套的。如…

LLM生成式 AI 项目生命周期Generative AI project lifecycle

在本课程的其余部分中,您将学习开发和部署LLM驱动应用所需的技巧。在这个视频中,您将了解一个能帮助您完成此工作的生成式AI项目生命周期。此框架列出了从构思到启动项目所需的任务。到课程结束时,您应该对您需要做的重要决策、可能遇到的困难…

dockerfile编写LNMP

目录 1. 项目环境 2. 服务器环境 二、部署nginx(容器IP为192.168.158.26) 1、整个Dockerfile文件内容 ​编辑 2、配置nginx.conf文件 3、构建镜像 三、部署mysql 1、整个Docker文件内容 3、生成镜像 4、启动镜像容器 5、验证mysql 四、PHP部署 1…

机器学习|决策树:数学原理及代码解析

机器学习|决策树:数学原理及代码解析 决策树是一种常用的监督学习算法,适用于解决分类和回归问题。在本文中,我们将深入探讨决策树的数学原理,并提供 Python 示例代码帮助读者更好地理解和实现该算法。 决策树数学原…

Go语言里面的各种疑难杂症

什么是闭包?闭包有什么缺陷? func AddUpper() func(int)int{var n int 10return func (x int) int{n nxreturn n} }func main(){f : AddUpper()fmt.Println(f(1))//11fmt.Println(f(2))//13fmt.Println(f(3))//16 }(1) AddUpper…

PyTorch学习笔记(十六)——利用GPU训练

一、方式一 网络模型、损失函数、数据(包括输入、标注) 找到以上三种变量,调用它们的.cuda(),再返回即可 if torch.cuda.is_available():mynn mynn.cuda() if torch.cuda.is_available():loss_function loss_function.cuda(…

【操作系统】虚拟内存相关分段分页页面置换算法

虚拟内存是什么? 【进程地址空间虚拟地址空间C/C程序地址空间就是那个4G的空间】 虚拟内存是操作系统内核为了对进程地址空间进行管理,而设计的一个逻辑意义上的内存空间概念。在程序运行过程中,虚拟内存中需要被访问的部分会被映射到物理内…

安防视频监控平台EasyCVR视频集中存储平台接入RTSP设备出现离线情况的问题解决方案

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安…

用户新增预测——baseline学习笔记

一、赛题理解 1. 赛题名称 用户新增预测挑战赛 2. 赛题数据集 赛题数据由约62万条训练集、20万条测试集数据组成,共包含13个字段。其中uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性…

什么是RNN(循环神经网络)

什么是RNN(循环神经网络) 循环神经网络(Recurrent Neural Network),在识别图像时,输入的每张图片都是孤立的,认出这张图片是苹果,并不会对认出下一张图片是梨造成影响。 但对语言来说,顺序是十分重要的,“…

07 mysql5.6.x docker 启动, 无 config 目录导致客户端连接认证需要 10s

前言 呵呵 最近再一次 环境部署的过程中碰到了这样的一个问题 我基于 docker 启动了一个 mysql 服务, 然后 挂载出了 数据目录 和 配置目录, 没有手动复制配置目录出来, 所以配置目录是空的 然后 我基于 docker 启动了一个 nacos, 配置数据库设置为上面的这个 mysql 然后 启…

ARM汇编【1】:数据类型

与高级语言类似,ARM支持对不同数据类型的操作。我们可以加载或存储的数据类型可以是有符号和无符号字、半字或字节。这些数据类型的扩展名是:-h或-sh表示半字,-b或-sb表示字节,不表示字的扩展名。有符号数据类型或无符号数据类型之…

Consistency Models终结扩散模型

最近看到一篇论文,觉得特别有意思,并且在学术界引起了不小的动静,他就是一致性模型,据说图像生成效果快、质量高,并且还可以实现零样本图像编辑,即不进行一些视觉任务训练,可以实现图像超分、修…

基于springboot+vue的论坛系统(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…

改进YOLO系列:3.添加SOCA注意力机制

添加SOCA注意力机制 1. SOCA注意力机制论文2. SOCA注意力机制原理3. SOCA注意力机制的配置3.1common.py配置3.2yolo.py配置3.3yaml文件配置1. SOCA注意力机制论文 暂未找到 2. SOCA注意力机制原理 3. SOCA注意力机制的配置 3.1common.py配置 ./models/common.p…

Docker+Jmeter+InfluxDB+Grafana 搭建性能监控平台

当今互联网发展迅速,应用程序的性能监控显得越来越重要。 DockerJmeterInfluxDBGrafana 是一种常用的性能监控平台,可以帮助开发者快速搭建一套可靠的监控体系。在本文中,我们将介绍如何使用这些工具搭建性能监控平台,以便开发人…