学习redis之前的泛泛而谈（特性介绍，应用场景，Ubuntu安装与通用命令介绍）

文章目录

- 前言
- 关于分布式系统
- Redis特性
- Redis应用场景
- Redis5安装
- redis命令
- - 最核心的两个命令：get和set
  - keys
  - exits
  - del
  - expire
  - ttl
  - redis中key的过期策略
  - type
- redis数据类型的内部实现方式
- redis的单线程

前言

redis最重要的概念：在内存中存储数据
为什么要设计一个在内存中存储数据的数据库，定义的变量天然就存储在内存中，为什么不直接定义变量？
另一个重要的概念：分布式，在单机系统中，使用redis显得多此一举，只有在分布式系统中使用redis才能发挥它真正的性能

可以这样理解：redis基于网络，将内存中的变量，分享给其他进程甚至其他主机的进程使用

为什么不直接使用MySQL？
MySQL最大的问题在于慢，因为它使用硬盘进行存储。而某些应用对于速度相应的要求极高，此时只能使用redis

而redis最大的劣势在于内存有限，能存储的数据量小。将redis和MySQL结合，将20%的热点数据用redis存储，而80%的非热点数据用MySQL存储，就能使结合后的数据库的又大又快。此时redis相当于MySQL的cache，这也是冷热分离架构的关键，但是这样做的代价就是大大提升了系统的复杂程度

（redis最开始的目的是研发一个消息中间件streaming engine，即分布式系统下的生产消费模型。但随着慢慢地发展，大家发现将redis作为数据库来使用是更好的选择。即使redis也支持消息中间件的功能，但市面中存在更多专业的中间件供我们使用，因此对于redis消息队列相关的知识不作为重点学习）

以上文字中，“分布式”被频繁提及，事实也是如此：要谈Redis就离不开分布式

关于分布式系统

要谈分布式就离不开互联网产品架构的演进过程
早期的单机架构：应用服务和数据服务部署在一台主机上，而一台主机的资源有限，包括但不限于：CPU、内存、磁盘、网络…随着用户的请求增多，主机的资源不够使用时，如何处理？
两个方面：1. 开源：简单粗暴，增加更多的硬件资源 2. 节流：从软件上优化，找到性能凭借并解决，节省软件的资源消耗（难）

对于开源，虽然增加硬件资源更加容易，但是一台主机硬件资源存在上限，这个上限由主板的扩展能力决定
既然垂直扩展不行，那就水平扩展，水平扩展就是引入更多的主机，而主机一多，就需要在软件上进行相应的调整和适配
围绕着软件的调整和适配，互联网应用的架构就开始了演进，分布式系统架构就属于演进中的关键一环（不太准确的说：就是使用多台主机/节点存储数据）。至于具体的演进，这里不再赘述，有兴趣可以看我写的上一篇文章

Redis特性

根据官网给出的资料：

使用内存存储数据结构（In-memory data structures）：Redis作为非关系型数据库，用数据结构存储数据。数据结构一般都是键值对，以string作为key，string, hash, list, set, zset…作为value。相比于关系型数据库以“表”的方式存储数据，非关系型数据库的存储方式显然更简单
可编程（Programmability）：对于Redis，可以使用简单的命令进行交互，也可以使用脚本语言Lua执行一些带有简单逻辑的操作
可扩展（Extensibility）：Redis提供了一组API，可以使用C，C++，Rust语言调用这些API。因此我们能自主地扩展Redis的功能（本质上是使用API编写动态链接库）
持久化（Persistence）：Redis主要使用内存存储数据，并且以硬盘作为辅助。Redis会将内存中的数据持久化到硬盘中，若系统发生问题导致了重启，那么Redis会从硬盘读取备份数据
集群化（Clustering）：类似于分库分表，可以部署多个Redis节点用来存储数据，每个节点存储整体数据的一部分
高可用（High availability）：即数据的备份。Redis支持主从结构，主节点崩溃，从节点马上顶上代替主节点，这个过程用时极短，用户甚至感知不到

最重要的一个特性是：快，为什么？

Redis存储在内存中
Redis作为非关系型数据库，核心功能的逻辑简单，执行效率高
从网络上看，Redis使用IO多路复用（epoll）
Redis为单线程模型，减少了不必要的线程竞争开销（为什么Redis中，单线程比多线程快？多线程更快的场景为：CPU密集型任务，此时多线程能充分地利用CPU多核资源。而Redis的任务只是简单的操作数据结构，不是CPU密集型任务，使用多线程反而会变慢）

Redis应用场景

实时数据存储（Real-time data store）：将Redis作为数据库使用。对于大多数应用，它们的数据存储需要优先考虑“大”，但是对于一部分应用，它们的数据存储需要优先考虑“快”。如搜索引擎对于性能的要求非常高，需要将所有的数据存储在内存中，此时可用考虑Redis
缓存与会话存储（Caching & session storage）：在冷热分离架构中，Reids作为MySQL的辅助，存储热点数据以提高访问热点数据的速度。此时Redis只是一个辅助，若Redis崩溃了，数据还能从MySQL中恢复。会话存储：访问web应用时，本地浏览器用cookie保存了用户的身份信息，而远端服务器用session存储用户信息，只有两者的信息匹配，才能成功验证用户信息。但在应用服务集群中，每次访问的应用服务器可能都不相同，此时将出现一台服务器保存了session，而其他服务器没有保存session。为了减少用户的验证次数，采用Redis保存用户session，服务器从Redis中更新用户session
消息队列（Streaming & messaging）：基于Redis的消息队列可以实现一个基于网络的生产消费模型。若当前应用中已经使用了Redis，又不想引入其他的中间件时，可以考虑Redis的消息队列

Redis不能做的事：存储大规模数据

Redis5安装

安装

apt install -y redis

验证

redis-server --version
netstat -nltp | grep redis

发现redis只开放了本地环回的端口，意味着不能从外网连接redis服务，这里修改配置文件，使外网IP也能访问redis服务

cd /etc/redis

其中的redis.conf就是redis的配置文件（通过配置文件开启/关闭/设定软件的某些功能）
编辑该文件

vim redis.conf

找到bind这句话

将127.0.0.1修改成0.0.0.0即可

再找到protected-mode，将yes修改为no

最后重启服务器使配置生效

service redis-server restart  # 重启redis服务
service redis-server status   # 查看redis运行状态

active（running）表示正常运行，此时修改配置文件成功

使用redis客户端连接服务器，输入以下语句即可

redis-cli

输入ping，返回PONG说明连接成功
ctrl+d退出redis客户端

redis命令

同mysql一样，redis也是客户端-服务器程序
redis的快体现在：与关系型数据库相比（如MySQL），redis快很多。但是与直接在内存中定义数据结构存储数据相比，redis就慢得多了。因为redis是客户端服务器程序，相比于直接操作内存，redis还需要先进行网络传输以获取操作命令

通过官网Redis中的搜索框，输入命令就能查看命令的相关文档

最核心的两个命令：get和set

哈希表怎么用，redis就怎么用

set：将键值对存入数据库

set key value

对于key和value，没有必要加引号

get：根据key取value
如果kv不存在，将返回nil

keys

key固定为字符串，但value有多种类型，常见的有五种：字符串、哈希表、列表、集合、有序集合，操作不用的数据结构，就有不同的命令。全局命令则能操作任意数据结构，keys就是一个全局命令

keys：通过一些特殊符号（通配符）描述key，匹配描述的key将被返回

keys pattern

pattern用来描述key需要符合的条件

？匹配一个字符
*匹配一个/多个字符
[aef]只能匹配a或者e或者f（给出固定的选项）
[^e]除了e都能匹配（排除e）
[a-e]a到e之间的字符都可选，包含a和e

keys的时间复杂度为 $O (n)$ ，生产环境中进行使用keys，特别是keys *
因为redis是单线程程序，keys将导致redis被阻塞，使得MySQL的负载升高，可能导致redis和MySQL都一起挂掉，甚至系统崩溃

exits

返回key存在的个数（针对n个key，只会返回0~n之间的数）

exits key [key ...]

时间复杂度 $O (n)$ ，n为输入的key的个数
redis的很多命令都支持多个key/完成多个操作，目的是为了减少网络IO次数

del

一次删除一个/多个key，返回删除key的个数

del key [key, ...]

时间复杂度 $O (n)$ ，n为输入的key的个数

若将redis作为缓存，删除个别数据对整体的业务影响不大，因为redis可以从mysql中重新读取数据。但是依然建议，对于删除操作要小心谨慎

expire

给key设置过期时间（单位：秒），存活时间超过这个值就删除key（应用场景如验证码，基于redis实现分布式锁）

expire key seconds
pexpire key 毫秒

时间复杂度 $O (1)$
返回值为1表示成功，0表示失败
注意：对key设置expire之前，key必须存在，否则将设置失败

ttl

time to live，查看当前key的过期时间，单位：秒
pttl，单位：毫秒

ttl key

时间复杂度 $O (1)$
返回值：剩余过期时间，-1表示没有关联过期时间（无穷大），-2表示key不存在

redis中key的过期策略

两个策略相结合：

定期删除：每次抽取一部分key，并保证将这些key全部遍历一遍的时间足够快（单线程）
惰性删除：时间到了但不删除这个key，用户下次服务这个key时触发删除同时返回nil

然而redis并没有采用定时删除的策略，可能因为引入了定时删除就需要引入多线程
（定时删除策略的实现方式有两种：1. 时间轮 2. 优先级队列）

type

返回key对应value的类型（none, string, set, zset, list, hash)

type key

redis数据类型的内部实现方式

redis会根据value的具体数值，采用不同的内部类型进行存储。如string有多种内部类型，但是这些内部类型暴露给外部的接口都是相同的

string
- raw：redis实现的最基本字符串
- int：当value就是整数类型时，redis直接使用int进行存储。int通常也用来实现一些特定功能（如计数）
- embstr：针对短字符串进行的特殊优化
hash
- hashtable：redis实现的最基本哈希表
- ziplist：哈希表中，元素比较少时，使用ziplist（压缩列表）节省空间
list
- linkedlist：redis实现的最基本list
- ziplist
- 从redis3.2开始，引入quicklist代替linkedlist和ziplist，兼顾两者的优点
set
- hashtable
- intset：集合中都是整数
zset
- skiplist：跳表，查询效率为 $O (l o g n)$
- ziplist

使用

object encoding key

查看key对应value的内部类型

redis的单线程

redis的单线程并不是说redis内部真的只有一个线程，只是说redis只用一个线程处理所有的命令请求。redis中也有多线程，如网络IO时采用了多线程

为什么redis能够使用单线程？核心业务简单，不消耗cpu资源

若两个客户端“同时”发起一个命令，两个命令相同，都是对某个变量进行自增。虽然两个客户端几乎同时发起命令，但是它们的到达时间存在先后。对于单线程，先到达的先执行，显然不存在线程安全问题

为什么redis比其他数据库效率高？速度快？（和关系型数据库MySQL，Oracle对比）

redis访问内存，其他数据库访问磁盘
redis的核心功能比其他数据库简单。关系型数据库支持了更复杂的功能，比如约束。为了维护这些功能，每次的操作都会导致额外的开销
redis的单线程模型，避免了不必要的线程竞争开销，由于redis的核心功能简单，不消耗cpu资源，采用单线程足以满足需求
redis处理网络IO时，使用epoll这样的IO多路复用机制（在TCP连接中，使用一个线程管理多个socket。因为同一时刻只有少数socket是活跃的，所以可以充分利用等待socket进行IO的时间）