简介
在我们平时开发过程中,会有一些bool型数据需要存取,比如用户一年的签到记录,签了是1,没签是0,要记录365天。如果使用普通的key/value,每个用户要记录365个,当用户上亿的时候,需要的存储空间是惊人的。
为了解决这个问题,Redis提供了位图数据结构
,这样每天的签到记录只占据一个位,365天就是365个位,46个字节(一个稍长一点的字符串)就可以完全容纳,这就大大节约了存储空间。
位图不是特殊的数据结构,他的内容其实就是普通的字符串,也就是byte数组。我们可以使用普通的get/set直接获取和设置整个位图的内容,也可以使用位图操作getbit/setbit等将byte数组看成【位数组】来处理。
基本使用
Redis的位数组是自动扩展,如果设置了某个偏移位置超出了现有的内容范围,就会自动将位数组进行零扩充。如下图所示位“he”的ASCII码,使用redis-cli设置第一个字符,也就是位数组的前8位,如下图所示,h字符只有1/2/4位需要设置,e字符只有9/10/13/15位需要设置。值的注意的是位数组的顺序和字符的位顺序是相反的。
redis-cli示例
127.0.0.1:6379> setbit s 1 1
(integer) 0
127.0.0.1:6379> setbit s 2 1
(integer) 0
127.0.0.1:6379> setbit s 4 1
(integer) 0
127.0.0.1:6379> setbit s 9 1
(integer) 0
127.0.0.1:6379> setbit s 10 1
(integer) 0
127.0.0.1:6379> setbit s 13 1
(integer) 0
127.0.0.1:6379> setbit s 15 1
(integer) 0
127.0.0.1:6379> get s
"he"
上面这个例子可以理解为【零存整取】,同样我们还可以【零存零取】,【整存零取】。【零存】就是使用setbit对位值进行逐个设置,【整存】就是使用字符串一次性填充所有位数组,覆盖掉旧值。
零存零取
127.0.0.1:6379> setbit w 1 1
(integer) 0
127.0.0.1:6379> setbit w 2 1
(integer) 0
127.0.0.1:6379> setbit w 4 1
(integer) 0
127.0.0.1:6379> getbit w 1
(integer) 1
127.0.0.1:6379> getbit w 2
(integer) 1
127.0.0.1:6379> getbit w 4
(integer) 1
127.0.0.1:6379> getbit w 5
(integer) 0
整存零取
127.0.0.1:6379> set w h # 整存 (integer) 0
127.0.0.1:6379> getbit w 1
(integer) 1
127.0.0.1:6379> getbit w 2
(integer) 1
127.0.0.1:6379> getbit w 4
(integer) 1
127.0.0.1:6379> getbit w 5
(integer) 0
如果对应位的字节是不可打印字符,redis-cli会显示该字符的16进制形式。
127.0.0.1:6379> setbit x 0 1
(integer) 0
127.0.0.1:6379> setbit x 1 1
(integer) 0
127.0.0.1:6379> get x
"\xc0"
统计和查找
Redis提供了位图统计指令bitcount和位图查找指令bitpos,bitcount是用来统计指定位置范围内1的个数,bitpos用来查找指定范围内出现的第一个0或1.
比如我们可以通过bitcount统计用户一共签到了多少天,通过bitpos指令查找用户从哪一天开始签到,如果指定了范围参数[start,end],就可以统计在某个时间范围内用户签到了多少天,用户自某天以后的哪天开始签到。
注意,start和end是字节索引,8个bit为一字节,如图中的“he”字符串,对应的ASCII码为 01101000 01100101,其中第0字节为01101000,第一个字节为01100101。因此,如果要计算某个月内用户签到了多少天,无法直接计算得出,而是需要讲这个月所覆盖的字节内容全部取出,然后在内存里进行统计。
示例:
127.0.0.1:6379> set w he
OK
127.0.0.1:6379> bitcount w
(integer) 7
127.0.0.1:6379> bitcount w 0 0 # 第一个字节中 1 的位数
(integer) 3
127.0.0.1:6379> bitcount w 0 1 # 前两个字节中 1 的位数
(integer) 7
127.0.0.1:6379> bitcount w 1 1 # 第二个字节中 1 的位数
(integer) 4
127.0.0.1:6379> bitpos w 0 # 第一个 0 位
(integer) 0
127.0.0.1:6379> bitpos w 1 # 第一个 1 位
(integer) 1
127.0.0.1:6379> bitpos w 1 1 1 # 从第二个字符算起,第一个 1 位
(integer) 9
魔术指令bitfield
前文我们设置(setbit)和获取(getbit)指定位的值都是单个位的,如果要一次操作多个位,就必须使用管道来处理。bitfield有三个子指令,分别是get/set/incrby,他们都可以对指定位片段进行读写,但是最多只能处理64个连续的位,如果超过64位,就需要使用多个子指令,bitfield可以一次执行多个子指令。
仍然使用上面的例子,“he”对应的ASCII码表示
127.0.0.1:6379> set w hello
OK
127.0.0.1:6379> bitfield w get u4 0 # 从第一个位开始取 4 个位,结果是无符号数 (u)
(integer) 6
127.0.0.1:6379> bitfield w get u3 2 # 从第三个位开始取 3 个位,结果是无符号数 (u)
(integer) 5
127.0.0.1:6379> bitfield w get i4 0 # 从第一个位开始取 4 个位,结果是有符号数 (i)
(integer) 6
127.0.0.1:6379> bitfield w get i3 2# 从第三个位开始取 3 个位,结果是有符号数 (i)
(integer) -3
所谓有符号数指获取的位数组中第一个位是符号位,剩下的都是值。如果第一位是1,那就是负数。无符号数表示非负数,没有符号位,获取的位数组全部都是值。有符号数最多可以获取64位,无符号数只能获取63位。如果超出位数限制,Redis会提示参数错误。
一次执行多个指令示例
127.0.0.1:6379> bitfield w get u4 0 get u3 2 get i4 0 get i3 2
1) (integer) 6
2) (integer) 5
3) (integer) 6
4) (integer) -3