大家好, 今天跟小伙伴们一起学习Redis的主从、哨兵、Redis Cluster集群。
面试官经常会问到Redis的高可用。Redis高可用回答包括两个层面,一个就是数据不能丢失,或者说尽量减少丢失;另外一个就是保证Redis服务不中断。
Redis主从同步包括三个阶段。
第一阶段:主从库间建立连接、协商同步。
- 从库向主库发送
psync
命令,告诉它要进行数据同步。- 主库收到
psync
命令后,响应FULLRESYNC
命令(它表示第一次复制采用的是全量复制),并带上主库runID
和主库目前的复制进度offset
。
第二阶段:主库把数据同步到从库,从库收到数据后,完成本地加载。
- 主库执行
bgsave
命令,生成RDB
文件,接着将文件发给从库。从库接收到RDB
文件后,会先清空当前数据库,然后加载 RDB 文件。- 主库把数据同步到从库的过程中,新来的写操作,会记录到
replication buffer
。
第三阶段,主库把新写的命令,发送到从库。
- 主库完成RDB发送后,会把
replication buffer
中的修改操作发给从库,从库再重新执行这些操作。这样主从库就实现同步啦。
因为主从复制是异步进行的,如果从库滞后执行,则会导致主从数据不一致。
主从数据不一致一般有两个原因:
hgetall
等)。如何解决主从数据不一致问题呢?
Redis删除数据有这几种策略:
如果使用Redis版本低于3.2,读从库时,并不会判断数据是否过期,而是会返回过期数据。而3.2 版本后,Redis做了改进,如果读到的数据已经过期了,从库不会删除,却会返回空值,避免了客户端读到过期数据。
因此,在主从Redis模式下,尽量使用 Redis 3.2以上的版本。
如果是一主多从模式,从库很多的时候,如果每个从库都要和主库进行全量复制的话,主库的压力是很大的。因为主库fork进程生成RDB,这个fork的过程是会阻塞主线程处理正常请求的。同时,传输大的RDB文件也会占用主库的网络宽带。
可以使用主-从-从模式解决。什么是主从从模式呢?其实就是部署主从集群时,选择硬件网络配置比较好的一个从库,让它跟部分从库再建立主从关系。如图:
主从库完成了全量复制后,它们之间会维护一个网络长连接,用于主库后续收到写命令传输到从库,它可以避免频繁建立连接的开销。但是,如果网络断开重连后,是否还需要进行一次全量复制呢?
如果是Redis 2.8之前,从库和主库重连后,确实会再进行一次全量复制,但是这样开销就很大。而Redis 2.8之后做了优化,重连后采用增量复制方式,即把主从库网络断连期间主库收到的写命令,同步给从库。
主从库重连后,就是利用repl_backlog_buffer实现增量复制。
当主从库断开连接后,主库会把断连期间收到的写操作命令,写入replication buffer,同时也会把这些操作命令写入repl_backlog_buffer这个缓冲区。repl_backlog_buffer是一个环形缓冲区,主库会记录自己写到的位置,从库则会记录自己已经读到的位置。
主从模式中,一旦主节点由于故障不能提供服务,需要人工将从节点晋升为主节点,同时还要通知应用方更新主节点地址。显然,多数业务场景都不能接受这种故障处理方式。Redis从2.8开始正式提供了Redis哨兵机制来解决这个问题。
哨兵其实是一个运行在特殊模式下的Redis进程。它有三个作用,分别是:监控、自动选主切换(简称选主)、通知。
哨兵进程在运行期间,监视所有的Redis主节点和从节点。它通过周期性给主从库发送PING
命令,检测主从库是否挂了。如果从库没有在规定时间内响应哨兵的PING
命令,哨兵就会把它标记为下线状态;如果主库没有在规定时间内响应哨兵的PING
命令,哨兵则会判定主库下线,然后开始切换到选主任务。
所谓选主,其实就是从多个从库中,按照一定规则,选出一个当做主库。至于通知呢,就是选出主库后,哨兵把新主库的连接信息发给其他从库,让它们和新主库建立主从关系。同时,哨兵也会把新主库的连接信息通知给客户端,让它们把请求操作发到新主库上。
因为Redis哨兵也是一个Redis进程,如果它自己挂了呢,那是不是就起不了监控的作用啦。我们一起来看下Redis哨兵模式
哨兵模式,就是由一个或多个哨兵实例组成的哨兵系统,它可以监视所有的Redis主节点和从节点,并在被监视的主节点进入下线状态时,自动将下线主服务器属下的某个从节点升级为新的主节点。,一个哨兵进程对Redis节点进行监控,就可能会出现问题(单点问题)。因此,一般使用多个哨兵来进行监控Redis节点,并且各个哨兵之间还会进行监控。
其实哨兵之间是通过发布订阅机制组成集群的,同时,哨兵又通过INFO
命令,获得了从库连接信息,也能和从库建立连接,从而进行监控。
哨兵是如何判断主库是否下线的呢?我们先来了解两个基础概念哈:主观下线和客观下线。
假设我们有
N
个哨兵实例,如果有N/2+1
个实例判断主库主观下线,此时就可以把节点标记为客观下线,就可以做主从切换了。
PING
命令。PING
命令的时间超过down-after-milliseconds
选项所指定的值, 则这个实例会被哨兵标记为主观下线。PING
命令返回有效回复,主库的主观下线状态就会被移除。如果明确主库已经客观下线了,哨兵就开始了选主模式。
哨兵选主包括两大过程,分别是:过滤和打分。其实就是在多个从库中,先按照一定的筛选条件,把不符合条件的从库过滤掉。然后再按照一定的规则,给剩下的从库逐个打分,将得分最高的从库选为新主库
down-after-milliseconds
,它表示我们认定主从库断连的最大连接超时时间。slave-priority
配置。如果优先级一样,就选与旧的主库复制进度最快的从库。如果优先级和从库进度都一样,从库ID 号小的打分高。一个哨兵标记主库为主观下线后,它会征求其他哨兵的意见,确认主库是否的确进入了主观下线状态。它向其他实例哨兵发送is-master-down-by-addr
命令。其他哨兵会根据自己和主库的连接情况,回应Y
或N
(Y 表示赞成,N表示反对票)。如果这个哨兵获取得足够多的赞成票数(quorum
配置),主库会被标记为客观下线。
标记主库客观下线的这个哨兵,紧接着向其他哨兵发送命令,再发起投票,希望它可以来执行主从切换。这个投票过程称为Leader 选举。因为最终执行主从切换的哨兵称为Leader,投票过程就是确定Leader。一个哨兵想成为Leader需要满足两个条件:
num(sentinels)/2+1
的赞成票。quorum
值。举个例子,假设有3个哨兵。配置的quorum值为2。即一个一个哨兵想成为Leader至少需要拿到2张票。为了更好理解,大家可以看下
N
给A3。Y
。N
。Y
赞成票,而哨兵A3得到两张赞成票(A2和A3投的),因此哨兵A3成为了Leader。假设网络故障等原因,哨兵A3也没有收到两张票,那么这轮投票就不会产生Leader。哨兵集群会等待一段时间(一般是哨兵故障转移超时时间的2倍),再进行重新选举。
假设哨兵模式架构如下,有三个哨兵,一个主库M,两个从库S1和S2。
当哨兵检测到Redis主库M1出现故障,那么哨兵需要对集群进行故障转移。假设选出了哨兵3作为Leader。故障转移流程如下:
故障转移后:
哨兵模式基于主从模式,实现读写分离,它还可以自动切换,系统可用性更高。但是它每个节点存储的数据是一样的,浪费内存,并且不好在线扩容。因此,Reids Cluster集群(切片集群的实现方案)应运而生,它在Redis3.0加入的,实现了Redis的分布式存储。对数据进行分片,也就是说每台Redis节点上存储不同的内容,来解决在线扩容的问题。并且,它可以保存大量数据,即分散数据到各个Redis实例,还提供复制和故障转移的功能。
比如你一个Redis实例保存15G甚至更大的数据,响应就会很慢,这是因为Redis RDB 持久化机制导致的,Redis会fork子进程完成 RDB 持久化操作,fork执行的耗时与 Redis 数据量成正相关。
这时候你很容易想到,把15G数据分散来存储就好了嘛。这就是Redis切片集群的初衷。切片集群是啥呢?来看个例子,如果你要用Redis保存15G的数据,可以用单实例Redis,或者3台Redis实例组成切片集群,对比如下:
切片集群和Redis Cluster 的区别:Redis Cluster是从Redis3.0版本开始,官方提供的一种实现切片集群的方案。
既然数据是分片分布到不同Redis实例的,那客户端到底是怎么确定想要访问的数据在哪个实例上呢?我们一起来看下Reids Cluster是怎么做的哈。
Redis Cluster方案采用哈希槽(Hash Slot
),来处理数据和实例之间的映射关系。
一个切片集群被分为16384
个slot(槽),每个进入Redis的键值对,根据key进行散列,分配到这16384插槽中的一个。使用的哈希映射也比较简单,用CRC16
算法计算出一个16bit
的值,再对16384
取模。数据库中的每个键都属于这16384个槽的其中一个,集群中的每个节点都可以处理这16384个槽。
集群中的每个节点负责一部分的哈希槽,假设当前集群有A、B、C3个节点,每个节点上负责的哈希槽数 =16384/3,那么可能存在的一种分配:
客户端给一个Redis实例发送数据读写操作时,如果这个实例上并没有相应的数据,会怎么样呢?MOVED重定向和ASK重定向了解一下哈
在Redis cluster模式下,节点对请求的处理过程如下:
客户端给一个Redis实例发送数据读写操作时,如果计算出来的槽不是在该节点上,这时候它会返回MOVED重定向错误,MOVED重定向错误中,会将哈希槽所在的新实例的IP和port端口带回去。这就是Redis Cluster的MOVED重定向机制。流程图如下:
Ask重定向一般发生于集群伸缩的时候。集群伸缩会导致槽迁移,当我们去源节点访问时,此时数据已经可能已经迁移到了目标节点,使用Ask重定向可以解决此种情况。
一个Redis集群由多个节点组成,各个节点之间是怎么通信的呢?通过Gossip协议!Gossip是一种谣言传播协议,每个节点周期性地从节点列表中选择 k 个节点,将本节点存储的信息传播出去,直到所有节点信息一致,即算法收敛了。
Gossip协议基本思想:一个节点想要分享一些信息给网络中的其他的一些节点。于是,它周期性的随机选择一些节点,并把信息传递给这些节点。这些收到信息的节点接下来会做同样的事情,即把这些信息传递给其他一些随机选择的节点。一般而言,信息会周期性的传递给N个目标节点,而不只是一个。这个N被称为fanout
Redis Cluster集群通过Gossip协议进行通信,节点之前不断交换信息,交换的信息内容包括节点出现故障、新节点加入、主从节点变更信息、slot信息等等。gossip协议包含多种消息类型,包括ping,pong,meet,fail,等等
特别的,每个节点是通过集群总线(cluster bus) 与其他的节点进行通信的。通讯时,使用特殊的端口号,即对外服务端口号加10000。例如如果某个node的端口号是6379,那么它与其它nodes通信的端口号是 16379。nodes 之间的通信采用特殊的二进制协议。
Redis集群实现了高可用,当集群内节点出现故障时,通过故障转移,以保证集群正常对外提供服务。
redis集群通过ping/pong消息,实现故障发现。这个环境包括主观下线和客观下线。
主观下线: 某个节点认为另一个节点不可用,即下线状态,这个状态并不是最终的故障判定,只能代表一个节点的意见,可能存在误判情况。
主观下线
客观下线: 指标记一个节点真正的下线,集群内多个节点都认为该节点不可用,从而达成共识的结果。如果是持有槽的主节点故障,需要为该节点进行故障转移。
流程如下:
客观下线
故障恢复:故障发现后,如果下线节点的是主节点,则需要在它的从节点中选一个替换它,以保证集群的高可用。流程如下:
对于客户端请求过来的键值key,哈希槽=CRC16(key) % 16384
,CRC16算法产生的哈希值是16bit的,按道理该算法是可以产生2^16=65536个值,为什么不用65536,用的是16384(2^14)
呢?
大家可以看下作者的原始回答:
Redis 每个实例节点上都保存对应有哪些slots,它是一个unsigned char slots[REDIS_CLUSTER_SLOTS/8]
类型
65536
,占空间= 65536 / 8(一个字节8bit) / 1024(1024个字节1kB) =8kB
,如果使用slots数量是 16384
,所占空间 = 16384 / 8(每个字节8bit) / 1024(1024个字节1kB) = 2kB
,可见16384个slots比 65536省 6kB内存左右,假如一个集群有100个节点,那每个实例里就省了600kB啦既然为了节省内存网络开销,为什么 slots不选择用8192(即16384/2) 呢?
8192 / 8(每个字节8bit) / 1024(1024个字节1kB) = 1kB
,只需要1KB!可以先看下Redis 把 Key 换算成所属 slots 的方法
unsigned int keyHashSlot(char *key, int keylen) {
int s, e; /* start-end indexes of { and } */
for (s = 0; s < keylen; s++)
if (key[s] == '{') break;
/* No '{' ? Hash the whole key. This is the base case. */
if (s == keylen) return crc16(key,keylen) & 0x3FFF;
/* '{' found? Check if we have the corresponding '}'. */
for (e = s+1; e < keylen; e++)
if (key[e] == '}') break;
/* No '}' or nothing betweeen {} ? Hash the whole key. */
if (e == keylen || e == s+1) return crc16(key,keylen) & 0x3FFF;
/* If we are here there is both a { and a } on its right. Hash
* what is in the middle between { and }. */
return crc16(key+s+1,e-s-1) & 0x3FFF;
}
Redis 将key换算成slots 的方法:其实就是是将crc16(key) 之后再和slots的数量进行与计算
这里为什么用0x3FFF(16383)
来计算,而不是16384
呢?因为在不产生溢出的情况下 x % (2^n)
等价于x & (2^n - 1)
即 x % 16384 == x & 16383
那到底为什么不用8192呢?
crc16 出来结果,理论上出现重复的概率为 1⁄65536,但实际结果重复概率可能比这个大不少,就像crc32 结果 理论上 1/40亿 分之一,但实际有人测下来10万碰撞的概率就比较大了。假如 slots 设置成 8192, 200个实例的节点情况下,理论值是 每40个不同key请求,命中就会失效一次,假如节点数增加到400,那就是20个请求。并且1kb 并不会比 2k 省太多,性价比不是特别高,所以可能 选16384会更为通用一点
[1]极客时间的《Redis 核心技术与实战》: https://time.geekbang.org/column/intro/100056701?tab=catalog
[2]Redis进阶 - 高可拓展:分片技术(Redis Cluster)详解: https://pdai.tech/md/db/nosql-redis/db-redis-x-cluster.html
[3]Redis slots 槽的数量为什么是16384: https://jc3wish.github.io/post/redis_slots_request_1/
本文由哈喽比特于2年以前收录,如有侵权请联系我们。
文章来源:https://mp.weixin.qq.com/s/8Dyp_SA7l4zLwaaVtPWBrw
京东创始人刘强东和其妻子章泽天最近成为了互联网舆论关注的焦点。有关他们“移民美国”和在美国购买豪宅的传言在互联网上广泛传播。然而,京东官方通过微博发言人发布的消息澄清了这些传言,称这些言论纯属虚假信息和蓄意捏造。
日前,据博主“@超能数码君老周”爆料,国内三大运营商中国移动、中国电信和中国联通预计将集体采购百万台规模的华为Mate60系列手机。
据报道,荷兰半导体设备公司ASML正看到美国对华遏制政策的负面影响。阿斯麦(ASML)CEO彼得·温宁克在一档电视节目中分享了他对中国大陆问题以及该公司面临的出口管制和保护主义的看法。彼得曾在多个场合表达了他对出口管制以及中荷经济关系的担忧。
今年早些时候,抖音悄然上线了一款名为“青桃”的 App,Slogan 为“看见你的热爱”,根据应用介绍可知,“青桃”是一个属于年轻人的兴趣知识视频平台,由抖音官方出品的中长视频关联版本,整体风格有些类似B站。
日前,威马汽车首席数据官梅松林转发了一份“世界各国地区拥车率排行榜”,同时,他发文表示:中国汽车普及率低于非洲国家尼日利亚,每百户家庭仅17户有车。意大利世界排名第一,每十户中九户有车。
近日,一项新的研究发现,维生素 C 和 E 等抗氧化剂会激活一种机制,刺激癌症肿瘤中新血管的生长,帮助它们生长和扩散。
据媒体援引消息人士报道,苹果公司正在测试使用3D打印技术来生产其智能手表的钢质底盘。消息传出后,3D系统一度大涨超10%,不过截至周三收盘,该股涨幅回落至2%以内。
9月2日,坐拥千万粉丝的网红主播“秀才”账号被封禁,在社交媒体平台上引发热议。平台相关负责人表示,“秀才”账号违反平台相关规定,已封禁。据知情人士透露,秀才近期被举报存在违法行为,这可能是他被封禁的部分原因。据悉,“秀才”年龄39岁,是安徽省亳州市蒙城县人,抖音网红,粉丝数量超1200万。他曾被称为“中老年...
9月3日消息,亚马逊的一些股东,包括持有该公司股票的一家养老基金,日前对亚马逊、其创始人贝索斯和其董事会提起诉讼,指控他们在为 Project Kuiper 卫星星座项目购买发射服务时“违反了信义义务”。
据消息,为推广自家应用,苹果现推出了一个名为“Apps by Apple”的网站,展示了苹果为旗下产品(如 iPhone、iPad、Apple Watch、Mac 和 Apple TV)开发的各种应用程序。
特斯拉本周在美国大幅下调Model S和X售价,引发了该公司一些最坚定支持者的不满。知名特斯拉多头、未来基金(Future Fund)管理合伙人加里·布莱克发帖称,降价是一种“短期麻醉剂”,会让潜在客户等待进一步降价。
据外媒9月2日报道,荷兰半导体设备制造商阿斯麦称,尽管荷兰政府颁布的半导体设备出口管制新规9月正式生效,但该公司已获得在2023年底以前向中国运送受限制芯片制造机器的许可。
近日,根据美国证券交易委员会的文件显示,苹果卫星服务提供商 Globalstar 近期向马斯克旗下的 SpaceX 支付 6400 万美元(约 4.65 亿元人民币)。用于在 2023-2025 年期间,发射卫星,进一步扩展苹果 iPhone 系列的 SOS 卫星服务。
据报道,马斯克旗下社交平台𝕏(推特)日前调整了隐私政策,允许 𝕏 使用用户发布的信息来训练其人工智能(AI)模型。新的隐私政策将于 9 月 29 日生效。新政策规定,𝕏可能会使用所收集到的平台信息和公开可用的信息,来帮助训练 𝕏 的机器学习或人工智能模型。
9月2日,荣耀CEO赵明在采访中谈及华为手机回归时表示,替老同事们高兴,觉得手机行业,由于华为的回归,让竞争充满了更多的可能性和更多的魅力,对行业来说也是件好事。
《自然》30日发表的一篇论文报道了一个名为Swift的人工智能(AI)系统,该系统驾驶无人机的能力可在真实世界中一对一冠军赛里战胜人类对手。
近日,非营利组织纽约真菌学会(NYMS)发出警告,表示亚马逊为代表的电商平台上,充斥着各种AI生成的蘑菇觅食科普书籍,其中存在诸多错误。
社交媒体平台𝕏(原推特)新隐私政策提到:“在您同意的情况下,我们可能出于安全、安保和身份识别目的收集和使用您的生物识别信息。”
2023年德国柏林消费电子展上,各大企业都带来了最新的理念和产品,而高端化、本土化的中国产品正在不断吸引欧洲等国际市场的目光。
罗永浩日前在直播中吐槽苹果即将推出的 iPhone 新品,具体内容为:“以我对我‘子公司’的了解,我认为 iPhone 15 跟 iPhone 14 不会有什么区别的,除了序(列)号变了,这个‘不要脸’的东西,这个‘臭厨子’。