您的位置:首页 > 数据库 > Redis

布隆过滤器&Redis缓存&穿透&雪崩&击穿&热点key

2020-03-10 00:25 316 查看

布隆过滤器

1、布隆过滤器是什么?(判断某个key一定不存在)
      1. 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构
      2. 特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”。
      3. 相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。
      使用:
        1. 布隆过滤器在NoSQL数据库领域中应用的非常广泛
        2. 当用户来查询某一个row时,可以先通过内存中的布隆过滤器过滤掉大量不存在的row请求,然后去再磁盘进行查询
        3. 布隆过滤器说某个值不存在时,那肯定就是不存在,可以显著降低数据库IO请求数量
        
2、应用场景
    1)场景1(给用户推荐新闻)
        1. 当用户看过的新闻,肯定会被过滤掉,对于没有看多的新闻,可能会过滤极少的一部分(误判)。
        2. 这样可以完全保证推送给用户的新闻都是无重复的。
    2)场景2(爬虫url去重)
        1. 在爬虫系统中,我们需要对url去重,已经爬取的页面不再爬取
        2. 当url高达几千万时,如果一个集合去装下这些URL地址非常浪费空间
        3. 使用布隆过滤器可以大幅降低去重存储消耗,只不过也会使爬虫系统错过少量页面
        
3、布隆过滤器原理
   
      添加:值到布隆过滤器
        1)向布隆过滤器添加key,会使用 f、g、h hash函数对key算出一个整数索引,然后对长度取余
        2)每个hash函数都会算出一个不同的位置,把算出的位置都设置成1就完成了布隆过滤器添加过程
      查询:布隆过滤器值
        1)当查询某个key时,先用hash函数算出一个整数索引,然后对长度取余
        2)当你有一个不为1时肯定不存在这个key,当全部都为1时可能有这个key
        3)这样内存中的布隆过滤器过滤掉大量不存在的row请求,然后去再磁盘进行查询,减少IO操作
      删除:不支持
        1)目前我们知道布隆过滤器可以支持 add 和 isExist 操作
        2)如何解决这个问题,答案是计数删除,但是计数删除需要存储一个数值,而不是原先的 bit 位,会增大占用的内存大小。
        3)增加一个值就是将对应索引槽上存储的值加一,删除则是减一,判断是否存在则是看值是否大于0。

Redis 缓存场景

客户端请求在缓存层命中直接返回内容,如果Miss就去存储层读取,存储层读取到数据再写入缓存层,然后再返回客户端。

优点:

  • 加速读写效率
  • 降低后端负载
  • 减少存储层压力

缺点:

  • 数据不能保证一致性
  • 代码维护成本和运维成本

主从复制
主节点数据更新后根据配置和策略,自动同步到备节点的master/slaver的机制,主节点负责写数据,从节点负责读数据,主节点定期把数据同步到从节点保证数据的一致性。
优点:

  • 读写分离
  • 容灾恢复

缺点:

  • 主从复制,若主节点出现问题,则不能提供服务,需要人工修改配置将从变主
  • 主从复制主节点的写能力单一,能力有限
  • 单机节点的存储能力也有限

缓存穿透

1)定义
        1. 缓存穿透是指查询一个一定不存在的数据,由于缓存不命中,接着查询数据库也无法查询出结果,
        2. 虽然也不会写入到缓存中,但是这将会导致每个查询都会去请求数据库,造成缓存穿透;
        3.在查询一个不存在的数据时,在缓存层查不到数据则会去访问存储层,且返回的空数据也不会写入缓存层。这将导致不存在的数据每次查询都必定会到存储层查询,缓存层失去了存在的意义。当大量恶意查询不存在数据时,可能因为频繁访问导致数据库宕机。
        
2)解决方法 :
布隆过滤

对所有可能查询的参数以hash形式存储,在控制层先进行校验,不符合则丢弃,将所有可能存在的数据哈希到一个足够发的 bigmap 中,一个一定不存在的数据会被该 bigmap 拦截掉,从而避免对底层存储系统造成查询压力。
       

【推荐】如果一个查询返回的数据为空(无论数据为空,或是系统故障),将空结果进行缓存,设置一个最长不超过五分钟的过期时间。这样过期时间内查询的时候就会直接在缓存层获取,并直接返回null。

雪崩效应

1)定义      
        1. 缓存雪崩是指,由于缓存层承载着大量请求,有效的保护了存储层,但是如果缓存层由于某些原因整体不能提供服务
        2. 于是所有的请求都会达到存储层,存储层的调用量会暴增,造成存储层也会挂掉的情况。
        
2)解决方法
        1. 保证缓存层服务高可用性:比如 Redis Sentinel 和 Redis Cluster 都实现了高可用
        2. 依赖隔离组件为后端限流并降级:比如对某个key只允许一个线程查询数据和写缓存,其他线程等待。
        

缓存击穿

1)定义:
        1. 缓存击穿,就是说某个 key 非常热点,访问非常频繁,处于集中式高并发访问的情况
        2. 当这个 key 在失效的瞬间,大量的请求就击穿了缓存,直接请求数据库,就像是在一道屏障上凿开了一个洞。
        
2)解决方法
        1. 解决方式也很简单,可以将热点数据设置为永远不过期;
        2. 或者基于 redis or zookeeper 实现互斥锁,等待第一个请求构建完缓存之后,再释放锁,进而其它请求才能通过该 key 访问数据

热点KEY

热点问题产生原因

热点问题产生的原因大致有以下两种:

1.1 用户消费的数据远大于生产的数据(热卖商品、热点新闻、热点评论、明星直播)。
在日常工作生活中一些突发的的事件,例如:

双十一期间某些热门商品的降价促销,当这其中的某一件商品被数万次点击浏览或者购买时,会形成一个较大的需求量,这种情况下就会造成热点问题。

同理,被大量刊发、浏览的热点新闻、热点评论、明星直播等,这些典型的读多写少的场景也会产生热点问题。

1.2 请求分片集中,超过单 Server 的性能极限。

在服务端读数据进行访问时,往往会对数据进行分片切分。

此过程中会在某一主机 Server 上对相应的 Key 进行访问,当访问超过 Server 极限时,就会导致热点 Key 问题的产生。
热点问题的危害

• 流量集中,达到物理网卡上限。

• 请求过多,缓存分片服务被打垮。

• DB 击穿,引起业务雪崩。

如何解决热点key的问题

目前业内的方案有两种

(1)利用二级缓存

比如利用 ehcache ,或者一个 HashMap 都可以。在你发现热key以后,把热key加载到系统的JVM中。

针对这种热key请求,会直接从jvm中取,而不会走到redis层。

假设此时有十万个针对同一个key的请求过来,如果没有本地缓存,这十万个请求就直接怼到同一台redis上了。

现在假设,你的应用层有50台机器,OK,你也有jvm缓存了。这十万个请求平均分散开来,每个机器有2000个请求,会从JVM中取到value值,然后返回数据。避免了十万个请求怼到同一台redis上的情形。

(2)备份热key

这个方案也很简单。不要让key走到同一台redis上不就行了。我们把这个key,在多个redis上都存一份不就好了。接下来,有热key请求进来的时候,我们就在有备份的redis上随机选取一台,进行访问取值,返回数据。

  • 点赞
  • 收藏
  • 分享
  • 文章举报
代码搬运小能手 发布了42 篇原创文章 · 获赞 33 · 访问量 2715 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: