布隆过滤器原理及实现

过滤器,原理,及实现 · 浏览次数 : 30

小编点评

## Bloom过滤器原理与作用详解 **什么是 Bloom过滤器?** Bloom过滤器是一种数据结构,用于快速判断一个字符串是否在缓存中。 它通过对字符串的每个字符进行哈希操作,并根据哈希值在缓存中查找匹配的字符。 **工作原理:** 1. 创建一个布隆过滤器,其大小为缓存的长度。 2. 将字符串的每个字符进行哈希操作,并将其存储在布隆过滤器中。 3. 当要读取缓存中的数据时,先从布隆过滤器中查找是否存在匹配的字符。 4. 如果匹配,则该数据在缓存中。 5. 如果未匹配,则该数据不在缓存中。 **优点:** * 快速判断数据是否在缓存中。 * 可以缓存大量的字符,从而提高缓存的性能。 **缺点:** * 无法百分百的判断数据是否在缓存中。 * 存储布隆过滤器需要一定的时间。 **实现:** **Java 中的 BloomFilter:** ```go import ( "github.com/HobbyBear/codelearning/tree/master/bloomfilter" ) func main() { // 创建布隆过滤器 filter := bloomfilter.New(1024) // 添加数据 filter.Add("hello") filter.Add("world") // 检索数据 if found := filter.MightContain("hello"); found { fmt.Println("数据已找到") } else { fmt.Println("数据未找到") } } ``` **golang 中的 BloomFilter:** ```go import ( "github.com/HobbyBear/codelearning/tree/master/bloomfilter" ) func main() { // 创建布隆过滤器 filter := bloomfilter.New(1024) // 添加数据 filter.Add("hello") filter.Add("world") // 检索数据 if found := filter.MightContain("hello"); found { fmt.Println("数据已找到") } else { fmt.Println("数据未找到") } } ``` **注意:** * `m` 是布隆过滤器的大小,通常设置为 1024。 * `k` 是哈希函数的个数,通常设置为 16。 * `bitset` 是一个布尔数组,用于存储布隆过滤器中每个字符是否被添加的标志。

正文

大家好,我是蓝胖子,我一直相信编程是一门实践性的技术,其中算法也不例外,初学者可能往往对它可望而不可及,觉得很难,学了又忘,忘其实是由于没有真正搞懂算法的应用场景,所以我准备出一个系列,囊括我们在日常开发中常用的算法,并结合实际的应用场景,真正的感受算法的魅力。

今天,我们就来学习下布隆过滤器的原理以及作用。

代码已经上传到github

https://github.com/HobbyBear/codelearning/tree/master/bloomfilter

作用

通常我们在缓存层前面会添加一层布隆过滤器,它能够迅速的判断那些一定不在缓存中的数据,防止缓存击穿。

布隆过滤器返回false的数据一定不在缓存里,返回true的数据也可能不在缓存里。即使不能百分百判断数据是否一定存在于缓存中,它依然能够过滤大量的无效不在缓存中的数据,所以被广泛使用。

原理

为啥不能百分百的判断数据是否一定存在,这就需要来了解下布隆过滤器的原理。在构建布隆过滤器时,会创建一个bitmap,关于bitmap的讲解可以查看我之前的文章位图(bitmap)原理以及实现 ,使用布隆过滤器的步骤如下:

1,比如一个场景,我们添加缓存时,需要先将key添加到布隆过滤器中,需要将key用多个hash函数经过多次hash,比如三次,得到3个数字a,b,c 。

2, 然后将a,b,c 对应在bitmap中的bit位设置1。

3,当要从缓存中读取数据时,也是先从布隆过滤器中读取,此时需要将要读取的缓存key也经过多个hash函数多次hash,判断hash得到的数字对应在bitmap中的bit位是否都是1,如果有一个不为1,说明这个缓存key肯定没有添加过缓存,就不用再去请求缓存服务器了。

这里要注意的是,因为是hash函数,所以有可能key1和key2最后hash的结果是一样的,这样布隆过滤器只添加key1时,还是会在读取key2时返回true,这样还是会去读缓存服务器,即使key2并不在缓存服务器中。

并且由于在bitmap中存储的是hash后的结果,所以布隆过滤器也不能删除数据,一个好的使用方式是定时重建布隆过滤器,让旧布隆过滤器过期。

实现

接着,我们来看下布隆过滤器的实现,我仿照java的Guava中的布隆过滤器实现写了一个golang的版本, hash函数用的murmur3 得到两个hash值,通过迭代k次hash值的效果代替了运行k次hash函数,然后将得到的结果设置到bitmap中。

需要注意的是hash.Sum128 返回的uint64,这个类型在转换成int64类型时可能会产生负数,所以我们需要将它同math.MaxInt64得到正数,然后与bitmap的大小进行取模,这样得到的数字永远是一个正数且不会超过bitmap的长度。

func (b *BloomFilter) Add(key string) {  
   bitSetSize := b.m  
   hashFunCount := b.k  
   hash := murmur3.New128()  
   hash.Write([]byte(key))  
   hash1, hash2 := hash.Sum128()  
   combinedHash := hash1  
   for i := 0; i < hashFunCount; i++ {  
      b.bitset.Set((uint64ToInt64(combinedHash) & math.MaxInt64) % bitSetSize)  
      combinedHash += hash2  
   }  
}  
  
func (b *BloomFilter) MightContain(key string) bool {  
   bitSetSize := b.m  
   hashFunCount := b.k  
   hash := murmur3.New128()  
   hash.Write([]byte(key))  
   hash1, hash2 := hash.Sum128()  
   combinedHash := hash1  
   for i := 0; i < hashFunCount; i++ {  
      if !b.bitset.Exits((uint64ToInt64(combinedHash) & math.MaxInt64) % bitSetSize) {  
         return false  
      }  
      combinedHash += hash2  
   }  
   return true  
}  
  
func uint64ToInt64(num uint64) int64 {  
   if num <= uint64(math.MaxInt64) {  
      return int64(num)  
   }  
   return int64(num - uint64(math.MaxInt64) + 1)  
}

与布隆过滤器原理及实现 相似的内容:

布隆过滤器原理及实现

大家好,我是蓝胖子,我一直相信编程是一门实践性的技术,其中算法也不例外,初学者可能往往对它可望而不可及,觉得很难,学了又忘,忘其实是由于没有真正搞懂算法的应用场景,所以我准备出一个系列,囊括我们在日常开发中常用的算法,并结合实际的应用场景,真正的感受算法的魅力。 今天,我们就来学习下布隆过滤器的原理

Redis系列16:聊聊布隆过滤器(原理篇)

[Redis系列1:深刻理解高性能Redis的本质](https://www.cnblogs.com/wzh2010/p/15886787.html "Redis系列1:深刻理解高性能Redis的本质") [Redis系列2:数据持久化提高可用性](https://www.cnblogs.com/w

布隆过滤器

布隆过滤器 介绍 布隆过滤器(Bloom Filter)是1970年由布隆提出的 它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中 优点: 可以高效地进行查询,可以用来告诉你“某样东西一定不存在或者可能存在” 可以高效的进行插入 相比于传统的List

布隆过滤器:后端开发者必学的知识点!

摘要:对于后端程序员来讲,学习和理解布隆过滤器有很大的必要性。来吧,我们一起品味布隆过滤器的设计之美。 本文分享自华为云社区《品味布隆过滤器的设计之美》,作者:勇哥java实战分享。 布隆过滤器是一个精巧而且经典的数据结构。 你可能没想到: RocketMQ、 Hbase 、Cassandra 、L

Redis系列17:聊聊布隆过滤器(实践篇)

[Redis系列1:深刻理解高性能Redis的本质](https://www.cnblogs.com/wzh2010/p/15886787.html "Redis系列1:深刻理解高性能Redis的本质") [Redis系列2:数据持久化提高可用性](https://www.cnblogs.com/w

[转帖]Redis大key多key拆分方案

https://www.cnblogs.com/-wenli/p/13612364.html 一、单个简单的key存储的value很大 二、hash, set,zset,list 中存储过多的元素 三、一个集群存储了上亿的key 四、大Bitmap或布隆过滤器(Bloom )拆分 背景 业务场景中经

自己制作AM启动方式,不需要每次输入密码和用户名

第一布,查看用户名,数据库等信息 在记事本中写以下信息,保存后,后缀改为bat,双击此文件即可启动hull design模块且无黑框框的控制台哦 C:\AVEVA\Marine\OH12.1.SP4\marine.bat noconsole Mar SYSTEM/XXXXXX/PLANARHULL

混合多云第二课——混合技术如何每年为京东节省上亿元成本?

第一混部整体的介绍和在京东的历程。第二混部的架构和功能。第三各模块的混布的技术。

鸿蒙HarmonyOS实战-ArkUI动画(放大缩小视图)

前言 在HarmonyOS中,可以通过以下方法放大缩小视图: 使用缩放手势:可以使用双指捏合手势来放大缩小视图。将两个手指放在屏幕上,并向内或向外移动手指,即可进行放大或缩小操作。 使用系统提供的缩放控件:在HarmonyOS的开发中,可以使用系统提供的缩放控件来实现视图的放大缩小功能。通过在布