Redis中 HyperLogLog数据类型使用总结

redis,hyperloglog,数据类型,使用,总结 · 浏览次数 : 204

小编点评

## HyperLogLog 的原理 HyperLogLog 是一个基于概率算法的分布式计数数据结构,它可以快速计算一个数据集中元素数量的估计值。它的核心思想是基于哈希函数和位运算,通过将哈希值转换成比特流并统计前导0的个数来估计大型数据集中唯一值的数量。 **主要原理如下:** 1. 创建一个长度为 m 的位数组 hll:unique_ips,其中 hll 是一个包含所有元素的哈希值,unique_ips 是一个存放元素数量的 HashMap。 2. 对每个元素进行哈希处理,把哈希值转换为二进制后,根据二进制串前缀中 1 的个数来给每个元素打分。 3. 统计所有元素的分数,取倒数(1 / 2^n)后相加,得到一个基数估计值。 4. 通过对位数组的长度 m 进行取舍,折衷数据结构占用的内存与估计值的精准度(即估计误差)之间找到了最佳平衡点。 ## 使用步骤 1. 添加元素:使用 `pfadd` 命令添加元素到 HyperLogLog 结构中。 2. 获取元素数量:使用 `pfcount` 命令获取结构中元素数量的近似值。 3. 合并多个结构:使用 `pfmerge` 命令合并多个 HyperLogLog 结构,以获得总基数的近似值。 ## 示例请求ip去重的浏览量使用示例 ```java // 创建 HyperLogLog 结构 Jedis jedis = new Jedis("localhost"); jedis.pfadd("hll:unique_ips", "127.0.0.1"); // 获取元素数量的近似值 Long count = jedis.pfcount("hll:unique_ips"); System.out.println(count); ``` ## Jedis 客户端使用 ```java // 创建 Redisson 客户端 RedissonClient redisson = Redisson.create(config); // 获取 HyperLogLog 结构 RHyperLogLog uniqueIps = redisson.getHyperLogLog("hll:unique_ips"); // 获取元素数量的近似值 Long count = uniqueIps.count(); System.out.println(count); // 合并多个结构 RHyperLogLog mergedIps = redisson.merge(uniqueIps, uniqueIps1, uniqueIps2); ``` ## HyperLogLog 提供的功能 * 高效率:由于使用位数组,操作效率高于其他分布式计数算法。 * 存储效率:结构大小与基数之间建立了一个折衷点,可以优化内存使用。 * 新元素支持:可以在结构中添加新的元素,同时不会重复计数。 * 指令优化:提供了指令来优化内存使用和计数准确性。 * 基数估计:通过统计元素的分数,可以推断数据集中元素数量的分布。

正文

转载请注明出处:

目录

  1. HyperLogLog 的原理

  2.使用步骤

  3.实现请求ip去重的浏览量使用示例

  4.Jedis客户端使用

  5.Redission使用依赖

  6.HyperLogLog 提供了哪些特性和方法

  7.使用场景总结

1. HyperLogLog 的原理

  Redis HyperLogLog基于一种称为HyperLogLog算法的概率性算法来估计基数。 HyperLogLog使用一个长度为m的位数组和一些hash函数来估计集合中的唯一元素数。

在 HyperLogLog 算法中,对每个元素进行哈希处理,把哈希值转换为二进制后,根据二进制串前缀中 1 的个数来给每个元素打分。例如,一个元素的哈希值为01110100011,那么前缀中1的个数是3,因此在 HyperLogLog 算法中,这个元素的分数为3。

  当所有元素的分数统计完之后,取每一个分数的倒数(1 / 2^n),然后将这些倒数相加后取倒数,就得到一个基数估计值,这个值就是HyperLogLog算法的估计结果。

  HyperLogLog算法通过对位数组的长度m的大小进行取舍,折衷数据结构占用的内存与估计值的精准度(即估计误差),得到了在数据占用空间与错误较小程度之间完美的平衡。

  简而言之,HyperLogLog算法的核心思想是基于哈希函数和位运算,通过将哈希值转换成比特流并统计前导0的个数,从而快速估算大型数据集中唯一值的数量。通过 hyperloglog 算法我们可以在非常大的数据集中进行极速的网页浏览器去重。

2.使用步骤:

  Redis HyperLogLog是一种可用于估算集合中元素数量的数据结构,它能够通过使用非常少的内存来维护海量的数据。它的精确度要比使用一般的估计算法高,并且在处理大量数据时的速度也非常快。

  一个简单的例子,我们可以用HyperLogLog来计算访问网站的独立IP数,具体可以按以下步骤操作:

    1. 首先创建一个HyperLogLog数据结构:  PFADD hll:unique_ips 127.0.0.1

    2. 为每次访问ip添加到unique_ips数据结构中:         PFADD hll:unique_ips 192.168.1.1

    3. 获取计算集合中元素数量的近似值:           PFCOUNT hll:unique_ips

    4. 可以通过对多个HyperLogLog结构(例如按天或按小时)的合并,来获得更精确的计数。

  需要注意的是,HyperLogLog虽然可以节省大量的内存,但它是一种估计算法,误差范围并不是完全精确的,实际使用时应注意其适用范围。

3.实现请求ip去重的浏览量使用示例

4.Jedis客户端使用

  1. 添加依赖,引入jedis依赖:

<dependency>
    <groupId>redis.clients</groupId>
    <artifactId>jedis</artifactId>
    <version>3.6.0</version>
</dependency>

  2.创建一个Jedis对象:

Jedis jedis = new Jedis("localhost");

  3.向HyperLogLog数据结构添加元素:

jedis.pfadd("hll:unique_ips", "127.0.0.1");

  4. 获取计算集合中元素数量的近似值:

Long count = jedis.pfcount("hll:unique_ips");
System.out.println(count);

  5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE命令来合并HyperLogLog数据结构:

jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");

5.Redission使用依赖

  1.创建RedissonClient对象

Config config = new Config();
config.useSingleServer().setAddress("redis://localhost:6379");
RedissonClient redisson = Redisson.create(config);

  2.创建RHyperLogLog对象

RHyperLogLog<String> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");

  3.添加元素

uniqueIps.add("127.0.0.1");

  4..获取近似数量

long approximateCount = uniqueIps.count();
System.out.println(approximateCount);

  5.合并多个HyperLogLog对象

RHyperLogLog<String> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1");
RHyperLogLog<String> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2");
uniqueIps.mergeWith(uniqueIps1, uniqueIps2);

6.HyperLogLog 提供了哪些特性和方法

  特性:

    1. 精确度低,但占用内存极少。

    2. 支持插入新元素,同时不会重复计数。

    3. 提供指令来优化内存使用和计数准确性。例如PFADD、PFCOUNT、PFMERGE等指令。

    4. 能够估计一个数据集中的不同元素数量,即集合的基数(cardinality)。

    5. 支持对多个HyperLogLog对象进行合并操作,以获得这些集合的总基数的近似值。

  HyperLogLog常用的方法:

    1. PFADD key element [element ...]:添加一个或多个元素到HyperLogLog结构中。

    2. PFCOUNT key [key ...]:获取一个或多个HyperLogLog结构的基数估计值。

    3. PFMERGE destkey sourcekey [sourcekey ...]:合并一个或多个HyperLogLog结构到一个目标结构中。

    4. PFSELFTEST [numtests]: 测试HyperLogLog估值性能和准确性(仅限Redis4.0+版本)

  需要注意的是,HyperLogLog虽然可以节省大量内存,但仍然是一种估计算法,误差范围并不是完全精确的,并且具有一定的计算成本。在使用时需要根据实际应用情况选择是否使用HyperLogLog或其他数据结构来估计元素数量。

7.使用场景总结:

  Redis使用HyperLogLog的主要作用是在大数据流(view,IP,城市)的情况下进行去重计数。

  具体来说,以下是Redis HyperLogLog用于去重计数的一些场景:

    1. 统计页面访问量 - 在Web应用程序中, HyperLogLog可以使用为每个页面计算多少次独特的访问者。通过跨越多个不同的时间段使用HyperLogLog,可以计算出这个页面的所有时间的平均访问数。

    2. 统计用户数 - 在分析大数据集合的用户数量方面,HyperLogLog也非常有用。作为一种基于概率的数据结构,尤其是在处理独特的用户ID这样的数据集合时。在此情况下,HyperLogLog首先执行散列,此后仅在内部存储有限的散列值,同时还能够推断大小。

    3. 统计广告点击量 - 对于网站或应用程序的广告分析,HyperLogLog可以用于捕获有效点击数量,即非重复或唯一点击数量。

  总之,对于需要进行去重计数的大数据流的情况下,Redis的HyperLogLog是一种简单而强大的工具。

  

与Redis中 HyperLogLog数据类型使用总结相似的内容:

Redis中 HyperLogLog数据类型使用总结

转载请注明出处: 目录 1. HyperLogLog 的原理 2.使用步骤 3.实现请求ip去重的浏览量使用示例 4.Jedis客户端使用 5.Redission使用依赖 6.HyperLogLog 提供了哪些特性和方法 7.使用场景总结 1. HyperLogLog 的原理 Redis Hyper

Redis 中bitMap使用及实现访问量

1. Bitmap 是什么 Bitmap(也称为位数组或者位向量等)是一种实现对位的操作的'数据结构',在数据结构加引号主要因为: Bitmap 本身不是一种数据结构,底层实际上是字符串,可以借助字符串进行位操作。 Bitmap 单独提供了一套命令,所以与使用字符串的方法不太相同。可以把 Bitma

Redis 中ZSET数据类型命令使用及对应场景总结

转载请注明出处: 目录 1.zadd添加元素 2.zrem 从有序集合key中删除元素 3.zscore 返回有序集合key中元素member的分值 4.zincrby 为有序集合key中元素增加分值 5.zcard获取有序集合key中元素总个数 6.zrange 正序获取分值范围内的元素 7.zr

[转帖]Redis中Key的过期策略和淘汰机制

Key的过期策略 Redis的Key有3种过期删除策略,具体如下: 1. 定时删除 原理:在设置键的过期时间的同时,创建一个定时器(timer),让定时器在键的过期时间来临时,立即执行对键的删除操作优点:能够很及时的删除过期的Key,能够最大限度的节约内存缺点:对CPU时间不友好,如果过期的Key比

[转帖]redis中的bigkey问题

https://cdn.modb.pro/db/459810 什么是bigkey bigkey就是redis key/value体系中的大value问题。我们知道redis的底层数据存储结构中,有多种数据结构的实现。 String: 简单动态字符串 List: 双向链表、压缩列表 Hash: 哈希表

[转帖]redis中keys与scan命令的区别有哪些

https://www.yisu.com/zixun/445908.html 这篇文章将为大家详细讲解有关redis中keys与scan命令的区别有哪些,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。 redis keys和scan的区别 redis的keys命令,

[转帖]Redis key 乱码问题(springboot)

保存到redis中的key 前半段会出现乱码问题 原来配置: @Configuration@EnableCachingpublic class RedisCacheConfig { @Bean public CacheManager cacheManager(RedisTemplate

[转帖]为什么我Redis中key惊现“乱码”?

为什么Redis中key会惊现“乱码”? 最近在做一个秒杀项目,过程中大量应用到了redis。 而我在用ElasticJob进行数据化初始化到Redis数据库时发现这些key都出现了一段前缀“乱码”。 数据结构为Hash,可以观察到hashkey也带有前缀“乱码” 这究竟是怎么回事呢?原来问题出在这

[转帖]Redis中遍历大数据量的key:keys与scan命令

https://www.cnblogs.com/-wenli/p/13045432.html keys命令 keys * 、keys id:* 分别是查询全部的key以及查询前缀为id:的key。 缺点: 1、没有 offset、limit 参数,一次返回所有满足条件的 key。 2.keys算法是

[转帖]【Redis】Redis中使用Lua脚本

Lua是一种轻量小巧的脚本语言,用标准C语言编写并以源代码形式开放,其设计目的是为了嵌入应用程序中,从而为应用程序提供灵活的扩展和定制功能。 Lua具体语法参考:https://www.runoob.com/lua/lua-tutorial.html 脚本的原子性 Redis使用单个Lua解释器去运