如何利用窗口函数实现精确排名计算?

· 浏览次数 : 0

小编点评

前言 在 SQL 语句中,聚合函数在统计业务数据结果时起到了重要作用,例如计算每个业务地区的业务总数、每个班级的学生平均分以及每个分类的最大值等。然而,今天小编将为大家介绍窗口函数,与聚合函数相比,它们也是一组函数,但在使用方法和适用场景上有所不同。 在本章节中,我将重点介绍窗口函数中的 RANK 和 DENSE_RANK 函数,以及它们在排名和筛选方面的应用场景。这些窗口函数可以帮助我们更灵活地处理数据并获得所需的结果。需要注意的是,目前主流的数据库对窗口函数的最低需求版本如下: - MySQL (>8.0) - PostgreSQL (>8.4) - SQL Server (>2005) - SQLite (>3.25.0) 如果您的数据库版本低于上述要求,将无法使用窗口函数。 需求背景:为了让大家更好地理解,小编将以学生数据作为查询的条件背景:假设现在某个学校的某个年级的同学完成了一次考试,成绩也已经录入到数据库中。现在该年级的教务主任想要看一下: 1. 这次考试本年级各个科目的前2名的同学。 2. 这次考试每个班级中各个科目的前2名。 3. 这次考试每个班级中的总分排名前2名。 如果用普通的 SQL 查询即麻烦也费时间,而使用 RANK 和 DENSE_RANK 函数就可以很快的查询出想要的学生数据。下面将为大家介绍如何使用 RANK 和 DENSE_RANK 函数实现学生数据的查询。 使用 RANK 和 DENSE_RANK 函数查询学生数据 1. 查询本年级各个科目前2名的同学。 为了获得各个不同科目各自的前2名,小编需要先使用 Rank() 函数来给每个学生在各自科目的分区打上成绩排名,执行如下 SQL 语句,查询出来的结果如下图。 ```sql select sd.*, RANK() over(partition by subject order by score desc) as _rank from score_data sd; ``` 可以看到,执行结果里面已经根据各个科目的成绩得到了排名字段 _rank。接下来只需要使用过滤掉 _rank 字段大于2的部分即可,查询的结果如下图所示。 ```sql select * from (select sd.*, RANK() over(partition by subject order by score desc) as _rank from score_data sd) tmp where tmp._rank <=2 ``` 从上图中看到如果存在成绩一样的情况,就会出现像数学科目的查询结果:数学查询出来了三个值(因为有两个人的数学成绩是一样的77分),如果只想保留一条重复的数据,可以使用 DENSE_RANK 函数,这个函数的计算语法和 RANK 基本一致,唯一不同的点在于,Rank 计算时会得到成绩高于当前行的记录的总行数,也就是上图查询出来的数学科目的三条数据,而 DENSE_RANK 则是计算成绩高于当前行的去重记录的总行数,也就是说,如果出现像上图的数学科目中的重复的数据,就会去掉重复的数据。 2. 查询每个班级中各个科目的前2名。 查询每个班级中各个科目的前2名只需要在第一步(查询本年级各个科目前2名的同学)的加上一个 class 班级的分区规则即可,查询的结果如下图所示: ```sql select * from (select sd.*, RANK() over(partition by subject, class order by score desc) as _rank from score_data sd) tmp where tmp._rank <=2 ``` 3. 查询每个班级中的总分排名前2名。 同理,在第二步(查询score_data表中每个班级中各个科目的前2名)的基础上再添加一个成绩的总和 SUM(score) 函数即可查询每个班级中的总分前两名。 ```sql select class,name,SUM(score) AS total_score,RANK() over (PARTITION by class order by SUM(score) desc) from score_data sd group by class,name ``` 在这个指标的计算中,需要把聚合函数和排名函数结合起来使用,因为每个人的总成绩被拆分为了多个科目的和,所以需要在班级和科目的联合分组维度上进行聚合,把数据压缩到每人总分的颗粒度。 总结 窗口函数是 SQL 函数中非常强大的工具,尤其是在报表统计等场景领域。它们不仅能够简化复杂的数据计算和分析,还能提高查询效率和灵活性。 扩展链接: 窗口函数运算法则大盘点。

正文

前言

SQL语句中,聚合函数在统计业务数据结果时起到了重要作用,比如计算每个业务地区的业务总数、每个班级的学生平均分以及每个分类的最大值等。然而,今天小编将为大家介绍窗口函数,与聚合函数相比,它们也是一组函数,但在使用方法和适用场景上有所不同。在本章节中,我将重点介绍窗口函数中的RANK和DENSE_RANK函数,以及它们在排名和筛选方面的应用场景。这些窗口函数可以帮助我们更灵活地处理数据并获得所需的结果,需要注意的是,目前主流的数据库对窗口函数的最低需求版本如下:

Mysql (>=8.0)
PostgreSQL(>=8.4)
SQL Server(>2005)
SQLite(>3.25.0)

如果您的数据库版本低于上述要求,将无法使用窗口函数。

需求背景:

为了让大家更好的理解,小编将以学生数据作为查询的条件背景:假设现在某个学校的某个年级的同学完成了一次考试,成绩也已经录入到数据库中:

现在该年级的教务主任想要看一下:

1.这次考试本年级各个科目的前2名的同学。

2.这次考试每个班级中各个科目的前2名。

3.这次考试每个班级中的总分排名前2名。

如果用普通的SQL查询即麻烦也费时间,而使用RANK和DENSE_RANK函数就可以很快的查询出想要的学生数据,下面将为大家介绍如何使用RANK和DENSE_RANK函数实现学生数据的查询。

使用聚RANK和DENSE_RANK函数查询学生数据

1.查询本年级各个科目前2名的同学。

为了获得各个不同科目各自的前2名,小编需要先使用 Rank() 函数来给每个学生在各自科目的分区打上成绩排名, 执行如下SQL 语句,查询出来的结果如下图。

select sd.*, RANK() over(partition by subject order by score desc) as _rank from score_data sd;

可以看到,执行结果里面已经根据各个科目的成绩得到了排名字段 _rank, 接下来只需要使用过滤掉 _rank 字段大于2的部分即可,查询的结果如下图所示。

select * from (

select sd.*, RANK() over(partition by subject order by score desc) as _rank from score_data sd

) tmp

where tmp._rank <=2

从上图中看到如果存在成绩一样的情况,就会出现像数学科目的查询结果:数学查询出来了三个值(因为有两个人的数学成绩是一样的77分),如果只想保留一条重复的数据,可以使用DENSE_RANK函数,这个函数的计算语法和 RANK 基本一致,唯一不同的点在于, Rank 计算时会得到成绩高于当前行的记录的总行数,也就是上图查询出来的数学科目的三条数据,而DENSE_RANK 则是计算成绩高于当前行的去重记录的总行数,也就是说,如果出现像上图的数学科目中的重复的数据,就会去掉重复的数据。

2.查询每个班级中各个科目的前2名。

查询每个班级中各个科目的前2名只需要在第一步(查询本年级各个科目前2名的同学)的加上一个 class 班级的分区规则即可,查询的结果如下图所示:

select * from (

select sd.*, RANK() over(partition by subject, class order by score desc) as _rank from score_data sd

) tmp

where tmp._rank <=2

3. 查询每个班级中的总分排名前2名。

同理,在第二步(查询score_data表中每个班级中各个科目的前2名)的基础上再添加一个成绩的总和SUM(score)函数即可查询每个班级中的总分前两名。

select class,name,SUM(score) AS total_score,

RANK() over (PARTITION by class order by SUM(score) desc)

from score_data sd group by class,name

在这个指标的计算中,需要把聚合函数和排名函数结合起来使用,因为每个人的总成绩被拆分为了多个科目的和,所以需要在班级和科目的联合分组维度上进行聚合,把数据压缩到每人总分的颗粒度。

总结

窗口函数是 SQL 函数中非常强大的工具,尤其是在报表统计等场景领域。它们不仅能够简化复杂的数据计算和分析,还能提高查询效率和灵活性。

扩展链接:

窗口函数运算法则大盘点

与如何利用窗口函数实现精确排名计算?相似的内容:

如何利用窗口函数实现精确排名计算?

前言 SQL语句中,聚合函数在统计业务数据结果时起到了重要作用,比如计算每个业务地区的业务总数、每个班级的学生平均分以及每个分类的最大值等。然而,今天小编将为大家介绍窗口函数,与聚合函数相比,它们也是一组函数,但在使用方法和适用场景上有所不同。在本章节中,我将重点介绍窗口函数中的RANK和DENSE

窗口函数大揭秘!轻松计算数据累计占比,玩转数据分析的绝佳利器

上一篇文章[《如何用窗口函数实现排名计算》](https://www.cnblogs.com/powertoolsteam/p/17627928.html)中小编为大家介绍了窗口函数在排名计算场景中的应用,但实际上窗口函数除了可以进行单行计算,还可以在每行上打开一个指定大小的计算窗口,这个计算窗口可

将IoTDB注册为Windows服务

昨天写的文章《Windows Server上部署IoTDB集群》,Windows下的IoTDB是控制台程序,打开窗口后,很容易被别人给关掉,因此考虑做成Windows服务,nssm正是解决该问题的利器。 1.下载nssm:http://www.nssm.cc/download 查看官网提示,如果是w

如何利用 Seaborn 实现高级统计图表

本文分享自华为云社区《使用 Seaborn 实现高级统计图表从箱线图到多变量关系探索》 ,作者:柠檬味拥抱。 在数据科学和数据可视化领域,Seaborn 是一个备受欢迎的 Python 可视化库。它建立在 Matplotlib 的基础之上,提供了更简洁、更美观的图形界面,同时也具备了一些高级统计图表

[转帖]如何利用wrarp测试oss性能?

https://zhuanlan.zhihu.com/p/529735003 前言 我们利用mino与ceph rgw搭建好的oss经过多层网络转发,传输速度必定有所折损,这个时候我们使用wrap来测试oss对象存储的真实性能。 利用wrarp测试oss性能 wrarp是minio项目下的一个开源测

如何利用动态配置中心在JavaAgent中实现微服务的多样化治理

Sermant的动态配置模型不仅可以实现了微服务的动态治理,还可以提高配置的可维护性以及可读性,帮助用户更方便地进行微服务治理和运维操作。

App如何利用推送消息有效实现拉新促活?

对于大多数App来说,如何快速建立与用户的联系、提高用户活跃度、提升用户转化率,是产品运营过程中十分关心的问题,在常见的运营手段中,Push推送消息以其高性价比成为首选策略。但在实际运营过程中,推送消息的打开率和转化率远远达不到预期,App日活难以提升。那么如何才能有效提高打开和转化率,快速实现Ap

利用大型语言模型轻松打造浪漫时刻

在这篇文章中,我们介绍了如何利用大型语言模型为情人节营造难忘的氛围。通过上传图片并进行风格转化,我们可以为对方呈现一幅独特的作品,增添浪漫的色彩。同时,借助搜索功能,我们能够轻松获取与情人节相关的信息,为策划活动提供更多灵感和建议。

游戏行业如何利用隐私计算技术增强玩家体验

在游戏行业,玩家体验的个性化是提升用户粘性和满意度的关键。随着技术的发展,游戏公司现在可以利用大量的玩家数据来定制游戏体验。然而,这同时也带来了对玩家隐私保护的挑战。隐私计算技术的出现为这一问题提供了解决方案,它允许在不泄露个人数据的情况下分析和利用数据。

活字格性能优化技巧(1)——如何利用数据库主键提升访问性能

本文由葡萄城技术团队于博客园原创并首发转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 大家都知道,活字格作为企业级低代码开发平台,拥有6大引擎,3大能力,能够高效落地企业级应用。在每年的应用大赛中也能看到很多格友利用活字格做了很多复杂的应用,例如2021年