hive 统计各项目下排名前5的问题种类

实现指定某项目下的数据效果图如下所示：
在这里插入图片描述
其中 ABCDE 为前5名的问题种类，其中A问题有124个（出现了124次）

数据说明：

整个数据集包含很多项目
一个项目包含很多问题
一个问题选项可认为是类别值，所有出现的问题都落在这些类别范围内

需求梳理：前5名的排名依据于问题数量，而不是按照某字段排序，而问题数量是按照项目 + 问题分组后统计的数量。

分步处理：
1.先分组统计，查询数据（屏蔽真实表和字段，但逻辑不变）

select 项目, 问题,count(*) as numfrom 表GROUP BY 项目, 问题

结果：
在这里插入图片描述
可以看到上述部分截图中有3个项目，分别是 0001/0009/0002，
其中前2行和后2行都是项目 0001的数据，表示它下面的4个问题种类以及统计数量。

2.把上述结果作为一张逻辑表，按照其中的数量字段使用开窗函数降序排序：

SELECT * FROM 
(SELECT 项目, 问题, 数量,row_number() over(partition BY 项目 order by 数量 desc) as rn FROM (select 项目, 问题,count(*) as 数量from 表名GROUP BY 项目, 问题) x
) x8c

结果如下所示：这是项目 0001 下排名前10的问题 + 数量
在这里插入图片描述
项目0004的数据。。

到这一步，我们得到了每个项目下的所有问题，并且问题按数量倒序排名，还差最后一步：每个项目，只取排名前5的问题数据。

其实，我们只需要在上一步的sql 中加上 where 条件过滤即可：
where 排名 <= 5 FYI: 根据业务相应调整。

SELECT * FROM 
(SELECT 项目, 问题, 数量,row_number() over(partition BY 项目 order by 数量 desc) as rn FROM (select 项目, 问题,count(*) as 数量from 表名GROUP BY 项目, 问题) x
) x8c
where rn <= 5