clickhouse数据去重函数介绍(count distinct)

clickhouse提供了许多的去重函数,有精确去重的以及非精确去重的,下面介绍下两种

非精确去重函数:uniq、uniqHLL12、uniqCombined

精确去重函数:uniqExact、groupBitmap

测试数据量:2000w

SELECT count(id) from tableNamecount(id)
20595997

首先我们先用 count(DISTINCT x) 就是uniqExact函数 来统计下根据id去重的数据都是 941918

SELECT count(DISTINCT id ) from tableName
SELECT uniqExact(id) from tableName

在这里插入图片描述
在这里插入图片描述

然后使用非精确去重函数uniq,去重后数据是939665

SELECT uniq(id) from tableName

在这里插入图片描述

用groupBitmap()函数的话会报错,因为仅支持无符号整数,而我的数据类型是有符号的
在这里插入图片描述

下面就贴下来自苏宁科技集团.大数据中心.杨兆辉分享的,测试的数据量是4亿

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论:

  • 整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+
  • groupBitmap仅支持无符号整形值去重, uniqExact支持任意类型去重。
  • 非精确去重场景,uniq在速度上有优势

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21641.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

消息幂等(去重)通用解决方案,真顶!

作者 | 薛定谔的风口猪 来源 | https://jaskey.github.io/blog/2020/06/08/rocketmq-message-dedup/ 消息中间件是分布式系统常用的组件,无论是异步化、解耦、削峰等都有广泛的应用价值。我们通常会认为,消息中间件是一个可靠的组件——这里所谓的可靠是…

TP6关联统计无法去重的解决方案

在tp6中官方手册跟源码中是没办法做到去重关联统计的,因为源代码中的withCount方法,默认是以“*”进行统计。当我们想要统计类型有多少,而不是数量有多少的时候就会非常麻烦。 这时候需要修改源码,将默认的“*”,改成传…

postgreSql根据多个字段去重详细流程

postgreSql根据多个字段去重详细流程 这是测试表的建标语句,需要的可以拿去用。 CREATE TABLE "public"."class_name" ("id" int4 NOT NULL DEFAULT nextval(id::regclass),"class_no" varchar(50) COLLATE "pg_cat…

mysql去重函数:DISTINCT ,与GROUP_CONCAT结合去重

mysql去重函数:DISTINCT ,与GROUP_CONCAT结合 创建表语法distinct多字段去重DISTINCT 结合 group 统计实例 创建表 DROP TABLE IF EXISTS qipa_shop; CREATE TABLE qipa_shop (price varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci N…

tp6 count distinct统计时根据字段去重

代码: AppointmentModel::field([identity])->count(distinct identity)生成的sql: SELECT COUNT(DISTINCT identity) AS think_count FROM dg_appointment;下面是tp6手册内容 我尝试着这样写 发现生成的sql不对 AppointmentModel::distinct(tru…

oracle listagg如何去重

listagg去重 去重思路:利用listagg会忽略null值的特点 按ENTITY_GROUP_RRN 分组,用 listagg 分别合并 EQPT_ID 与 STATION_ID ,同时要求去重 表 T_TEST 数据如下: EQPT_IDENTITY_GROUP_RRNSTATION_IDTOOL-00110493721JITAI-1TO…

【数据去重】海量数据实时去重方案

文章目录 Prologue布隆过滤器去重什么是布隆过滤器实现的核心思想怎么理解 内嵌RocksDB状态后端去重引入外部K-V存储去重 Prologue 数据去重(data deduplication)是我们大数据攻城狮司空见惯的问题了。除了统计UV等传统用法之外,去重的意义更…

listagg结果去重

最近在一个项目中用到了listagg方法,但是在组合结果中出现有重复的情况。默认的结果如下 于是我就写了一个方法对listagg的结果去重,也可以对该格式的字符串去重,方法如下 create or replace function listaggpure(targetStr varchar2,seper…

非常实用的5种json数组去重方法,函数实现思路竟是chatgpt帮我写的!

文章目录 人工智能福利文章方法一 reduce实现思路 方法二 filter和Map实现思路 方法三 变异for实现思路 方法四 for filter实现思路 方法五 for实现思路 写在最后 人工智能福利文章 【分享几个国内免费可用的ChatGPT镜像】【10几个类ChatGPT国内AI大模型】【用《文心一言》1分…

AI自动播——AI虚拟主播帮你实现24小时直播带货技术分享

如今很多淘宝天猫商家会在做直播的时候,会遇到真人主播难招或者真人主播直播时长有限,那么有什么办法解决这个难题呢,这个时候就可以用AI自动播了,也就是AI虚拟主播直播带货。具体怎么操作呢?下面一起来看看吧。 AI自动…

亚马逊账号被关联能申诉得回来吗

关于亚马逊账号被关联能申诉回来吗?小编有话要说。 其实小编是一个特别谨慎的人,在初入亚马逊之前,会了解到亚马逊所有的问题之后,才会注册账号。那么要了解的有什么呢?注册需要的信息,注册的规则&#xf…

社区1月热门文章、ChatGPT工具汇总,强化学习安全和隐私、斯坦福大学CS234《智源社区强化学习周刊》第75期...

No.75 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 社区热门文章 Google发布Bard与ChatGPT竞争 https://hub.baai.ac.cn/view/23925 纽约时报:ChatGPT诞生背后的故事 https://hub.baai.ac.cn/view/23835 ChatGPT提示与AI工具、开发工具、低代码工具汇总 《…

5款超实用的免费AI工具,让你轻松提升工作效率!

目录 1、AiChat 产品特点 任意选择内置角色对话 自定义AI角色进行对话 推荐理由🌟🌟🌟🌟🌟 2、MINISTER AI 产品特点 集成ChatGPT聊天 简化Stable Diffusion 集成Midjourney模式 训练并分享模型 推荐理由&a…

13 款炫酷的 MySQL 可视化管理工具!好用到爆!!

MySQL 的管理维护工具非常多,除了系统自带的命令行管理工具之外,还有许多其他的图形化管理工具,工具好用是一方面,个人的使用习惯也很重要,这里介绍 13 款 MySQL 图形化管理工具,供大家参考。 1、DBeaver D…

GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例应用

查看原文>>>GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例应用 目录 第一章、理论基础 第二章、开发环境搭建 第三章、遥感大数据处理基础与ChatGPT等AI模型交互 第四章、典型案例操作实践 第五章、输入输出及数据资产高效管理 第…

【IC基础】集成电路设计领域术语缩写及名词解释(字母索引版)

前言: 笔者在大三上学习学习《SoC设计导论》时整理的有关集成电路设计领域的常见有英文缩写和对应的名词解释,文中标注的页码均出自《SoC设计方法与实现》这本参考书: 目录 目录 前言: 目录 A B C CTG(Clock Tree Generat…

浏览器扩展合集来啦!实用而有趣的浏览器扩展插件!

五彩:网页划线、批注、高亮工具 五彩严格意义上的同类产品是 Hypothesis、diigo 等工具,Cubox、Readwise、简悦则属于需要先解析一下网页后高亮的插件。 此前我已经在用 Cubox 了,为什么还需要五彩来完成网页高亮? Cubox 在移动…

GPT模型结合Python-GEE遥感云大数据分析、管理与可视化技术

GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例应用 随着航空、航天、近地空间等多个遥感平台的不断发展,近年来遥感技术突飞猛进。由此,遥感数据的空间、时间、光谱分辨率不断提高,数据量也大幅增长&#xff0c…

分享6个AI绘画网站

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 1、Midjourney 特点:业内标杆,效果最强大 Midjourney是基于diffusion的AI图画艺术生成器。生成图片不局…

又又又发现了一个 AI 插件神器 TeamSmart

简介 TeamSmart AI 是最近比较火的 Chrome 插件,它是基于 ChatGPT 集成的 AI 助手团队工具 对,没错,是一个团队。这个团队里面有许多不同角色的成员,每隔成员都有自己的专业领域,比如商业、市场营销、灵魂写手、程序…