一、clickhouse简介
1.1 clickhouse介绍
ClickHouse的背后研发团队是俄罗斯的Yandex公司,2011年在纳斯达克上市,它的核心产品是搜索引擎。我们知道,做搜索引擎的公司营收非常依赖流量和在线广告,所以做搜索引擎的公司一般会并行推出在线流量分析产品,比如说百度的百度统计,Google的 Google Analytics等。Yandex的Yandex.Metricah。ClickHouse就是在
这种背景下诞生的。
ROLAP: 传统关系型数据库OLAP,基于MySQL的MyISAM表引擎
MOLAP:借助物化视图的形式实现数据立方体。预处理结果存在HBase这类高性能的分布式数据库
HOLAP:R和M的结合体H
ROLAP : ClickHouse
1.2 clichouse对比其他OLAP数据库优势
分析报表,分析决策等 OLAP的实现方案一:(数仓)
如上图所示,数据实时写入HBase,实时的数据更新也在 HBase 完成,为了应对 OLAP 需求,我们定时(通常是T+1 或者T+H)将 HBase 数据写成静态的文件(如: Parquet)导入到OLAP引擎(如: HDFS,比较常见的是lmpala操作Hive)。这一架构能满足既需要随机读写,又可以支持 OLAP 分析的场景,但他有如下缺点:
1、架构复杂。从架构上看,数据在 HBase、消息队列、HDFS 间流转,涉及环节太多,运维成本很高。并且每个环节需要保证高可用,都需要维护多个副本,存储空间也有一定的浪费。最后数据在多个系统上,对数据安全策略、监控等都提出了挑战。
2、时效性低。数据从HBase 导出成静态文件是周期性的,一般这个周期是一天(或一小时),在时效性上不是很高。
3、难以应对后续的更新。真实场景中,总会有数据是[延迟]到达的。如果这些数据之前已经从 HBase 导出到HDFS,新到的变更数据就难以处理了,一个方案是把原有数据应用上新的变更后重写一遍,但这代价又很高。
1.3 Clickhouse 支持特性剖析特点
1.真正的面向列的DBMS
2.数据高效压缩(同列数据类型相同)
3.磁盘存储的数据
4.多核并行处理
5.在多个服务器上分布式处理
6.SQL语法支持
7.向量化引擎
8.实时数据更新
二、部署安装
2.1 部署
对于ubuntu支持一键安装
2.2 配置修改及存储目录
2.2.1 <replica> 节点信息
2.2.2 <zookeeper-servers> zk节点信息
2.2.3 副本信息