Apache Doris 之 Docker 部署篇

前言

在现代数据驱动的商业环境中,实时数据分析和高并发查询能力是企业成功的关键因素之一。传统的数据仓库和分析工具在面对大规模数据处理和实时分析需求时,往往力不从心。Apache Doris 作为一个现代的 MPP 数据库管理系统,凭借其强大的查询性能、灵活的扩展能力以及对实时数据处理的支持,迅速成为大数据分析领域的重要工具。


一、Apache doris 是什么?

Apache Doris 是一个现代的MPP (Massively Parallel Processing) 数据库管理系统,专为实时分析和高并发数据查询设计。它起源于百度的 Palo 项目,后在 Apache 基金会下成为开源项目。Doris 的设计目标是提供高性能、易用和可扩展的数据分析服务,尤其适用于大数据环境中的实时数据分析需求。

二、本地环境搭建环境

据说,光是搞环境,难倒一大票人,我不信…

本机环境:macos 14.2.1 (23C71), Docker desktop

1. 下载安装包

# 查看当前系统是否支持 AVX2 指令集
➜  doris sysctl -a | grep machdep.cpu
machdep.cpu.features: FPU VME DE PSE TSC MSR PAE MCE CX8 APIC SEP MTRR PGE MCA CMOV PAT PSE36 CLFSH DS ACPI MMX FXSR SSE SSE2 SS HTT TM PBE SSE3 PCLMULQDQ DTES64 MON DSCPL VMX EST TM2 SSSE3 FMA CX16 TPR PDCM SSE4.1 SSE4.2 x2APIC MOVBE POPCNT AES PCID XSAVE OSXSAVE SEGLIM64 TSCTMR AVX1.0 RDRAND F16C
machdep.cpu.leaf7_features: RDWRFSGS TSC_THREAD_OFFSET SGX BMI1 AVX2 SMEP BMI2 ERMS INVPCID FPU_CSDS MPX RDSEED ADX SMAP CLFSOPT IPT SGXLC MDCLEAR TSXFA IBRS STIBP L1DF ACAPMSR SSBD

从上面可知,我当前的操作系统是支持 AVX2 指令集的,于是我下载如下版本 doris.

wget https://apache-doris-releases.oss-accelerate.aliyuncs.com/apache-doris-2.1.3-bin-x64.tar.gz

2. macbook 本地单机部署

按照官网介绍,参考:https://doris.apache.org/zh-CN/docs/get-starting/quick-start/


➜  log cat be.out
start time: 20246月17日 星期一 13时54分11秒 CST
INFO: java_cmd /Library/Java/JavaVirtualMachines/jdk-1.8.jdk/Contents/Home/bin/java
INFO: jdk_version 8
/Users/mac/doris/doris/be/lib/doris_be: /Users/mac/doris/doris/be/lib/doris_be: cannot execute binary file➜  log file /Users/mac/doris/doris/be/lib/doris_be
/Users/mac/doris/doris/be/lib/doris_be: ELF 64-bit LSB pie executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, for GNU/Linux 3.2.0, BuildID[xxHash]=49a6487bfb283a3a, with debug_info, not stripped

最终发现,可以启动DorisFE ,但是无法启动DorisBE ,原因就是/Users/mac/doris/doris/be/lib/doris_be 是一个为 GNU/Linux 编译的 64 位 ELF 可执行文件。由于 macOS 使用的是 Mach-O 格式的二进制文件,而不是 ELF 格式,因此这个文件无法在 macOS 上直接执行。

所以,不能直接使用,因此 mac的用户需要自己编译。

好吧,我信了… 本来想省点时间直接安装的,但是事与愿违,还是老老实实编译吧!
你也可以直接搞一个虚拟环境比如 centos7,unbantu操作系统,直接下载官网编译好的试试。

3. macbook 通过 docker 镜像编译Doris

参考:https://doris.apache.org/zh-CN/docs/install/source-install/compilation-with-docker/
这个也是官方推荐的做法,按照推荐的试试看。

主要步骤如下:

  1. 提前在 host 主机构建 maven 的 .m2 目录,以便将下载的 Java 库可以多次在 Docker 复用
    mkdir ~/.m2

  2. 运行构建镜像

# 注意修改自己的本地文件和 docker中的文件路径映射
docker run -it --network=host --name mydocker -v ~/.m2:/root/.m2 -v ~/docker-build/doris:/root/doris/ apache/doris:build-env-for-2.0  
  1. 执行成功后,自动进入到 Docker 里
[root@docker-desktop ~]# ll
total 4
-rw-------  1 root root 3416 Nov 13  2020 anaconda-ks.cfg
drwxr-xr-x 52 root root 1664 Jun 17 02:26 doris

在这里插入图片描述

  1. 编译构建
[root@docker-desktop doris]# sh build.sh
Python 2.7.5
Apache Maven 3.6.3 (cecedd343002696d0abb50b32b541b8a6ba2883f)
Maven home: /usr/share/maven
Java version: 1.8.0_402, vendor: Red Hat, Inc., runtime: /usr/lib/jvm/java-1.8.0-openjdk-1.8.0.402.b06-1.el7_9.x86_64/jre
Default locale: en_US, platform encoding: ANSI_X3.4-1968
OS name: "linux", version: "6.6.12-linuxkit", arch: "amd64", family: "unix"
cmake version 3.22.1
CMake suite maintained and supported by Kitware (kitware.com/cmake).
ninja 1.8.2
ccache version 4.8
Update apache-orc submodule ...
....

如果没有问题的话,那就可能出现了问题,如下所示:
在这里插入图片描述
这个问题,貌似是aggregate_function_max_by.cpp.o 的编译失败了,超出我的能力范围,无解。删除镜像重试看看。

[0/2] Re-checking globbed directories...
[98/369] Building CXX object src/vec/CMakeFiles/Vec.dir/exec/format/parquet/vparquet_column_re[144/369] Building CXX object src/vec/CM[285/369] Building CXX object src/vec/CMakeFiles/Vec.dir/functions/plus.cpp.oERRO[3170] error waiting for container: unexpected EOF

编译了半个多小时,终于把 docker 搞崩了,自动退出了,我。。。😭

4. 尝试通过 centos镜像安装

报错:
docker container run -it -v /Users/mac/doris:/data/doris bloque/centos7-java8 bash

[root@bb744ed8b03b be]# sh bin/start_be.sh --daemon
Please set vm.max_map_count to be 2000000 under root using 'sysctl -w vm.max_map_count=2000000'.
[root@bb744ed8b03b be]# sysctl -w vm.max_map_count=2000000
sysctl: setting key "vm.max_map_count": Read-only file system[root@e6e06a0dbfa5 /]# sysctl  vm/max_map_count
vm.max_map_count = 262144

尝试赋予更大权限:

# 进入容器
docker run -it  --privileged   -v /Users/mac/doris:/data/doris bloque/centos7-java8 bash# 启动 be ,要求先关掉交换区
[root@709dd7db0193 be]# bin/start_be.sh --daemon
Please disable swap memory before installation.

如何关闭交换区?

如下方式,现查看交换区的文件位置

[root@3ea12eabe60e bin]# swapon -s
Filename				Type		Size	Used	Priority
/var/lib/swap                          	file	1048572	0	-2[root@3ea12eabe60e bin]# swapoff /var/lib/swap
swapoff: /var/lib/swap: swapoff failed: No such file or directory

在我的本地,我发现关闭不了。无奈之下,我只能采用终极解决办法了–注释掉 be 启动脚本的这一段内容:

if [[ "$(uname -s)" != 'Darwin' ]]; thenMAX_MAP_COUNT="$(cat /proc/sys/vm/max_map_count)"if [[ "${MAX_MAP_COUNT}" -lt 2000000 ]]; thenecho "Please set vm.max_map_count to be 2000000 under root using 'sysctl -w vm.max_map_count=2000000'."exit 1fi# if [[ "$(swapon -s | wc -l)" -gt 1 ]]; then#    echo "Please disable swap memory before installation."#   exit 1# fi
fi

启动bin/start_be.sh --daemon 之后查看进程:

[root@3ea12eabe60e doris]# jps -ml
673 DorisBE
3160 org.apache.doris.DorisFE
3421 sun.tools.jps.Jps -ml

至此,fe,be终于启动完成。

为了使用,还需要安装 MySQL 客户端(因为它兼容 MySQL 协议)

[root@3ea12eabe60e doris]# yum install mysql
Loaded plugins: fastestmirror, ovl
base                                                                                                                                                                                                  | 3.6 kB  00:00:00
extras                                                                                                                                                                                                | 2.9 kB  00:00:00
updates                                                                                                                                                                                               | 2.9 kB  00:00:00
(1/4): extras/7/x86_64/primary_db                                                                                                                                                                     | 253 kB  00:00:00
(2/4): base/7/x86_64/group_gz                                                                                                                                                                         | 153 kB  00:00:02
(3/4): updates/7/x86_64/primary_db                                                                                                                                                                    |  27 MB  00:00:03
(4/4): base/7/x86_64/primary_db

启动 fe,be之后无法创建表的,需要将 be添加进去才行。

MySQL [(none)]>  ALTER SYSTEM ADD BACKEND "127.0.0.1:9050";
Query OK, 0 rows affected (0.03 sec)MySQL [(none)]>  show backends;
+-----------+-----------+---------------+--------+----------+----------+--------------------+---------------+---------------+-------+----------------------+-----------+------------------+--------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+---------+---------------------------------------------------------------------------------------------------------------+-------------------------+----------+
| BackendId | Host      | HeartbeatPort | BePort | HttpPort | BrpcPort | ArrowFlightSqlPort | LastStartTime | LastHeartbeat | Alive | SystemDecommissioned | TabletNum | DataUsedCapacity | TrashUsedCapcacity | AvailCapacity | TotalCapacity | UsedPct | MaxDiskUsedPct | RemoteUsedCapacity | Tag                      | ErrMsg | Version | Status                                                                                                        | HeartbeatFailureCounter | NodeRole |
+-----------+-----------+---------------+--------+----------+----------+--------------------+---------------+---------------+-------+----------------------+-----------+------------------+--------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+---------+---------------------------------------------------------------------------------------------------------------+-------------------------+----------+
| 10088     | 127.0.0.1 | 9050          | -1     | -1       | -1       | -1                 | NULL          | NULL          | false | false                | 0         | 0.000            | 0.000              | 1.000 B       | 0.000         | 0.00 %  | 0.00 %         | 0.000              | {"location" : "default"} |        |         | {"lastSuccessReportTabletsTime":"N/A","lastStreamLoadTime":-1,"isQueryDisabled":false,"isLoadDisabled":false} | 0                       |          |
+-----------+-----------+---------------+--------+----------+----------+--------------------+---------------+---------------+-------+----------------------+-----------+------------------+--------------------+---------------+---------------+---------+----------------+--------------------+--------------------------+--------+---------+---------------------------------------------------------------------------------------------------------------+-------------------------+----------+
1 row in set (0.01 sec)

三、Apache Doris 使用初探

以上部分已完成 Docker 中启动 Doris的服务,现在我们可以按照官网的示例来一遍测试。

  1. 连接 doris
    mysql -uadmin -P9030 -h127.0.0.1

  2. 测试 创建表,查询

MySQL [(none)]> use demo;
Database changed
MySQL [demo]> create table mytable-> (->     k1 TINYINT,->     k2 DECIMAL(10, 2) DEFAULT "10.05",->     k3 CHAR(10) COMMENT "string column",->     k4 INT NOT NULL DEFAULT "1" COMMENT "int column"-> )-> COMMENT "my first table"-> DISTRIBUTED BY HASH(k1) BUCKETS 1-> PROPERTIES ('replication_num' = '1');
Query OK, 0 rows affected (0.01 sec)MySQL [demo]> show tables;
+----------------+
| Tables_in_demo |
+----------------+
| mytable        |
+----------------+
1 row in set (0.00 sec)MySQL [demo]> show create table mytable;
  1. 导入文件

参照官网将data.csv文件导入新建的表中。

[root@3ea12eabe60e doris]# curl  --location-trusted -u admin: -T data.csv -H "column_separator:," http://127.0.0.1:8030/api/demo/mytable/_stream_load
{"TxnId": 3,"Label": "bbbb9e58-1b52-475b-86d3-140eb7b4e754","Comment": "","TwoPhaseCommit": "false","Status": "Success","Message": "OK","NumberTotalRows": 4,"NumberLoadedRows": 4,"NumberFilteredRows": 0,"NumberUnselectedRows": 0,"LoadBytes": 52,"LoadTimeMs": 336,"BeginTxnTimeMs": 22,"StreamLoadPutTimeMs": 205,"ReadDataTimeMs": 0,"WriteDataTimeMs": 66,"CommitAndPublishTimeMs": 40
}

查询结果:

[root@3ea12eabe60e doris]# mysql -uadmin -P9030 -h127.0.0.1 -Ddemo
MySQL [demo]> select * from mytable;
+------+------+------+------+
| k1   | k2   | k3   | k4   |
+------+------+------+------+
|    1 | 0.14 | a1   |   20 |
|    2 | 1.04 | b2   |   21 |
|    3 | 3.14 | c3   |   22 |
|    4 | 4.35 | d4   |   23 |
+------+------+------+------+
4 rows in set (0.11 sec)

参考

https://doris.apache.org/zh-CN/docs/get-starting/quick-start

总结

本文主要讲了如何构建一个单机版的 Doris 以便于学习使用,最后演示了官网的一个小示例仅供参考。
遇到这些问题无解的时候给人一种深深的无力挫败感,如按照官网说的去做,可能真的就是从入门到放弃了。
我花费了 4 个多小时踩了各种坑才最终将环境问题解决,希望大家可以避过这些坑,保持对学习的热忱,加油。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/357406.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新Sublime Text软件安装包分享(汉化版本)

Sublime Text 是一款广受欢迎的跨平台文本编辑器,专为代码、标记和散文编辑而设计。它以其简洁的用户界面、强大的功能和高性能而著称,深受开发者和写作者的喜爱。 一、下载地址 链接:https://pan.baidu.com/s/1kErSkvc7WnML7fljQZlcOg?pwdk…

监控 Prometheus源码安装实战和动态更新 Centos7

安装go环境 下载go安装包 #创建文件夹 mkdir /usr/local/software #进入文件夹 cd /usr/local/software #下载安装包 wget https://dl.google.com/go/go1.17.6.linux-amd64.tar.gz配置go环境变量 #解压 tar -zxvf go1.17.6.linux-amd64.tar.gz#配置环境变量 echo "exp…

【GD32】从零开始学兆易创新32位微处理器——RTC实时时钟+日历例程

1 简介 RTC实时时钟顾名思义作用和墙上挂的时钟差不多,都是用于记录时间和日历,同时也有闹钟的功能。从硬件实现上来说,其实它就是一个特殊的计时器,它内部有一个32位的寄存器用于计时。RTC在低功耗应用中可以说相当重要&#xf…

【调试笔记-20240619-Windows-Typescripts中类型不匹配的解决方法】

调试笔记-系列文章目录 调试笔记-20240619-Windows-Typescripts中类型不匹配的解决方法 文章目录 调试笔记-系列文章目录调试笔记-20240619-Windows-Typescripts中类型不匹配的解决方法 前言一、调试环境操作系统:Windows 10 专业版调试环境调试目标 二、调试步骤搜…

Linux 五种IO模型

注:还有一种信号驱动IO,使用较少暂不讨论; 一,区分阻塞、非阻塞和同步、异步 看了很多文章对这两组概念解释和对比,说的太复杂了,其实没必要,两句话就能说清楚。 首先,对于读数据rec…

Qt制作程序启动界面类QSplashScreen实例测试详解

目录 一、QSplashScreen的概述 二、QSplashScreen静态图片加载 1、主程序实现 2、mainwindow.h实现 3、mainwindows.cpp实现 三、QSplashScreen动态图片加载 1、主程序实现 2、mainwindow.h实现 3、mainwindows.cpp实现 一、QSplashScreen的概述 QSplashScreen&#x…

C++并发之协程实例(三)(co_await)

目录 1 协程2 实例3 运行 1 协程 协程(Coroutines)是一个可以挂起执行以便稍后恢复的函数。协程是无堆栈的:它们通过返回到调用方来暂停执行,并且恢复执行所需的数据与堆栈分开存储。这允许异步执行的顺序代码(例如,在没有显式回调…

指纹浏览器与虚拟机的区别及在跨境电商中的应用

在如今数字化世界中,隐私和安全变得愈发重要。许多人在网络上进行敏感操作,如网上购物、在线银行、社交媒体管理等。为了保护自己的隐私,人们常常会寻求一些额外的工具,比如指纹浏览器和虚拟机。这两种工具在保护个人隐私方面都有…

sqoop的安装配置

1. 上传并解压安装包 tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ../server/ 重命名:mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop 2. 配置环境变量 sudo vim /etc/profile # 配置sqoop的环境变量 export SQOOP_HOME/export/server/sqoop export PATH$PATH…

Linux htop命令使用

文章目录 简介界面介绍第一行第二行第三行第四行 如何使用 简介 htop 是一个类似于 top 的命令,但具有更丰富的功能和更友好的界面。它可以实时显示系统中各个进程的资源占用情况,如 CPU 使用率、内存使用率等。以下是对 htop 命令的完全解析&#xff1…

嵌入式实验---实验五 串口数据接收实验

一、实验目的 1、掌握STM32F103串口数据接收程序设计流程; 2、熟悉STM32固件库的基本使用。 二、实验原理 1、STM32F103R6能通过查询中断方式接收数据,每接收到一个字节,立即向对方发送一个相同内容的字节,并把该字节的十六进…

Python: HexBinDecOct

因为: f0b1001110# 十进制 int()a0*2**01*2**11*2**21*2**30*2**40*2**51*2**6print(a)# 八进制 oct()print(78/8,78%8)# 110 001 001 8 116print(1*2**00*2**10*2**2,1*2**00*2**10*2**2,0*2**01*2**11*2**2)#十六进制 hex()#0 100 1110 16 4Eprint(sixteenFoo(0*…

如何在Qt Designer中管理QSplitter

问题描述 当按下按钮时,我希望弹出一个对话框,用户可以在其中选择内容并最终按下 ‘Ok’ 按钮。我想在这个对话框中放置一个 QSplitter,左侧面板将显示树状结构,右侧将显示其他内容。如何正确实现这一点? 从 Qt 的示…

oracle 主从库中,从库APPLIED为YES ,但是主库任然为NO

主库 从库 从库已经APPLIED但是主库为APPLIED, 主数据库和备用数据库之间的ARCH-RFS心跳Ping负责更新主数据库上v$archived_log的APPLICED列。 在主数据库上有一个指定的心跳ARCn进程来执行此Ping。如果此进程开始挂起,它将不再与远程RFS进程通信&#…

git拉取gitee项目到本地

git安装等不做赘述。 根据需要选择不同操作 1.只是单纯拉取个项目,没有后续的追踪等操作 不需要使用git init初始化本地文件夹 新建一个文件夹用于存储项目,右键选择 git bash here 会出现命令行窗口 如果像我一样,只是拉取个项目作业&…

Python爬虫技术:动态JavaScript加载音频的解析

在当今的互联网世界中,JavaScript已成为构建丰富交互体验不可或缺的技术。然而,对于网络爬虫开发者来说,JavaScript动态生成的内容却带来了不小的挑战。音频内容的动态加载尤其如此,因为它们往往涉及到复杂的用户交互和异步数据加…

xxe漏洞学习

一、什么是xxe漏洞 XXE就是XML外部实体注入,当允许引用外部实体时, XML数据在传输中有可能会被不法分子被修改,如果服务器执行被恶意插入的代码,就可以实现攻击的目的攻击者可以通过构造恶意内容,就可能导致任意文件读…

kafka(四)消息类型

一、同步消息 1、生产者 同步发送的意思就是,一条消息发送之后,会阻塞当前线程,直至返回 ack。 由于 send 方法返回的是一个 Future 对象,根据 Futrue 对象的特点,我们也可以实现同 步发送的效果,只需在调…

python---OpenCv(二),背景分离方法较有意思

目录 边界矩形 旋转矩形(最小外接矩形): 计算轮廓 找4个点的坐标 把浮点型转为Int 画轮廓 边界矩形--(最大外接矩形) 转灰度 找轮廓 找顶点 画矩形 显示 背景分离方法(这个很好玩,可以识别在动的物体) 边…

Redis源码学习:quicklist的设计与实现

为什么需要quicklist 假设你已经知道了ziplist的缺陷: 虽然节省空间,但是申请内存必须是连续的,如果内存占用比较多,申请效率低要存储大量数据,超过了ziplist的最佳上限后,性能有影响 借鉴分片思想&…