Hadoop sqoop

0目录

1.安装sqoop

2.补充sqoop流程

1.安装sqoop

解压、改名

[root@kb129 install]# tar -xvf ./sqoop-1.4.7.tar.gz -C /opt/soft/

[root@kb129 soft]# mv sqoop-1.4.7/ sqoop147

拷贝配置文件

[root@kb129 conf]# pwd

/opt/soft/sqoop147/conf

[root@kb129 conf]# cp sqoop-env-template.sh sqoop-env.sh

编辑配置文件

export HADOOP_COMMON_HOME=/opt/soft/hadoop313

export HADOOP_MAPRED_HOME=/opt/soft/hadoop313

export HBASE_HOME=/opt/soft/hbase235

export HIVE_HOME=/opt/soft/hive312

export HIVE_CONF_DIR=/opt/soft/hive312/conf

export ZOOCFGDIR=/opt/soft/zk345/conf

解压

[root@kb129 install]# tar -xvf ./sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C ./

拷贝jar包

[root@kb129 sqoop-1.4.7.bin__hadoop-2.6.0]# cp ./sqoop-1.4.7.jar /opt/soft/sqoop147/

[root@kb129 lib]# pwd

/opt/soft/sqoop147/lib

[root@kb129 lib]# cp /opt/soft/hive312/lib/hive-common-3.1.2.jar ./

[root@kb129 lib]# cp /opt/install/sqoop-1.4.7.bin__hadoop-2.6.0/lib/avro-1.8.1.jar ./

[root@kb129 lib]# cp /opt/soft/hive312/lib/mysql-connector-java-8.0.29.jar ./

配置环境变量并source

#SQOOP

export SQOOP_HOME=/opt/soft/sqoop147

export PATH=$SQOOP_HOME/bin:$PATH

验证安装

[root@kb129 lib]# sqoop version

查看sqoop一般操作命令

[root@kb129 lib]# sqoop help

连接mysql命令(\代表换行输入)

[root@kb129 lib]# sqoop list-databases \

 --connect jdbc:mysql://kb129:3306/ \

 --username root \

 --password 123456

查看sql50数据库内的表

[root@kb129 lib]# sqoop list-tables --connect jdbc:mysql://kb129:3306/sql50 --username root --password 123456

在hive默认库中创建表(来源mysql库中的help_keyword表,仅复制表结构)

[root@kb129 lib]# sqoop create-hive-table \

--connect jdbc:mysql://kb129:3306/mysql \

--username root --password 123456 \

--table help_keyword \

--hive-table hk

导入mysql库中的help_keyword的数据到HDFS默认路径上/user/root

sqoop import --connect jdbc:mysql://kb129:3306/mysql --username root --password 123456 --table help_keyword -m 1

导入sql50库中的student表的数据到HDFS默认路径上

sqoop import --connect jdbc:mysql://kb129:3306/sql50 --username root --password 123456 --table student -m 1

导入: 指定分隔符和导入路径

sqoop import --connect jdbc:mysql://kb129:3306/sql50 --username root --password 123456 --table student --target-dir /kb23/student --fields-terminated-by '\t' -m 1

导入数据:带where条件

sqoop import --connect jdbc:mysql://kb129:3306/mysql --username root --password 123456 --where "name='STRING'" --table help_keyword --target-dir /kb23/hk1 -m 1

导入:指定自定义查询SQL

sqoop import --connect jdbc:mysql://kb129:3306/mysql --username root --password 123456 --target-dir /kb23/hk2 --query 'select help_keyword_id,name from help_keyword where $CONDITIONS and name="STRING"' --split-by help_keyword_id --fields-terminated-by ':' -m 4

在以上需要按照自定义SQL语句导出数据到HDFS的情况下:

1、引号问题,要么外层使用单引号,内层使用双引号,$CONDITIONS的$符号不用转义, 要么外层使用双引号,那么内层使用单引号,然后$CONDITIONS的$符号需要转义

2、自定义的SQL语句中必须带有WHERE \$CONDITIONS

2、把MySQL数据库中的表数据导入到Hive中

Sqoop 导入关系型数据到 hive 的过程是先导入到 hdfs,然后再 load 进入 hive

普通导入:数据存储在默认的default hive库中,表名就是对应的mysql的表名

sqoop import --connect jdbc:mysql://kb129:3306/mysql --username root --password 123456 --table help_keyword --hive-import -m 1

导入过程

第一步:导入mysql.help_keyword的数据到hdfs的默认路径

第二步:自动仿造mysql.help_keyword去创建一张hive表, 创建在默认的default库中

第三步:把临时目录中的数据导入到hive表中

指定行分隔符和列分隔符,指定hive-import,指定覆盖导入,指定自动创建hive表,指定表名,指定删除中间结果数据目录

sqoop import  \

--connect jdbc:mysql://192.168.3.129:3306/mysql  \

--username root  \

--password 123456  \

--table help_keyword  \

--fields-terminated-by "\t"  \

--lines-terminated-by "\n"  \

--hive-import  \

--hive-overwrite  \

--create-hive-table  \

--delete-target-dir \

--hive-database  default \

--hive-table new_help_keyword

增量导入(追加)

执行增量导入之前,先清空hive数据库中的my_help_keyword表中的数据

从原表501行数据开始到最后,追加到目标表中

sqoop import  \

--connect jdbc:mysql://kb129:3306/mysql  \

--username root  \

--password 123456  \

--table help_keyword  \

--hive-import  \

--incremental  append  \

--hive-database kb23db \

--check-column  help_keyword_id \

--last-value 500  \

-m 1

更多参考

Sqoop import https://www.cnblogs.com/qingyunzong/p/8807252.html

Sqoop export 小白篇(十二):sqoop export指令实操_belialxing的博客-CSDN博客

2.补充sqoop流程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/135391.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java环境搭建安装IDE

Java环境搭建、安装IDE 文章目录 Java环境搭建、安装IDE1. 下载Java JDK ,配置环境变量,在命令行环境下完成hello world程序;简介安装Step 0 安装包准备工作Step 1 下载 Java JDKStep 2 配置环境变量配置 JAVA_HOME配置 Path配置 CLASSPATH S…

巨人互动|Facebook海外户Facebook客户反馈分数

Facebook客户反馈分数是一项用于衡量用户对Facebook产品和服务满意度的指标。该指标被广泛应用于各种调研和评估活动,帮助Facebook了解用户对其平台和功能的意见和建议,并从中识别出改进的机会。 巨人互动|Facebook海外户&Facebook新闻提要的算法&am…

django添加数据库字段进行数据迁移

1.修改view.py里面的变量 2.在model.py新增字段 3.打开terminal并将环境切到项目所在环境,切换方式为 4.执行命令 python manage.py makemigrations backend python manage.py migrate

社区版MyApps低代码平台,免费即刻拥有!

编者按:本文主要介绍了MyApps推出的免费社区版的优势,为企业数字化转型提供了解决方案。立即登录MyApps低代码平台,就能获取永久免费的低代码平台。 1.MyApps社区版的优势 1.1不受限制,畅享自由 无用户限制、无安装限制、全面应用…

使用Cpolar 内网穿透工具,实现公网访问SeaFile搭建的私有云盘

文章目录 1. 前言2. SeaFile云盘设置2.1 Owncould的安装环境设置2.2 SeaFile下载安装2.3 SeaFile的配置 3. cpolar内网穿透3.1 Cpolar下载安装3.2 Cpolar的注册3.3 Cpolar云端设置3.4 Cpolar本地设置 4.公网访问测试5.结语 1. 前言 现在我们身边的只能设备越来越多&#xff0c…

K8S入门前奏之VMware虚拟机网络配置

为了能在本地搭建 K8S 的运行服务器,在个人电脑上安装了虚拟机VMware16版本,并且在阿里巴巴开源镜像站下载了CentOS-7操作系统:阿里巴巴开源镜像站 做完一些列准备工作后,在虚拟机安装完CentOS-7操作系统后,需要对VMw…

chales 重写/断点/映射/手机代理/其他主机代理

1 chales 安装和代理配置/手机代理配置/电脑代理配置 chales 安装和代理配置/手机代理配置/电脑代理配置 2 转载:Charles Rewrite重写(详解!必懂系列) Charles Rewrite重写(详解!必懂系列) 1.打开charles,点击菜单栏的Tools选中Rewrite2.…

虹科分享 | 谷歌Vertex AI平台使用Redis搭建大语言模型

文章来源:虹科云科技 点此阅读原文 基础模型和高性能数据层这两个基本组件始终是创建高效、可扩展语言模型应用的关键,利用Redis搭建大语言模型,能够实现高效可扩展的语义搜索、检索增强生成、LLM 缓存机制、LLM记忆和持久化。有Redis加持的大…

wordpress使用category order and taxonomy terms order插件实现分类目录的拖拽排序

文章目录 引入实现效果安装插件使用插件 引入 使用docker快速搭建wordpress服务,并指定域名访问 上一节我们使用docker快速搭建了wordpress服务,可以看到基础的wordpress服务已经集成基础的用户管理、文章发布、页面编辑、文章分类等功能,但…

2023客服管理者面临的挑战

客服管理者在当今的数字化时代也面临着许多挑战。以下是一些主要的挑战: 同行业竞争加剧:客服行业面临着来自同行业的竞争压力。为了获得竞争优势,企业需要不断提高自身的产品和服务质量,同时还需要不断降低成本、提高效率。然而…

Linux入门教程||Linux文件基本属性

Linux系统是一种典型的多用户系统,不同的用户处于不同的地位,拥有不同的权限。为了保护系统的安全性,Linux系统对不同的用户访问同一文件(包括目录文件)的权限做了不同的规定。 在Linux中我们可以使用 ll 或者 ls –l…

Scrum敏捷开发流程及关键环节

​Scrum是一种敏捷开发流程,它旨在使软件开发更加高效和灵活。Scrum将软件开发过程分为多个短期、可重复的阶段,称为“Sprint”。每个Sprint通常为两周,旨在完成一部分开发任务。 在Scrum中,有一个明确的角色分工: 产…

window系统:nginx(nginx-rtmp-module模块)实现rtmp服务器

下载 下面链接直接点击下载,下载的就是包含rtmp服务器相关功能的,只不过需要配置下 Index of /download/ (ecsds.eu) nginx 1.7.11.3 Gryphon.zip直接点击额下面的连接即可下载 http://nginx-win.ecsds.eu/download/nginx%201.7.11.3%20Gryphon.zip …

antv-G6知识图谱安装--使用(实例)--连接线修改成动态,并添加跟随线移动的光圈,设置分支跟踪定位功能

这系列文章主要是完成一个图谱的自定义修改(最近太忙了长篇分段更新自己使用流程) 1. 连接线修改成动态,并添加跟随线移动的光圈 2. 自定义卡片样式和文字内容 3. 自定义伸缩节点的样式,并添加动画样式 3. 自定义弹窗样式 4. 自定…

干净优雅的做iOS应用内全局交互屏蔽

本文字数:4930字 预计阅读时间:28分钟 01 交互屏蔽的需求 很多应用开发者都会遇到这样一个需求,当程序需要处理某个敏感的核心任务,或者执行某些动画时,需要杜绝一切外部干扰,优先保证任务的完成&#xff0…

Linux日志管理-logrotate(crontab定时任务、Ceph日志转储)

文章目录 一、logrotate概述二、logrotate基本用法三、logrotate运行机制logrotate参数 四、logrotate是怎么做到滚动日志时不影响程序正常的日志输出呢?Linux文件操作机制方案一方案二 五、logrotate实战--Ceph日志转储参考 一、logrotate概述 logrotate是一个用于…

Failed to connect to bitbucket.org port 443 错误原因, 解决办法

最近使用SourceTree来访问bitbucket.org的代码托管Git, 当Pull或者Push发现操作失败: Failed to connect to bitbucket.org port 443 错误原因: 无法链接到网站地址, 可能是DNS解析IP地址错误, 或者网站维护, 大概率是被墙或者DNS解析错误. 解决办法: 如果您的浏览器能够访问b…

无所不知的Mac效率神器 Alfred 4,一顶神器的小帽子!

肯定很多人在工作、学习或者写东西的时候,总想着怎样可以提高效率,节约时间。现在每天用得最多的电脑,怎样才能够让工作效率更高呢?带着这样的一个目的,使用了很多的小工具,有些可以简化工作,有…

U8用友ERP本地部署异地远程访问:内网端口映射外网方案

文章目录 前言1. 服务器本机安装U8并调试设置2. 用友U8借助cpolar实现企业远程办公2.1 在被控端电脑上,点击开始菜单栏,打开设置——系统2.2 找到远程桌面2.3 启用远程桌面 3. 安装cpolar内网穿透3.1 注册cpolar账号3.2 下载cpolar客户端 4. 获取远程桌面…

2.6W字系统总结,带你实现 Linux 自由!

以前就聊过大多数应届生入职后会遇到的两大拦路虎分别是Git和Linux,其中关于Git,前段时间已经分享过自己工作两年多以来用过的比较实用的一些命令了,这些命令可能不是最花哨的,但绝对是最实用的。 今天分享一份很全面的Linux常用…