kettle介绍
ETL工具,用于对数据的抽取(Extract), 转换(Transform),加载 (Load)
Kettle 是一种ETL工具, 现称为 Pentaho Data Integration (PDI)
特点:纯JAVA语言编写
官方学习文档
网站: https://docs.hitachivantara.com/r/en-us/pentaho-data-integration-and-analytics/10.2.x/mk-95pdia000/getting-started-with-pdi/pentaho-data-integration-pdi-tutorial/step-6-orchestrate-with-jobs
kettle界面: 点击learn>>开始>>目录里的PDI入门
示例
比如搭建数仓(oracle)银行项目把数据从DB层导入DWD层
导入前需要先在DWD层新建和DB层表结构一样的表
建表sql
CREATE TABLE DWD.CI_CIE_CORP_CUST_INFO AS SELECT * FROM DB.CI_CIE_CORP_CUST_INFO WHERE 1=2;
使用Kettle导入步骤
分别把输入/输出里面的表输入/表输出拖入转换区
点击表输入>>新建>>填写信息(连接名称自定义)>>测试>>确定>>获取查询sql>>选择想要的表>>确定>>选择在sql里面包含字段名
如果测试连接失败, 可能是Kettle里面缺失oracle的jar包
把oracle的3个jar包复制拖入Kettle安装文件的lib里面, 重启Kettle即可
找到Kettle安装位置: 桌面快捷方式>>右击>>打开文件所在位置>>lib文件
选中表输入,按住shift键,把表输入和表输出连接起来
点击表输出>>新建>>填写信息(用户名是DWD,连接名称写个新名称)>>勾选指定数据库字段>>数据库字段>>获取字段
查看数据是否导入成功(oracle)
SELECT * FROM DWD.CI_CIE_CORP_CUST_INFO
导入下一张表的数据
点击表输入>>获取qsl查询语句>>通过获取sql查询语句>>重新选择数据源表
点击表输出>>目标表的浏览>>重新选择目标表>>获取字段>>清除并增加所有>>运行
结束后在oracle查询是否导入成功
依次导入所有的数据