数据采集项目2-业务数据同步

数据采集项目2-业务数据同步

news/2024/12/26 11:49:19/文章来源:https://blog.csdn.net/oldzhongyi/article/details/139652523

全量同步

每天都将业务数据库中的全部数据同步一份到数据仓库

全量同步采用DataX

datax

datax使用

执行

python /opt/module/datax/bin/datax.py /opt/module/datax/job/job.json

更多job.json配置文件在：

生成的DataX配置文件

java -jar datax-config-generator-1.0-SNAPSHOT-jar-with-dependencies.jar

增量同步

每天只将业务数据中的新增及变化数据同步到数据仓库。采用每日增量同步的表，通常需要在首日先进行一次全量同步。

增量同步采用Maxwell

Maxwell 监控MySQL数据，将自己伪装成MySQL的slave，实时监控MySQL的binlog日志，并将数据转化为json，之后发送给kafka等一些流数据处理平台。

要提前开启mysql的binlog

配置maxwell

maxwell首次开启为全量，之后为增量

全量：bin/maxwell-bootstrap --database gmall --table user_info --config config.properties

增量：bin/maxwell --config config.properties --daemon

如何解决数据漂移问题？

用户行为数据生成的时候一般会自带一个时间戳ts，通过flume拦截器，将body当中数据自带的ts时间戳写入header当中的timestamp，这样HDFS Sink在落盘调度时候就可以通过数据产生的时间来落盘了。

拦截器见：

启动脚本f2_log.sh编写资料见：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/350270.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

数智教育创新如何向未来？腾讯云与你探索革新之路

数智教育创新如何向未来？腾讯云与你探索革新之路

引言随着科技革命的快速发展，掀起教育领域的变革，新理念、新技术、新模式、新应用正不断涌现，正塑造着教育的未来形态。未来科技还将如何赋能教育创新？ 5月31日，由腾讯云TVP 与西安电子科技大学联合举办的「数智教育的…

阅读更多...

深入理解 Java 中的 synchronized 代码块

深入理解 Java 中的 synchronized 代码块

目录前言一、synchronized的工作原理二、使用synchronized代码块的场景三、编写synchronized代码块的最佳实践四、何时使用 synchronized 代码块？ 同步： 不同步： 五、Demo讲解 1.使用synchronized代码块减小锁的粒度&#xff0c…

阅读更多...

51 USART数据收发

51 USART数据收发

1.0 USART实现单个数据收发串口启动之前需要对串口进行初始化，主要是设置产生波特率的定时器1，使用串口的工作方式还是中断的工作方式具体的配置步骤如下所示。注： 1： 确定TMOD （定时器模式寄存器） 确…

阅读更多...

2021年9月电子学会青少年软件编程中小学生Python编程等级考试三级真题解析（判断题）

2021年9月电子学会青少年软件编程中小学生Python编程等级考试三级真题解析（判断题）

2021年9月Python编程等级考试三级真题解析判断题（共10题，每题2分，共20分） 26、readline()执行结果为字符串，readlines()执行结果为列表答案：对考点分析：考查文件读操作，readli…

阅读更多...

省去烦恼！轻松实现一台电脑登录多个微信号的秘诀揭秘！

省去烦恼！轻松实现一台电脑登录多个微信号的秘诀揭秘！

你知道如何在同一台电脑上登录多个微信号，并实现聚合聊天吗？ 今天，我将分享一个多微管理神器——个微管理系统，帮助你解决这一问题！ 1、多号同时登录，聚合聊天无论你有多少个微信号，都可以一…

阅读更多...

yolov8通过训练完成的模型生成图片热力图--论文需要

yolov8通过训练完成的模型生成图片热力图--论文需要

源代码来自于网络使用pytorch_grad_cam，对特定图片生成热力图结果。安装热力图工具 pip install pytorch_grad_cam pip install grad-cam# get_params中的参数： # weight： # 模型权重文件，代码默认是yolov8m.pt # c…

阅读更多...

【机器学习】集成学习方法：Bagging与Boosting的应用与优势

【机器学习】集成学习方法：Bagging与Boosting的应用与优势

🔥 个人主页：空白诗文章目录引言一、集成学习的定义二、Bagging方法1. 随机森林（Random Forest）2. 其他Bagging方法二、Boosting方法1. 梯度提升树（Gradient Boosting Machine, GBM）解释GBM的基本原理和…

阅读更多...

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 特惠寿司(100分) - 三语言AC题解(Python/Java/Cpp)

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 特惠寿司(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长，一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试｜编程一对一辅导 👏 感谢大家的订阅➕ 和喜欢💗 📎在线评测链接特惠寿司(100分) 🌍 评测功能需要订阅专栏后私信联系清隆解…

阅读更多...

9. 文本三剑客之awk

9. 文本三剑客之awk

文章目录 9.1 什么是awk9.2 awk命令格式9.3 awk执行流程11.4 行与列11.4.1 取行11.4.2 取列 9.1 什么是awk 虽然sed编辑器是非常方便自动修改文本文件的工具，但其也有自身的限制。通常你需要一个用来处理文件中的数据的更高级工具，它能提供一个类编程环…

阅读更多...

【二】【动态规划NEW】91. 解码方法，62. 不同路径，63. 不同路径 II

【二】【动态规划NEW】91. 解码方法，62. 不同路径，63. 不同路径 II

91. 解码方法一条包含字母 A-Z 的消息通过以下映射进行了编码 ： ‘A’ -> “1” ‘B’ -> “2” … ‘Z’ -> “26” 要解码已编码的消息，所有数字必须基于上述映射的方法，反向映射回字母（可能有多种方法&#xff…

阅读更多...

利用74HC165实现8路并行输入口的扩展

利用74HC165实现8路并行输入口的扩展

代码： #include <mega16.h>// Declare your global variables here #define hc165_clk PORTB.0 #define hc165_lp PORTB.1 #define hc165_out PINB.2unsigned char read_hc165(void) {unsigned char data0,i,temp0x80;hc165_lp0;hc165_lp1; for(i0;i<7;i)…

阅读更多...

Git 基础操作(一)

Git 基础操作(一)

Git 基础操作配置Git 安装完Git后，首先要做的事情是设置你的用户名和 e-mail 地址。这样在你向仓库提交代码的时候，就知道是谁提交的，以及提交人的联系方式。配置用户名和邮箱使用git config [--global] user.name "你的名字&qu…

阅读更多...

碳中和研究院OLED透明屏2x2整机项目方案

碳中和研究院OLED透明屏2x2整机项目方案

一、项目背景随着全球气候变化和环境问题的日益严重，碳中和成为各国政府和企业的重要议题。为了响应这一趋势，黑龙江碳中和研究院计划引入先进的OLED透明屏技术，以展示其研究成果和碳中和理念。本项目旨在为该研究院提供一套高质量的OLED透明…

阅读更多...

干部选拔任用的六条原则

干部选拔任用的六条原则

在干部选拔任用的过程中，为确保选拔出的干部能够真正符合党和人民的期望，必须遵循以下六条原则： 一、党管干部原则党管干部原则是指在整个干部选拔任用过程中，党要发挥总揽全局、协调各方的领导作用，确保选拔出的干…

阅读更多...

pytorch 加权CE_loss实现（语义分割中的类不平衡使用）

pytorch 加权CE_loss实现（语义分割中的类不平衡使用）

加权CE_loss和BCE_loss稍有不同 1.标签为long类型，BCE标签为float类型 2.当reduction为mean时计算每个像素点的损失的平均，BCE除以像素数得到平均值，CE除以像素对应的权重之和得到平均值。参数配置torch.nn.CrossEntropyLoss(weightNone,…

阅读更多...

算法01 递推算法及相关问题详解【C++实现】

目录递推的概念训练：斐波那契数列解析参考代码训练：上台阶参考代码训练：信封解析参考代码递推的概念递推是一种处理问题的重要方法。递推通过对问题的分析，找到问题相邻项之间的关系（递推式&a…

阅读更多...

【机器学习】LightGBM: 优化机器学习的高效梯度提升决策树

【机器学习】LightGBM: 优化机器学习的高效梯度提升决策树

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈｜ 炫酷HTML | JavaScript基础 💫个人格言: "如无必要，勿增实体" 文章目录 LightGBM: 优化机器学习的高效梯度提升决策树引言一、LightGBM概览二、核心技术…

阅读更多...

Go语言结构体内嵌接口

Go语言结构体内嵌接口

前言在golang中，结构体内嵌结构体，接口内嵌接口都很常见，但是结构体内嵌接口很少见。它是做什么用的呢？ 当我们需要重写实现了某个接口的结构体的(该接口)的部分方法，可以使用结构体内嵌接口。作用继承赋值给接口…

阅读更多...

激活和禁用Hierarchy面板上的物体

激活和禁用Hierarchy面板上的物体

1、准备工作： (1) 在HIerarchy上添加待隐藏/显示的物体，名字自取。如：endImage (2) 在Inspector面板，该物体的名称前取消勾选（隐藏） (3) 在HIerarchy上添加按钮，名字自取。如：tip…

阅读更多...

chatgpt的命令词

chatgpt的命令词

人不走空 🌈个人主页：人不走空 💖系列专栏：算法专题 ⏰诗词歌赋：斯是陋室，惟吾德馨目录 🌈个人主页：人不走空 💖系列专栏：算法专题 ⏰诗词歌…

阅读更多...

最新文章

推荐文章