国产低代码工具,轻松搞定数据迁移

    在日常的业务系统升级或者数据维护过程中,数据迁移是各个企业用户不得不面临的问题,尤其是数据迁移过程中要保障数据完整性、统一性和及时性,同时也需要注意源数据中的数据质量问题,比如缺失、无效、错误等问题,需要在迁移中尽可能的进行优化,以提高数据迁移后的数据质量。

    假定有如下场景: SQLServer中有一些汽车类数据,需要将该数据迁移到mysql数据库,并且在数据迁移过程中做一些数据治理,以达到符合新数据库对外提供支持要求,比如数据补齐、数据修复、数据替换等。

今天将通过HuggingFists系统演示如何从sqlserver数据库将数据迁移到mysql数据库,同时在迁移过程中对数据进行治理,提升数据治理。相关演示过程我们已经录制了操作视频,可访问如下:

微信视频号:《国产低代码工具,轻松搞定数据迁移》

BiliBili:《国产免费低代码工具,轻松搞定数据迁移》

        在迁移之前,需要做一些准备工作,也就是将待迁移的SQLServer数据库和目标数据库MySQL数据库先通过数据库连接器连接到HuggingFists中。

        这里通过配置数据库的一些基本信息就可以完成数据库的添加,并且浏览数据库中的数据表。

        下面就通过HuggingFists平台来实现该场景任务,整个过程大概分为创建流程、数据清洗、数据补齐、数据转换、数据补充、数据迁移等过程。

【创建流程】

        查看下已经准备好的汽车类数据,通过sqlserver连接器将数据接入到平台进行展示,如下图:

        这些数据中存在着一些问题,包括车辆号码为空、车架号数据格式不一、中英文混搭等问题,在数据迁移之前,需要将上述问题同步处理。

创建一个数据迁移流程,命名为<car_info数据迁移>

        进入流程编辑页面,在左侧可以看到当前支持的算子列表,选择“输入”->“数据库”中的“SQLServer读取”算子,并配置数据库源。

        点击浏览,查看通过数据连接器已经配置的sqlserver服务。

然后点击sql编辑器,进入数据表的选择,如下图:

        点击确定后,自动生成相应的sql语句,这里就完成了数据源的数据选择。

【数据清洗】挑选出异常数据,如车辆号码为空的数据。

        对于数据表中的异常数据,可以通过“控制”->“条件分支”的“if条件控制“来筛选,这里可以设定“条件名称=err”、“过滤条件=车辆号码is null”等配置,如下图:

        这时可以通过将结果输出来指定文件,如:将结果写出到csv文件,如下:

        这里就完成了数据的初步清洗,清洗出车辆号码为空的异常数据,当然也可以根据不同的目标,设置不同的数据清洗条件。

【数据补齐】

        接下来实现数据补齐,将车架号为8位的数据补齐到10位。首先,在“处理”->“转换”中找到“基于条件的值设置“,拖入流程编排页面,并且选择待选值列,设置表达式将8位{车架号.length()=8}补齐到10位{strFormat(‘%sxx‘,车架号)}。

Tips:可以讲结果连接到快速输出端口,查看数据的预期输出结果。

        通过上述算子完成数据的补充,同时也可以在系统中选择不同的算子完成不同的数据调整

【数据转换】修改颜色列的英文数据转换为中文。

        对于颜色列字段的数据,将“颜色”转换为中文,这里需要做一个字典算子“交互式数据输入”,包含了英文和中文的对照关系,在字典中,设置两个列,分别为英文列和中文列。

        然后找到“字典映射”算子,拖入流程编排页面,将“基于条件的值设置”算子的输出端口连接到其中一个输入端口,“交互式数据输入”算子的输出端口连接到另外一个输入端口。

        配置“字典映射”算子,选择待映射列的字段信息为“颜色”,字典列里面的原值为en,映射值为zh。

保存,并运行快速输出,查看如下结果。

        同样,这里可以通过字典的配置,也可以实现数据脱敏、数据修改等操作。

【数据补充】将原始数据增加一个字段,

        返回到流程编辑页面,从算子库中选择“处理”->“集合处理”->“结构化”中的“列添加”算子,拖入编排页面,如下图:

        连接“字符映射”的输出端口到“列添加”的输入端口,并且配置新增加的列名=“车辆用途”,并赋值“公用”。

执行下运行结果,

除了数据补充外,也可以进行数据的删除,包括各种行列操作。

【数据迁移】迁移到mysql数据库。

        同样,返回到流程编辑页面,从算子库中选择“输出”->“数据库”中的“MySQL写出”算子,拖入编排页面,如下图:

        在算子的配置页面,点击浏览,查看系统已经连接的MySQL数据库,选择已经预建好的数据库“cyber_new”,点击确定。

        在表名字的配置中选择数据表“car_info”,系统会自动进行数据字段的映射,如下,如下图:

        这里呢,需要做一个修改,调整颜色字段,引用新添加的颜色字段,将刚才新调整的字段颜色用“颜色_dictMapper”字段。

        然后运行查看快速输出结果,已经输出了调整的数据内容。

        最后,确认下数据迁移的结果,可以通过可视化查看两个数据表中的数据,如下图:

        从上述两个表中可以看到,已经完成从SqlServer数据库中的迁移到MySQL数据库中。最后,进入MySQL数据库中查看下已经写入的数据,

        至此,完成不仅完成了跨数据库之间的数据迁移,同时,在迁移的过程中完成了数据补充、数据转换、数据增加等操作,在数据迁移过程对数据处理提供了更多的可调整性。

【总结】

        上述过程演示了结构化数据库之间的数据迁移,除了上述两个数据库外,还支持Oracle、PostgreSQL、DB2、MongoDB、MariaDB、Redis、Sybase、Couchbase、Neo4j、Hbase、达梦8等数据库间的迁移,同时也支持非结构化数据的迁移、文件数据的迁移等。

        在数字化过程中,数据迁移必不可免,但迁移的工作又会面临诸如以下痛点:

数据格式不兼容:不同系统或数据库之间采用不同的数据格式或数据结构,导致数据迁移时需要进行格式转换,容易引发数据丢失或数据损坏的问题。

数据质量问题:在数据迁移过程中,暴露出数据质量问题,例如重复数据、缺失数据、不一致数据等。

迁移工具限制:一些数据迁移工具可能存在功能限制或不支持特定数据源或目标数据库,导致无法完全满足迁移需求。

迁移成本高昂:数据迁移可能需要投入大量的人力、时间和资源,尤其是在大规模数据迁移的情况下,成本可能会很高。

        HuggingFists作为低代码AI应用工具,也可以提供面向包括数据迁移、数据治理等方面的能力,为后续的AI应用提供数据质量保障。

HuggingFists的下载地址如下:

【Linux版】
微云:https://share.weiyun.com/mmmowpEX
Github:https://github.com/Datayoo/HuggingFists
百度网盘:https://pan.baidu.com/s/1zV_ScCtLgFQSYEb0wLmXIQ?pwd=2024 

【windows版】
微云:https://share.weiyun.com/2eDVeN8Q
Github: https://github.com/Datayoo/HuggingFists4Win/tree/main
百度网盘:https://pan.baidu.com/s/1JXgd5bEfSX8RsDb0WTocdw?pwd=2024

技术支持群二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/304113.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

windows版本-idea中下载的java版本在哪

1、点击idea的file-projectStructure 进入&#xff1a; 通过电脑目录进入该目录 找到bin目录&#xff0c;copy该目录地址 copy下来之后设置到系统环境变量中

synchronized 锁升级过程

synchronized 锁升级过程 Java中的synchronized锁升级过程是JVM为了提高并发性能而引入的一种优化策略&#xff0c;它在JDK 1.6及更高版本中得到了显著的改进。以下是synchronized锁从无锁状态到偏向锁、轻量级锁直至重量级锁的详细升级过程&#xff1a; 无锁状态&#xff1a;…

QT学习day4

widget.h #define WIDGET_H #include <QWidget> #include <QTime>//时间类 #include <QTimerEvent>//定时器类 #include <QPushButton>//按钮类 #include <QTextToSpeech>//语音播报 QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_E…

逆向案例十八——webpack逆向红人点集登录密码

网址链接&#xff1a;红人点集 密码登录&#xff0c;获取数据包&#xff1a; 发现pwd和sig两个加密参数&#xff0c;开始跟栈调试 点击第一个&#xff0c;在send处打上断点&#xff0c;再点击登录。 进入异步栈&#xff0c;r.requests 释放之前的断点&#xff0c;打上断点 &a…

【linux】基础IO(四)

在上一篇基础IO中我们主要讲述了文件再磁盘中的存储&#xff0c;当然我们说的也都只是预备知识&#xff0c;为这一篇的文件系统进行铺垫。 目录 搭文件系统的架子&#xff1a;填补细节&#xff1a;inode&#xff1a;datablock[]: 更上层的理解&#xff1a; 搭文件系统的架子&a…

实验1 eNSP安装与使用

实验1 eNSP安装与使用 一、 原理描述二、 实验目的三、 实验内容四、 实验步骤1.下载并安装eNSP2.eNSP软件界面3.搭建并运行网络拓扑4. Wireshark 捕获分组并分析 一、 原理描述 eNSP&#xff08;Enterprise Network Simulation Platform&#xff09;是由华为提供的免费网络模…

【PDF-XSS攻击】Java项目-上传文件-解决PDF文件XSS攻击

文章目录 背景解决pdfbox依赖控制器代码PdfUtils工具类 验证最后源码参考 背景 上传xss-pdf造成存储型xss因为在浏览器直接预览的PDF&#xff0c;而不是预览&#xff0c;所以安全部门认为会有XSS漏洞 解决 安全部门修复建议 1、根据白名单的标签和属性对数据进行过滤&#…

H.265网页无插件播放EasyPlayer.js流媒体播放器常见问题及解答

EasyPlayer属于一款高效、精炼、稳定且免费的流媒体播放器&#xff0c;可支持多种流媒体协议播放&#xff0c;无须安装任何插件&#xff0c;起播快、延迟低、兼容性强&#xff0c;使用非常便捷。 今天我们来汇总下用户常见的几个问题及解答。 1、EasyPlayer.js播放多路H.265视…

【鸿蒙开发】组件状态管理@Prop,@Link,@Provide,@Consume,@Observed,@ObjectLink

1. Prop 父子单向同步 概述 Prop装饰的变量和父组件建立单向的同步关系&#xff1a; Prop变量允许在本地修改&#xff0c;但修改后的变化不会同步回父组件。当父组件中的数据源更改时&#xff0c;与之相关的Prop装饰的变量都会自动更新。如果子组件已经在本地修改了Prop装饰…

竞赛升温,量子革命待发

人工智能已经吸引了全球企业巨头和政界领袖的广泛关注。同时&#xff0c;一场激烈的全球竞赛正在展开&#xff0c;目标是开发被许多专家视为下一个领域革命性技术的量子计算。 量子计算机利用量子物理学的原理&#xff0c;有潜力推动包括药物研究、股票市场分析以及数据加密在内…

AI论文速读 | TF-LLM:基于大语言模型可解释性的交通预测

论文标题&#xff1a; Explainable Traffic Flow Prediction with Large Language Models 作者&#xff1a;Xusen Guo, Qiming Zhang, Mingxing Peng, Meixin Zhu(朱美新)*, Hao (Frank)Yang(杨昊) 机构&#xff1a;香港科技大学&#xff08;广州&#xff09;&#xff0c;约翰…

【GameFi】链游 | E4C | 堕落竞技场FallenArena

官网&#xff1a;https://www.ambrus.studio/ 游戏下载&#xff1a;https://www.ambrus.studio/game/fallenArena Fallen Arena是一款15人对战游戏&#xff0c;包含单人对战模式和3人队伍对战模式。玩家可以通過收集地图上散落的宝石或消灭对手来获得积分。得分最高的玩家或队伍…

可视化大屏的应用(10):智慧楼宇领域

智慧楼宇可视化大屏可以应用于各种类型的楼宇&#xff0c;包括商业办公楼、住宅小区、医院、学校等。通过可视化大屏&#xff0c;楼宇管理者可以更直观地了解和管理楼宇的运营情况&#xff0c;提高管理效率和用户满意度。 智慧楼宇可视化大屏可以实现以下功能&#xff1a; 能耗…

基于Springboot中小企业设备管理系统设计与实现(论文+源码)_kaic

摘 要 随着信息技术和网络技术的飞速发展&#xff0c;人类已进入全新信息化时代&#xff0c;传统管理技术已无法高效&#xff0c;便捷地管理信息。为了迎合时代需求&#xff0c;优化管理效率&#xff0c;各种各样的管理系统应运而生&#xff0c;各行各业相继进入信息管理时代&a…

Redis 的主从复制、哨兵和cluster集群

目录 一. Redis 主从复制 1. 介绍 2. 作用 3. 流程 4. 搭建 Redis 主从复制 安装redis 修改 master 的Redis配置文件 修改 slave 的Redis配置文件 验证主从效果 二. Redis 哨兵模式 1. 介绍 2. 原理 3. 哨兵模式的作用 4. 工作流程 4.1 故障转移机制 4.2 主节…

Redis中的集群(四)

集群 槽指派 CLUSTER ADDSLOTS命令的实现 CLUSTER ADDSLOTS命令接受一个或多个槽作为参数&#xff0c;并将所有输入的槽指派给接收该命令的节点负责: CLUSTER ADDSLOTS <slot> [slot ...]CLUSTER ADDSLOTS命令的实现可以用以下伪代码来表示: def CLUSTER_ADDSLOTS(*…

windows10系统下TP-LINK万兆网卡属性配置高级说明

文章目录 打开配置属性说明ARP Offload&#xff1a;ARP地址解析协议卸载Downshift retries:降档重试次数Energy-Efficient Ethernet:高能效以太网Flow Control:流量控制Interrupt Moderation:中断调整Interrupt Moderation Rate:中断调节率IPv4 Checksum Offload:IPv4校验和卸载…

gemini1.5 API调用

https://ai.google.dev/pricing?hlzh-cn 查询可用的model https://generativelanguage.googleapis.com/v1beta/models?keyxxx 使用postman调用 https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-pro-latest:generateContent?keyxxx https://ai.google…

TTL介绍

transistor-to-transistor logic (TTL) What is transistor-to-transistor logic (TTL)? 晶体管对晶体管逻辑&#xff08;也称简单晶体管对晶体管逻辑或 TTL&#xff09;是数字逻辑设计的一个系列&#xff0c;由一系列双极结型晶体管构成&#xff0c;可在直流脉冲下工作。许多…

1999-2022年各省研究与试验发展人员全时当量数据/省研发人员全时当量数据/(RD)人员全时当量(无缺失)

1999-2022年各省研究与试验发展人员全时当量数据/省研发人员全时当量数据/(R&D)人员全时当量&#xff08;无缺失&#xff09; 1、时间&#xff1a;1999-2022年 2、来源&#xff1a;科技年鉴 3、指标&#xff1a;研究与试验发展人员全时当量/研发人员全时当量 4、范围&a…