将CSV、Excel、XML文件转换为MySQL数据库

在平时的工作中,经常会遇到需要将文件数据导入到数据库中的情况。有些客户之前可能只使用Excel表格作为记录工具,但当数据量达到一定程度或者需要将数据导入到其他系统中时,就会很emo,因为Excel表格虽然方便,但在数据处理和管理方面却存在很多限制。此时就需要将Excel表格中的数据导入到MySQL数据库中,以便更好地管理和利用这些数据。除了Excel表格,有时还需要处理CSV或XML格式的数据,比如某些数据源或第三方平台获取的数据可能就是这两种格式,我遇到过某设备导出的数据为欧洲千分位CSV的格式,用户自己处理起来就更emo了。

给MySQL数据库读取文件赋权

在进行转换前需要先给MySQL数据库赋权,因为MySQL服务器通常配置了一个安全选项,限制了LOAD DATA INFILE语句可以加载文件的目录。这个--secure-file-priv选项就是用于限制LOAD DATA INFILESELECT ... INTO OUTFILE操作可以访问的文件目录。
赋权需要先输入命令查看--secure-file-priv指定的目录路径,随后使用cp命令将要转换的CSV、Excel(需要转化为CSV文件)文件移动到这个路径下:

SHOW VARIABLES LIKE 'secure_file_priv';

在这里插入图片描述
复制文件到查询到的/var/lib/mysql-files/文件夹里(Amazon Dataset.csv是我从kaggle上下载的CSV文件名称):

sudo cp "/数据文件存放的路径/Amazon Dataset.csv" "/var/lib/mysql-files/"

赋予MySQL读取文件的权利:

sudo chown mysql:mysql "/var/lib/mysql-files/Amazon Dataset.csv"
sudo chmod 640 "/var/lib/mysql-files/Amazon Dataset.csv"

重启MySQL服务器:

sudo systemctl restart mysql

CSV文件转换

接下来就可以创建MySQL数据库了,根据原数据格式来建立
原CSV文件格式

CREATE DATABASE amazon;  
USE amazon;CREATE TABLE IF NOT EXISTS daily_prices (  Date DATE PRIMARY KEY,  Open FLOAT,  High FLOAT,  Low FLOAT,  Close FLOAT,  Adj_Close FLOAT,  Volume BIGINT  
);

接下来进行数据读取和转换:CSV文件以 , 作为分割,所以使用FIELDS TERMINATED BY ','提示数据库原文件是,分割格式,ENCLOSED BY '"'指定每个字段的值都应该在双引号内,LINES TERMINATED BY '\n'指定每条记录之间的分隔符是换行符(\n),IGNORE 1 ROWS;指定指定导入数据时忽略文件的第一行。

LOAD DATA INFILE '/var/lib/mysql-files/Amazon Dataset.csv'  
INTO TABLE daily_prices  
FIELDS TERMINATED BY ','  
ENCLOSED BY '"'  
LINES TERMINATED BY '\n'  
IGNORE 1 ROWS;

查询下数据库是否转换成功:

SELECT * FROM daily_prices;

在这里插入图片描述

Excel文件转换

安装gnumeric将xls或xlsx文件转换为.csv文件

udo apt-get install gnumeric

安装完gnumeric后,使用ssconvert命令来将.xls文件转换为.csv文件:

ssconvert 数据.xls 数据.csv

随后既可以像操作CSV文件一样进行操作。

XML文件转换

我从国家数据官网下载的XML格式数据,官网链接:国家数据官网,在下载完数据后先看一下数据结构
在这里插入图片描述
根据数据结构来建立一个数据库:

CREATE DATABASE month_data;  
USE month_data;  CREATE TABLE monthly (  id INT AUTO_INCREMENT PRIMARY KEY,  indicator VARCHAR(255),  time VARCHAR(255),  data DECIMAL(10, 2)  
);

接下来编写Python脚本,需要提前下载lxml库lxml库相对于xml库更灵活方便,处理编码方式效果更好:

# import_xml.py
from lxml import etree 
import mysql.connector  conn = mysql.connector.connect(  host='主机名',  user='用户名',  password='用户密码',  database='database的名字'  
)  
cursor = conn.cursor()  
tree = etree.parse('network.xml')  
root = tree.getroot() for record in root.findall('data/record'):  indicator = record.find('field[@name="指标"]').text  time = record.find('field[@name="时间"]').text  data = record.find('field[@name="数据"]').text  cursor.execute(  "INSERT INTO monthly (indicator, time, data) VALUES (%s, %s, %s)",  (indicator, time, data)  )  conn.commit()  
cursor.close()  
conn.close()

随后在终端运行它:

python3 import_xml.py

运行成功后查询一下:

SELECT * FROM monthly;

转换成功!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/363115.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 UBUNTU 22.04 上逐步构建 Postal SMTP 服务器

构建 Postal SMTP 服务器来发送批量电子邮件是电子邮件营销人员的不错选择。Postal 功能非常强大,并拥有大量开发人员的支持。它是一个用 JavaScript 和 Ruby 编写的开源邮件服务器脚本。它可用于构建内部 SMTP 服务器,就像 Mailgun、Sendgrid、Mailchim…

慢动作视频怎么制作?5种方法,轻松制作慢动作视频

在短视频风靡的当下,慢动作视频凭借其独特的视觉效果和引人入胜的节奏感,成为了吸引观众眼球的利器。你是否也想知道如何制作这种令人心动的慢动作视频呢?下面教大家5种能够制作出慢动作视频的方法,一起来学习下吧。 方法一&#…

openEuler 22.03 (LTS-SP1)服务器用ntpd同步GPS时间服务器的案例

本文记录了openEuler 22.03 (LTS-SP1)的二级时间服务器用chronyd不能自动同步GPS时间服务器,改用ntpd同步GPS时间服务器成功的案例 一、环境简述 1、本环境中有两台GPS一级时间服务器,IP如下: 192.168.188.66 192.168.188.74 2、有一台o…

分布式kettle调度管理平台简介

介绍 Kettle(也称为Pentaho Data Integration)是一款开源的ETL(Extract, Transform, Load)工具,由Pentaho(现为Hitachi Vantara)开发和维护。它提供了一套强大的数据集成和转换功能&#xff0c…

51循迹小车(蓝牙+循迹+超声波+舵机+避障L298N)

基本驱动 L298N电机驱动模块负责供电和控制电机驱动 将电池12V供电接到12V供电上,作为输入。单片机及其他器件供电可以使用5V供电,这里的GND都接到一起。 输出A和输出B接到电机上,负责给电机供电和控制电机。 通道A使能和通道B使能以及逻…

【Confluence】markdown格式转换为Confluence

简单的文本可以使用网站来快速转换,但是发现很多格式不能正确转换,所以研究了一个Py的方法来实现,如下: 安装Py插件 本方法主要借用markdown2 来实现,开始之前需要先安装一些库。 pip install markdown2 beautiful…

TCP 和 UDP 可以同时绑定相同的端口吗?

在网络编程中,TCP和UDP都可以绑定到同一个端口上进行通信。TCP和UDP是OSI模型中的传输层协议,它们分别使用不同的端口号来区分不同的应用程序或服务。 TCP(Transmission Control Protocol)提供了面向连接的、可靠的传输服务&…

python办公自动化之excel

用到的库:openpyxl 实现效果:读取单元格的值,写入单元格 代码: import openpyxl # 打开现有工作簿 workbookopenpyxl.load_workbook(现有工作簿.xlsx) # 选择一个工作表 sheetworkbook[交易表] # 读取单元格的值 cell_valueshe…

webpack【实用教程】

基础配置 配置的拆分和合并 通常 webpack 的配置文件会有3个 webpack.common.js 公共配置(会被另外两个配置文件导入并合并)webpack.dev.js 开发环境的配置webpack.prod.js 生产环境的配置 开发环境的本地服务 在 webpack.dev.js 中配置 devServer:…

钡铼BL104智慧环保多个485采集转MQTT无线传输

PLC物联网关BL104是一款专为工业环境设计的先进协议转换网关,其集成了钡铼智能技术和环保多个485采集转MQTT无线传输功能,为工业控制系统提供了高效的数据采集、传输和管理解决方案。 技术规格与功能特点 PLC物联网关BL104采用钡铼智能技术&#xff0c…

PPT怎么录制视频?这里有你想要的答案!

“有人知道ppt怎么录制视频吗?我正在准备一个关于新产品功能介绍的演示文稿,希望能将我的ppt转化为一个专业且生动的视频讲解。我尝试了一些方法,但不知道从哪里开始。有没有哪位朋友能分享一下自己录制ppt视频的经验吗?” 在数字…

前端打包配置+nginx配置实现部署及部署地址带特定前缀的几种方式

前端打包后要部署到服务器,在浏览器中可以通过url访问到我们开发的系统,通过nginx代理在工作中是一种很常用的方式。 这里以本地为例,把本地电脑当作一个服务器,实现普通部署、带特定前缀等 前端使用vue-clivue作为例子 以下内容…

Oracle中常用内置函数

一、字符串函数 CONCAT(s1, s2):连接两个字符串s1和s2。 SELECT CONCAT(Hello, World) FROM DUAL-- 结果:Hello World --或者使用 || 操作符 SELECT Hello || World FROM DUAL -- 结果:Hello World INITCAP(s):将字符串s…

OpenHarmony 5.0 纯血鸿蒙系统

OpenHarmony-v5.0-Beta1 版本已于 2024-06-20 发布。 OpenHarmony 5.0 Beta1 版本标准系统能力持续完善,ArkUI 完善了组件通过 C API 调用的能力;应用框架细化了生命周期管理能力,完善了应用拉起、跳转的能力;分布式软总线连接能力…

如何找合适的C++项目给自己的简历加分?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「嵌入式的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!! C的工作多种多样&#x…

Str.format()方法

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 语法参考 在Python2.6之后,提供了字符串的format()方法对字符串进行格式化操作。format()功能非常强大,格式也比较复杂&…

MobPush iOS端海外推送最佳实现

推送注册 在AppDelegate里进行SDK初始化&#xff08;也可以在Info.plist文件中进行AppKey&#xff0c;AppSecret的配置&#xff09;并对通知功能进行注册以及设置推送的环境和切换海外服务器等&#xff0c;参考如下步骤代码&#xff1a; <span style"background-colo…

文心一言 VS 讯飞星火 VS chatgpt (291)-- 算法导论21.3 4题

四、假设想要增加一个 PRINT-SET(x) 操作&#xff0c;它是对于给定的结点 x 打印出 x 所在集合的所有成员&#xff0c;顺序可以任意。如何对一棵不相交集合森林的每个结点仅增加一个属性&#xff0c;使得 PRINT-SET(x) 所花费的时间同 x 所在集合元素的个数呈线性关系&#xff…

C++ | Leetcode C++题解之第187题重复的DNA序列

题目&#xff1a; 题解&#xff1a; class Solution {const int L 10;unordered_map<char, int> bin {{A, 0}, {C, 1}, {G, 2}, {T, 3}}; public:vector<string> findRepeatedDnaSequences(string s) {vector<string> ans;int n s.length();if (n < L…

内网穿透实现方案(免费版)_免费内网穿透

#巴比达内网穿透——我的网络救星# 作为一个常常在网络世界里摸索的人&#xff0c;我一直在寻找一款真正好用的内网穿透工具。相信很多朋友都和我有过一样的经历&#xff0c;为了找到合适的工具&#xff0c;试了一个又一个&#xff0c;却总是失望而归。但这次&#xff0c;我真…