Pandas-3:数据输入与输出

在数据分析过程中,数据的来源多种多样,包括CSV文件、Excel表格、JSON文件、SQL数据库等。本章将系统讲解如何利用Pandas高效地加载和保存这些数据文件.

1.1 读取数据

Pandas支持读取多种数据格式,包括常见的文本文件、表格文件和数据库。

1.1.1 读取CSV文件

CSV(Comma-Separated Values)是最常见的数据存储格式之一,Pandas通过read_csv方法读取CSV文件。

import pandas as pd# 读取本地CSV文件
df = pd.read_csv('data.csv')
print(df)# 指定分隔符
df = pd.read_csv('data.csv', sep=';')# 只读取前N行
df = pd.read_csv('data.csv', nrows=10)# 忽略某些列
df = pd.read_csv('data.csv', usecols=['Name', 'Age'])# 设置编码方式
df = pd.read_csv('data.csv', encoding='utf-8')
1.1.2 读取Excel文件

Pandas通过read_excel方法读取Excel文件,需要安装相关依赖库,如openpyxl

# 读取Excel文件
df = pd.read_excel('data.xlsx')# 指定工作表
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')# 指定某些列
df = pd.read_excel('data.xlsx', usecols=['Name', 'Age'])# 跳过指定行数
df = pd.read_excel('data.xlsx', skiprows=2)
1.1.3 读取JSON文件

JSON(JavaScript Object Notation)是常用的数据交换格式,Pandas通过read_json方法读取JSON文件。

# 读取JSON文件
df = pd.read_json('data.json')# 从URL读取JSON数据
df = pd.read_json('https://example.com/data.json')
1.1.4 读取SQL数据库

Pandas可以通过read_sql方法从SQL数据库中加载数据,依赖于sqlalchemysqlite3等库。

import sqlite3# 创建数据库连接
conn = sqlite1.connect('data.db')# 从SQL查询结果中读取数据
df = pd.read_sql('SELECT * FROM users', conn)# 关闭连接
conn.close()

1.2 写入数据

Pandas支持将数据写入多种格式的文件,以下是常见的写入方法。

1.2.1 写入CSV文件

使用to_csv方法保存数据到CSV文件。

# 保存为CSV文件
df.to_csv('output.csv', index=False)# 自定义分隔符
df.to_csv('output.csv', sep=';')# 保存部分列
df.to_csv('output.csv', columns=['Name', 'Age'])
1.2.2 写入Excel文件

使用to_excel方法保存数据到Excel文件。

# 保存为Excel文件
df.to_excel('output.xlsx', index=False)# 自定义工作表名
df.to_excel('output.xlsx', sheet_name='DataSheet')
1.2.3 写入JSON文件

使用to_json方法保存数据到JSON文件。

# 保存为JSON文件
df.to_json('output.json', orient='records', lines=True)
1.2.4 写入SQL数据库

使用to_sql方法将数据保存到SQL数据库。

from sqlalchemy import create_engine# 创建数据库引擎
engine = create_engine('sqlite:///data.db')# 将数据保存到SQL数据库
df.to_sql('users', engine, index=False, if_exists='replace')

1.3 文件处理中的常见问题
1.1.1 文件路径问题

在读取或保存文件时,应注意文件路径的正确性:

  • 使用绝对路径避免路径错误。
  • 通过os模块动态获取路径。
import os# 获取当前目录
current_dir = os.getcwd()# 动态生成路径
file_path = os.path.join(current_dir, 'data.csv')
df = pd.read_csv(file_path)
1.1.2 编码问题

文件编码错误可能导致读取失败,常见的解决方法:

  • 明确指定文件编码,如utf-8latin1
  • 使用chardet库检测文件编码。
import chardet# 检测文件编码
with open('data.csv', 'rb') as f:result = chardet.detect(f.read())
print(result['encoding'])# 指定正确编码读取
df = pd.read_csv('data.csv', encoding=result['encoding'])
1.1.3 数据完整性
  • 使用na_values参数指定缺失值标记。
  • 在写入文件时检查是否丢失数据。
# 读取时处理缺失值
df = pd.read_csv('data.csv', na_values=['N/A', 'NA'])# 检查写入文件是否完整
df.to_csv('output.csv', index=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/474397.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python画图|3D errorbars基础教程

【1】引言 前序学习了errorbar()函数的大部分功能,相关文章包括但不限于下述链接: python画图|errorbar初探_python ax.errorbar-CSDN博客 python画图|errorbar()进阶教程- uplims, lolims和xuplims, xlolims应用_ax.errorbar(x, y 0.5, xerrxerr, y…

RPA真的是人工智能吗?

1. RPA与AI的定义与区别 1.1 RPA的定义与特点 机器人流程自动化(Robotic Process Automation,简称RPA)是一种软件技术,它通过模拟人类用户的操作行为来自动执行重复性、基于规则的任务。RPA的核心特点包括: 非侵入性…

第23次CCF计算机软件能力认证

1. 数组推导 A 1 , A 2 , ⋯ , A n A_1, A_2, \cdots, A_n A1​,A2​,⋯,An​ 是一个由 n n n 个自然数(即非负整数)组成的数组。 在此基础上,我们用数组 B 1 ⋯ B n B_1 \cdots B_n B1​⋯Bn​ 表示 A A A 的前缀最大值。 B i max ⁡ {…

15-大模型 RAG 经验篇

一、LLMs 已经具备了较强能力了,存在哪些不足点? 在 LLM 已经具备了较强能力的基础上,仍然存在以下问题: 幻觉问题:LLM 文本生成的底层原理是基于概率的 token by token 的形式,因此会不可避免地产生"一本正经…

【网络云计算】2024第48周-技能大赛-初赛篇

文章目录 1、比赛前提2、比赛题目2.1、 修改CentOS Stream系统的主机名称,写出至少3种方式,并截图带时间戳和姓名,精确到秒,否则零分2.2、 创建一个名为你的名字的拼音的缩写的新用户并设置密码,将用户名添加到 develo…

C#编写的日志记录组件 - 开源研究系列文章

以前编写过一个日志记录组件的博文,这次发布一个修改过的完善版本。 1、 项目目录; 2、 源码介绍; 1) 实现; 2) 使用; 后面的参数为级别设置,只有大于这个级别的才进行日志记录,限制了日志记录的…

Qt桌面应用开发 第五天(常用控件)

目录 1.QPushButton和ToolButton 1.1QPushButton 1.2ToolButton 2.RadioButton和CheckBox 2.1RadioButton单选按钮 2.2CheckBox多选按钮 3.ListWidget 4.TreeWidget控件 5.TableWidget控件 6.Containers控件 6.1QScrollArea 6.2QToolBox 6.3QTabWidget 6.4QStacke…

css数据不固定情况下,循环加不同背景颜色

<template><div><p v-for"(item, index) in items" :key"index" :class"getBackgroundClass(index)">{{ item }}</p></div> </template><script> export default {data() {return {items: [学不会1, …

【计算机网络安全】湖北大学-mysql事务隔离性实验

参考数据库实验&#xff1a;并发控制实验&#xff08;MySQL&#xff09;-CSDN博客&#xff0c;大佬写的很好 目录 实验环境 事务的隔离级别 1. 读未提交 2. 读已提交 3. 可重复读 4. 序列化 三种要解决的并发问题 1. 脏读&#xff08;Dirty Read&#xff09; 2. 不可重…

版本控制【Git Bash】【Gitee】

目录 一、什么是版本控制&#xff1f; 二、版本控制的种类&#xff1a; 1、本地版本控制 2、集中版本控制 3、分布式版本控制 三、下载Git Bash 四、Git Bash 配置 五、Git Bash使用 1、切换目录&#xff1a;cd 2.查看当前文件路径&#xff1a;pwd 3.列出当前目录下文件…

Qt中实现旋转动画效果

使用QPropertyAnimation类绑定对应的属性后 就可以给这个属性设置对应的动画 //比如自定义了属性 Q_PROPERTY(int rotation READ rotation WRITE setRotation)//给这个属性加动画效果 //参数1&#xff1a;谁要加动画效果 //参数2&#xff1a;哪个属性加动画效果 //参数3&…

Docker 基础命令介绍和常见报错解决

介绍一些 docker 可能用到的基础命令&#xff0c;并解决三个常见报错&#xff1a; 权限被拒绝&#xff08;Permission Denied&#xff09;无法连接到 Docker 仓库&#xff08;Timeout Exceeded&#xff09;磁盘空间不足&#xff08;No Space Left on Device&#xff09; 命令以…

web——upload-labs——第十关——.空格.绕过

审计源码 这次先删除文件名左右的空格&#xff0c;然后又删除了我们文件末尾的.&#xff0c;其次将我们上传的文件名转换为小写&#xff0c;删除文件末尾的::$DATA&#xff0c;最后又删除了文件名左右两侧的空格 根据他的逻辑&#xff0c;我们可以构造文件名phpinfo.php. .就是…

Python | Leetcode Python题解之第564题数组嵌套

题目&#xff1a; 题解&#xff1a; class Solution:def arrayNesting(self, nums: List[int]) -> int:ans, n 0, len(nums)for i in range(n):cnt 0while nums[i] < n:num nums[i]nums[i] ni numcnt 1ans max(ans, cnt)return ans

Stable Diffusion核心网络结构——CLIP Text Encoder

&#x1f33a;系列文章推荐&#x1f33a; 扩散模型系列文章正在持续的更新&#xff0c;更新节奏如下&#xff0c;先更新SD模型讲解&#xff0c;再更新相关的微调方法文章&#xff0c;敬请期待&#xff01;&#xff01;&#xff01;&#xff08;本文及其之前的文章均已更新&…

如何在项目中用elementui实现分页器功能

1.在结构部分复制官网代码&#xff1a; <template> 标签: 这是 Vue 模板的根标签&#xff0c;包含所有的 HTML 元素和 Vue 组件。 <div> 标签: 这是一个普通的 HTML 元素&#xff0c;包裹了 el-pagination 组件。它没有特别的意义&#xff0c;只是为了确保 el-pagi…

海量数据面试题

目录 前言 什么是海量数据 一、利用位图解决 二、利用布隆过滤器解决 三、利用哈希切割解决 前言 在大数据时代&#xff0c;海量数据处理已成为技术领域中的一项重要课题。无论是企业级应用、互联网平台&#xff0c;还是人工智能和机器学习的实现&#xff0c;都离不开对大规…

Diff 算法的误判

起源&#xff1a; 设想一下&#xff0c;假如你桌面上的文件都没有文件名&#xff0c;取而代之的是&#xff0c;你使用通过文件的位置顺序即index来区分它们———第一个文件&#xff0c;第二个文件&#xff0c;以此类推。也许这种方式可行&#xff0c;可是一旦你删除了其中的一…

基于Java Springboot幼儿园管理系统

一、作品包含 源码数据库设计文档万字PPT全套环境和工具资源部署教程 二、项目技术 前端技术&#xff1a;Html、Css、Js、Vue、Element-ui 数据库&#xff1a;MySQL 后端技术&#xff1a;Java、Spring Boot、MyBatis 三、运行环境 开发工具&#xff1a;IDEA/eclipse 数据…

Misc_01转二维码(不是二进制)

例题ctfhub/隐写v2.0 打开是一张图片 文件分离得到zip&#xff0c;爆破密码得到7878 打开得到0和1&#xff0c; !!!不是二进制转图片&#xff0c;直接是二维码 缩小能看到 000000000000000000000000000000000000000000000000000000000000000000000 000000000000000000000000…