在 Python 中,通过列表字典创建 DataFrame 时,若字典的 key 的顺序不一样以及部分字典缺失某些键,pandas 将如何处理?

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


pandas 是一个快速、强大、灵活且易于使用的开源数据分析和处理工具,它是建立在 Python 编程语言之上的。

pandas 官方文档地址:https://pandas.pydata.org/

在这里插入图片描述

在 Python 中,使用 pandas 库通过列表字典(即列表里的每个元素是一个字典)创建 DataFrame 时,如果每个字典的 key(键)顺序不一样,pandas 会如何处理这种情况呢?这是一个很好的问题,因为它涉及到 pandas 在处理非规范化输入数据时的灵活性和稳健性

首先,我们需要了解什么是 DataFrame 以及为什么会有通过列表字典来创建 DataFrame 的需求。

DataFrame 是 pandas 库中的一种二维标签数据结构,类似于 Excel 表格或 SQL 表,其中可以存储不同类型的列。这种数据结构非常适合于处理真实世界中常见的异质型数据

当通过列表字典来创建 DataFrame 时,每个字典通常代表一行数据,字典的键(key)对应列名,而值(value)对应该行该列下的数据。如果每个字典中键的顺序不同,pandas 将如何处理呢?

  • 列顺序:在创建 DataFrame 时,pandas 会检查所有字典中出现的键,并根据这些键首次出现的顺序来确定列的顺序。这意味着如果第一个字典的键顺序是 ['A', 'B', 'C'] 而第二个字典的键顺序是 ['B', 'C', 'A'],那么生成的 DataFrame 将会以第一个字典中键出现的顺序作为列顺序,即先 ‘A’ 列,然后是 ‘B’ 列和 ‘C’ 列。

  • 缺失值处理:如果某些字典缺少某些键,则相应地,在结果 DataFrame 中该位置将被填充为 NaN(Not a Number),表示缺失值。

  • 效率考虑:虽然 pandas 在处理这种不一致性时非常灵活,但是从效率角度考虑,在创建大型 DataFrame 之前统一键的顺序可能会更加高效。这是因为减少了内部必须进行以匹配、排序和填充缺失值等操作。

下面举一个简单示例:

# 导入 pandas 库
import pandas as pd
import numpy as np# 创建包含不同 key 顺序和个别字典缺少某些键的列表字典
data = [{"A": 1, "B": 2, "C": 3, "D": 6, "E": 9, "F": 5},{"B": 4, "C": 5, "D": 6},{"A": 7, "C": 8, "D": 9},{"A": 10, "E": 11, "C": 12, "F": 13},{"C": 15, "B": 16, "A": 17, "D": 18, "E": 19, "F": 20},{"A": 21, "B": 22, "D": 23, "E": 24, "C": 25, "F": 26}]# 通过列表字典创建 DataFrame
df = pd.DataFrame(data, dtype=np.float64)# 输出结果查看
df

这段代码的主要目的是创建一个 DataFrame,其中包含一些具有不同键顺序和缺失键的字典。下面是对每一行代码的解释:

  • import pandas as pd:这行代码导入了 pandas 库,并将其重命名为 pd。pandas 是一个强大的数据处理库,提供了 DataFrame 等数据结构以及一系列数据处理函数。

  • import numpy as np:这行代码导入了 numpy 库,并将其重命名为 np。numpy 是一个用于处理数组(特别是数值型数组)的库,提供了许多数学函数。

  • data = [{"A": 1, "B": 2, "C": 3, "D": 6, "E": 9, "F": 5}, {"B": 4, "C": 5, "D": 6}, ...]:这行代码定义了一个列表,其中包含多个字典。每个字典都有一些键值对,但键的顺序和存在的键可能不同

  • df = pd.DataFrame(data, dtype=np.float64):这行代码使用 pandas 的 DataFrame 函数将 data 列表转换为 DataFrame。dtype 参数指定了新 DataFrame 中的数据类型,这里设置为 np.float64,即双精度浮点数。

  • df:这行代码输出 DataFrame,以便查看其内容。由于在创建 DataFrame 时没有指定索引,所以默认使用整数序列作为索引。

总的来说,这段代码首先导入了所需的库,然后创建了一个包含多个字典的列表,最后将这个列表转换为 DataFrame,并输出查看。

输出结果将展示如下:

在这里插入图片描述

我们从上面的示例就容易观察到:

  • 生成的 DataFrame 中的列顺序遵循了首次出现键的顺序

  • 在个别字典中缺少某些键对应的值,在生成的 DataFrame 中该位置被填补为 NaN

总而言之,pandas 在处理通过列表字典创建 DataFrame 时各个字典键顺序不同以及部分字典缺失某些键时显示出了极高的灵活性和容错能力。希望本博客能够帮助您深入理解 pandas 在实际应用中如何处理数据不一致性问题。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/259602.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多模态基础--- word Embedding

1 word Embedding 原始的单词编码方式: one-hot,维度太大,不同单词之间相互独立,没有远近关系区分。 wordclass,将同一类单词编码在一起,此时丢失了类别和类别间的相关信息,比如class1和class3…

小游戏和GUI编程(7) | SimpleNN 界面源码解析

小游戏和GUI编程(7) | SimpleNN 界面源码解析 0. 简介 SimpleNN 是 AdamYuan 在高中一年级时用 1 天时间写出来的简易 CNN, 使用 SFML 做 UI, 用于交互式输入手写数字,这个数字被训练好的 CNN 网络执行推理得到识别结果, 它的运行效果如下: 这一篇我们…

java客运管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java客运管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0&#…

安装Joplin Server私有化部署(docker)

安装Joplin Server私有化部署(docker) 前言: 老规矩官方文档链接 1. 首先拥有一个自己的云服务器(如果没有外网访问需求的话就随意吧) 安装docker安装方式 这里Joplin是使用PostgreSQL数据库的形式, 如果没有PostgreSQL库的话, Joplin默认使用的是SQLLite数据库 我这里使用的是…

Shiro-11-web 介绍

配置 将Shiro集成到任何web应用程序的最简单方法是在web.xml中配置一个Servlet ContextListener和过滤器,该Servlet了解如何读取Shiro的INI配置。 INI配置格式本身的大部分是在配置页面的INI部分中定义的,但是我们将在这里介绍一些额外的特定于web的部…

入门级10寸加固行业平板—EM-I10J

亿道信息以其坚固耐用的智能终端设备而闻名,近日发布了一款理想入门级 10 英寸加固平板电脑—I10J。 EM-I10J​​ 这是一款 10 英寸的平板电脑,主要运行 Windows 10操作系统,带有硬化塑料外壳,具有 IP65 防水防尘功能和 MIL-STD 8…

【Java EE初阶十七】网络原理(二)

2. 传输层 2.2 TCP协议 2.2.2 关于可靠传输 4.滑动窗口 前面的三个机制,都是在保证 tcp 的可靠性; TCP 的可靠传输,是会影响传输的效率的.(多出了一些等待 ack 的时间,单位时间内能传输的数据就少了); 滑动窗口,就让可靠传输对性能的影响,更…

【大模型 知识图谱】ChatKBQA:KBQA知识图谱问答 + 大模型

ChatKBQA:KBQA知识图谱问答 大模型 提出背景传统方法处理流程ChatKBQA处理流程对比优势 总结ChatKBQA框架概览特征1:逻辑形式生成特征2:无监督实体和关系检索特征3:参数高效的微调特征4:GQoT 可解释的查询执行特征5&a…

实心陶瓷电阻器的基本原理?

什么是陶瓷电阻器? 陶瓷组合电阻器由精细研磨的绝缘体和导体的混合物组成,被压缩成圆柱形。连接端子,并在电阻器的外壳上涂上绝缘涂层。电阻根据绝缘体与导体混合物的比例进行控制。 陶瓷是一种优良的电绝缘体,也是一种极好的导热…

【Linux】---Linux下基本指令(2)

目录 一、指令详细介绍1.1 cat 指令1.2 echo 指令1.3 more 指令1.4 less 指令1.5 head 指令1.6 tail 指令1.7 date 指令1.8 cal 指令1.9 find 指令1.10 grep 指令1.11 zip/unzip 指令1.12 tar 指令1.13 uname –r 指令: 一、指令详细介绍 1.1 cat 指令 语法&#…

学习Android的第十六天

目录 Android 自定义 Adapter Adapter 接口 SpinnerAdapter ListAdapter BaseAdapter 自定义 BaseAdapter 参考文档 Android ListView 列表控件 ListView 的属性和方法 表头表尾分割线的设置 列表从底部开始显示 android:stackFromBottom 设置点击颜色 cacheColorH…

在SpringBoot中@PathVariable与@RequestParam的区别

PathVariable GetMapping("/{userId}")public R<User> getUserById(PathVariable Long userId) {return userService.getUserById(userId);} // 根据id获取一条数据 function getStudentDataByIdAndDisplayInput(id) {// 发送 AJAX 请求$.ajax({url: /dorm/st…

政安晨:【完全零基础】认知人工智能(二)【超级简单】的【机器学习神经网络】—— 底层算法

如果小伙伴第一次看到这篇文章&#xff0c;可以先浏览一下我这个系列的上一篇文章&#xff1a; 政安晨&#xff1a;【完全零基础】认知人工智能&#xff08;一&#xff09;【超级简单】的【机器学习神经网络】 —— 预测机https://blog.csdn.net/snowdenkeke/article/details/…

数码管扫描显示-单片机通用模板

数码管扫描显示-单片机通用模板 一、数码管扫描的原理二、display.c的实现1、void Display(void) 各模式界面定义数据2、void BackupRamToDisRam(void)从缓存区刷新显示映射Ram3、void FreshDisplay(void) 映射显示Ram到主控的IO口4、void LcdDisplay_8bit(void) 映射显示Ram到…

数据结构——单链表专题

目录 1. 链表的概念及结构2. 实现单链表初始化尾插头插尾删头删查找在指定位置之前插入数据在指定位置之后插入数据删除指定位之前的节点删除指定位置之后pos节点销毁链表 3. 完整代码test.cSList.h 4. 链表的分类 1. 链表的概念及结构 在顺序表中存在一定的问题&#xff1a; …

【论文阅读笔记】Contrastive Learning with Stronger Augmentations

Contrastive Learning with Stronger Augmentations 摘要 基于提供的摘要&#xff0c;该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习&#xff08;Contrastive Learning with Stronger Augmentations&#xff0c;简称CLSA&#xff09;。以下…

考研高数(导数的定义)

总结&#xff1a; 导数的本质就是极限。 函数在某点可导就必连续&#xff0c;连续就有极限且等于该点的函数值。 例题1&#xff1a;&#xff08;归结原则的条件是函数可导&#xff09; 例题2&#xff1a; 例题3&#xff1a;

星宸科技SSC369G 双4K高性价比AI IPC方案

一、方案描述 SSC369G 双4K高性价比AI IPC方案采用主芯片SSC369G&#xff0c;内核为CA55四核最高主频为1.5Ghz处理器。SOC内置集成一个64位的四核RISC处理器&#xff0c;先进的图像信号处理器&#xff08;ISP&#xff09;&#xff0c;高性能的H.265/H.264/MJPEG视频编解码器&a…

01.数据结构篇-链表

1.找出两个链表的交点 160. Intersection of Two Linked Lists (Easy) Leetcode / 力扣 例如以下示例中 A 和 B 两个链表相交于 c1&#xff1a; A: a1 → a2↘c1 → c2 → c3↗ B: b1 → b2 → b3 但是不会出现以下相交的情况&#xff0c;因为每个节点只有一个…

代码随想录算法训练营 DAY20 | 二叉树(7)

一、LeetCode 530 二叉搜索树的最小绝对值 题目链接&#xff1a;530.二叉搜索树的最小绝对值https://leetcode.cn/problems/minimum-absolute-difference-in-bst/ 思路一&#xff1a;利用搜索二叉树的中序遍历结果为有序数组的性质&#xff0c;将遍历结果保存到数组中&#xf…