在 Python 中，通过列表字典创建 DataFrame 时，若字典的 key 的顺序不一样以及部分字典缺失某些键，pandas 将如何处理？

🍉 CSDN 叶庭云：https://yetingyun.blog.csdn.net/

pandas 是一个快速、强大、灵活且易于使用的开源数据分析和处理工具，它是建立在 Python 编程语言之上的。

pandas 官方文档地址：https://pandas.pydata.org/

在这里插入图片描述

在 Python 中，使用 pandas 库通过列表字典（即列表里的每个元素是一个字典）创建 DataFrame 时，如果每个字典的 key（键）顺序不一样，pandas 会如何处理这种情况呢？这是一个很好的问题，因为它涉及到 pandas 在处理非规范化输入数据时的灵活性和稳健性。

首先，我们需要了解什么是 DataFrame 以及为什么会有通过列表字典来创建 DataFrame 的需求。

DataFrame 是 pandas 库中的一种二维标签数据结构，类似于 Excel 表格或 SQL 表，其中可以存储不同类型的列。这种数据结构非常适合于处理真实世界中常见的异质型数据。

当通过列表字典来创建 DataFrame 时，每个字典通常代表一行数据，字典的键（key）对应列名，而值（value）对应该行该列下的数据。如果每个字典中键的顺序不同，pandas 将如何处理呢？

列顺序：在创建 DataFrame 时，pandas 会检查所有字典中出现的键，并根据这些键首次出现的顺序来确定列的顺序。这意味着如果第一个字典的键顺序是 ['A', 'B', 'C'] 而第二个字典的键顺序是 ['B', 'C', 'A']，那么生成的 DataFrame 将会以第一个字典中键出现的顺序作为列顺序，即先 ‘A’ 列，然后是 ‘B’ 列和 ‘C’ 列。
缺失值处理：如果某些字典缺少某些键，则相应地，在结果 DataFrame 中该位置将被填充为 NaN（Not a Number），表示缺失值。
效率考虑：虽然 pandas 在处理这种不一致性时非常灵活，但是从效率角度考虑，在创建大型 DataFrame 之前统一键的顺序可能会更加高效。这是因为减少了内部必须进行以匹配、排序和填充缺失值等操作。

下面举一个简单示例：

# 导入 pandas 库
import pandas as pd
import numpy as np# 创建包含不同 key 顺序和个别字典缺少某些键的列表字典
data = [{"A": 1, "B": 2, "C": 3, "D": 6, "E": 9, "F": 5},{"B": 4, "C": 5, "D": 6},{"A": 7, "C": 8, "D": 9},{"A": 10, "E": 11, "C": 12, "F": 13},{"C": 15, "B": 16, "A": 17, "D": 18, "E": 19, "F": 20},{"A": 21, "B": 22, "D": 23, "E": 24, "C": 25, "F": 26}]# 通过列表字典创建 DataFrame
df = pd.DataFrame(data, dtype=np.float64)# 输出结果查看
df

这段代码的主要目的是创建一个 DataFrame，其中包含一些具有不同键顺序和缺失键的字典。下面是对每一行代码的解释：

import pandas as pd：这行代码导入了 pandas 库，并将其重命名为 pd。pandas 是一个强大的数据处理库，提供了 DataFrame 等数据结构以及一系列数据处理函数。
import numpy as np：这行代码导入了 numpy 库，并将其重命名为 np。numpy 是一个用于处理数组（特别是数值型数组）的库，提供了许多数学函数。
data = [{"A": 1, "B": 2, "C": 3, "D": 6, "E": 9, "F": 5}, {"B": 4, "C": 5, "D": 6}, ...]：这行代码定义了一个列表，其中包含多个字典。每个字典都有一些键值对，但键的顺序和存在的键可能不同。
df = pd.DataFrame(data, dtype=np.float64)：这行代码使用 pandas 的 DataFrame 函数将 data 列表转换为 DataFrame。dtype 参数指定了新 DataFrame 中的数据类型，这里设置为 np.float64，即双精度浮点数。
df：这行代码输出 DataFrame，以便查看其内容。由于在创建 DataFrame 时没有指定索引，所以默认使用整数序列作为索引。