之前,关于numpy和pandas的操作一直不熟悉,对于获取数据中的行,列一直混淆。
df['column']
df['column']是 Pandas DataFrame 切片的常用语法,用于选择名为 '
column'
的单个列。它返回一个 Pandas Series 对象。
df.loc[:,'column']
df[:, 'popularity']
这种语法是不正确的,Pandas 不支持这种索引方式。
[:, 'popularity']
这种切片语法通常用于 NumPy 数组,表示选择所有行的指定列。
如果试图在 Pandas DataFrame 中使用多维切片,可以使用 loc
或 iloc
方法:
使用 loc
按标签索引
# 正确的多维切片方法
popularity_series = train.loc[:, 'popularity']
使用 iloc
按位置索引
iloc
方法主要用于基于位置的索引(整数位置索引),而不是标签。
# 假设 'popularity' 列是 DataFrame 中的第 0 列
popularity_series = train.iloc[:, 0]