python数据分析:介绍pandas库的数据类型Series和DataFrame

图片

安装pandas

pip install pandas -i https://mirrors.aliyun.com/pypi/simple/

使用pandas

直接导入即可 import pandas as pd

pandas的数据结构

pandas提供了两种主要的数据结构:Series 和 DataFrame,类似于python提供list列表,dict字典,tuple元组等数据类型用于存储数据。

1. Series

Series 是一种一维的数组(类似于 Python 的列表),可以存储任何数据类型(整数、字符串、浮点数、Python对象等)。Series 是一种带有标签的数据结构,每个数据点都有一个索引。

图片

创建 Series

创建的series结构,默认索引从0开始(像list的索引一样),但是可以指定索引。

1)从列表创建Series

import pandas as pd data = [1,2,3,4,5] s = pd.Series(data) print(s)

图片

2)从字典创建 Series,键作为索引

 
import pandas as pd data_dict = {'a':1,'b':2,'c':3} s = pd.Series(data_dict) print(s)

图片

3)指定索引创建Series

 
import pandas as pddata = [1,2,3,4,5] s = pd.Series(data, index=['a','b','c','d','e'])print(s)

图片

Series的基本属性

  • values:返回 Series 中的数据值。
  • index:返回 Series 中的索引。
  • dtype:返回 Series 中数据的数据类型。
  • name:返回或设置 Series 的名称。

举例:定义一个series接口数据并指定索引和名称

data =[[1, 2, 3], [4, 5,6]]s = pd.Series(data, name='一维数组',index=['a','b'])print(f'值:{s.values}')print(f'索引:{s.index}')print(f'数据类型 {s.dtype}')print(f'名称 {s.name}')

图片

2. DataFrame

DataFrame 是一个二维的表格数据结构,具有标记的轴(行和列)。其中每一列相当于一个Series。

图片

创建 DataFrame

和Series结构一样默认索引从0开始,当然也可以指定索引。

1)从字典创建 DataFrame,字典的键是列名

import pandas as pddata_dict = {'name': ['lilei','lili','wanglei'],'age': [25,30,35],'city': ['shanghai','shenzhen','nanjing']} df = pd.DataFrame(data_dict)print(df)

图片

2)从列表的列表创建DataFrame

data = [ ['lilei',25], ['lili',30], ['wanglei',35] ] df = pd.DataFrame(data, columns=['Name','Age']) print(df)

图片

3)从Numpy 数组创建DataFrame并指定列名和索引

import numpy as np data = np.array([[1, 2], [3, 4], [5, 6]]) df = pd.DataFrame(data, columns=['A','B'],index=['a','b','c'])print(df)

图片

Series和DataFrame数据的常用函数和功能

1)head(n):返回前 n 个元素,默认返回前5个

图片

2)tail(n):返回后 n 个元素,默认返回后5个

图片

3)unique():返回 Series 中的唯一值(去掉重复的值)

图片

4)isnull():返回一个布尔 Series,指示每个值是否为 NaN

图片

5)dropna():删除所有 NaN值(numpy.nan)或者None值,返回一个新的数据

图片

举例:定义一个series结构数据,打印下上面方法获取的数据​​​​​​​

data = [1,2,3,4,5,[6,7],[8],None,{'a':10}] s = pd.Series(data) print(f'前3个元素\n{s.head(3)}') print(f'后3个元素\n{s.tail(3)}') print(f'判断是否为null\n{s.isnull()}')

图片

举例:定义一个series结构数据,打印删除NaN值后的数据​​​​​​​

import numpy as np data = [1,2,3,4,5,None,np.nan] s = pd.Series(data) new_s =s.dropna() print(f'删除NaN值\n{new_s}')

图片

举例:定义一个series结构数据,打印去重后的数据​​​​​​​

data=[1,2,3,4,5,4,5,6]s=pd.Series(data)print(f'唯一值{s.unique()}')

图片

6)to_dict函数:将DataFrame数据转换为字典

字典的键和值对应的是列名和列值

举例:读取csv文件内容,并转换为字典​​​​​​​

import pandas as pd dataframe = pd.read_csv("1.csv")print(dataframe)#将DataFrame数据格式转换为字典print(dataframe.to_dict())

结果如下:

图片

7)选择列数据

import pandas as pd 
dataframe = pd.read_csv("1.csv")
  • 选择某一列数据

print(dataframe[‘Name’])#选择Nmae这一列print(dataframe.age)#选择Age这一列#通过Ioc函数选择Name这一列print(dataframe.loc[:,['Name']])

图片

返回的某一列的数据类型是一个Series类型,对某列数据可以做循环打印该列的值。

for i in dataframe.Name:print(i)
  • 选择多列

#选择Nmae,age这两列print(dataframe[['Name','age']]) 
#通过loc()函数选择Name和age两列print(dataframe.loc[:,['Name','age']])

8)选择行数据

使用方式类似于list的切片操作​​​​​​​

print(dataframe[0:3])#取前3行数据print(dataframe[-4:-2])#取倒数第4行和第5行print(dataframe[0:10:2])#取前10行中每2行取1个

通过iIoc函数获取多行数据

print(dataframe.iloc[:10,:])#取前10行数据

9)选择指定的行和列数据

通过Ioc函数取某些行和列数据​​​​​​​

print(dataframe.loc[0:3,['Name']])print(dataframe.loc[0:3,['Name','age']])

10)按条件选择

举例:筛选age列大于25的数据

print(dataframe[dataframe.age > 25])

举例:筛选性别为男的数据

print(dataframe[dataframe.sex =='man'])

举例: 筛选索引等于0的数据

print(dataframe[dataframe.index == 0])

举例:筛选性别为男并age大于25的数据

print(dataframe[(dataframe.sex =='man') & (dataframe.age > 25)])

举例:筛选年龄大于25的Name这一列的数据

print(dataframe[dataframe.age > 25].loc[:,['Name']])

11)sort_values函数:使用该函数进行排序

图片

参数介绍

  • by:传入单个字符串或字符串列表(1个或者多个列名),表示按照列名进行排序。
  • axis:默认为0。0表示按列的值排序,1表示按行的值排序;一般不使用
  • ascending:布尔值或布尔值列表,默认为True。True表示升序排序,False表示降序排序。如果是一个列表,则列表中的每个元素对应by参数中每个列的排序顺序。
  • inplace:布尔值,默认为False。如果为True,则直接修改原DataFrame并返回None;如果为False,则返回一个新的排序后的DataFrame副本。
  • kind:排序算法的选择,默认为'quicksort'。其他选项包括'mergesort'和'heapsort'。对于大数据集,'quicksort'通常是最快的,但不一定是最稳定的。
  • na_position:{'first', 'last'},默认为'last'。表示缺失值(NaN)应该被放在排序后的数组的开始还是结束。
  • ignore_index:布尔值,默认为False。如果为True,则结果DataFrame的索引将被重置为默认的整数索引。

测试代码:

1)按列排序(升序)

print(dataframe.sort_values(by='Name'))
print(dataframe.sort_values(by=['Name','age']))


2)按列排序(倒序)

print(dataframe.sort_values(by='age',ascending=False))

3)不同列排列顺序不同(比如第一列正序,第二列倒序)

print(dataframe.sort_values(by=['Name','age'],ascending=[True,False]))

12)insert函数:插入列数据

插入某一列数据,参数j介绍:

  • loc: 传入整数,代表插入在第几列(0代表第1列)

  • column:列名

  • value:每列的值(单个值表示每一行值相同;传入列表,列表中的元素对应每一行的值)

  • allow_duplicates:为True表示允许列名重复,否则不允许

图片

测试代码:​​​​​​​

dataframe.insert(2,'area','China')dataframe.insert(3,'area',['China','America','korea','japan','China','America','korea','japan'],allow_duplicates=True)print(dataframe)

结果:

图片

共勉: 东汉·班固《汉书·枚乘传》:“泰山之管穿石,单极之绠断干。水非石之钻,索非木之锯,渐靡使之然也。”

-----指水滴不断地滴,可以滴穿石头;

-----比喻坚持不懈,集细微的力量也能成就难能的功劳。

----感谢读者的阅读和学习,谢谢大家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493007.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安装opnet14.5遇到的问题

安装opnet遇到的问题 我是按照这个教程来安装的。 然后遇到了两个问题&#xff1a; 1、“mod_dirs”目录问题 Can’t enable ETS scripting support due to missing files。 This is likely because:<opnet_release_dir>\sys\lib is notinclude in the “mod_dirs” pre…

SLAAC如何工作?

SLAAC如何工作&#xff1f; IPv6无状态地址自动配置(SLAAC)-常见问题 - 苍然满关中 - 博客园 https://support.huawei.com/enterprise/zh/doc/EDOC1100323788?sectionj00shttps://www.zhihu.com/question/6691553243/answer/57023796400 主机在启动或接口UP后&#xff0c;发…

6.3.1 MR实战:计算总分与平均分

在本次实战中&#xff0c;我们的目标是利用Apache Hadoop的MapReduce框架来处理和分析学生成绩数据。具体来说&#xff0c;我们将计算一个包含五名学生五门科目成绩的数据集的总分和平均分。这个过程包括在云主机上准备数据&#xff0c;将成绩数据存储为文本文件&#xff0c;并…

空天地遥感数据识别与计算--数据分析如何助力农林牧渔、城市发展、地质灾害监测等行业革新

在科技飞速发展的时代&#xff0c;遥感数据的精准分析已经成为推动各行业智能决策的关键工具。从无人机监测农田到卫星数据支持气候研究&#xff0c;空天地遥感数据正以前所未有的方式为科研和商业带来深刻变革。然而&#xff0c;对于许多专业人士而言&#xff0c;如何高效地处…

基于langchain的Agent(实现实时查询天气)

心血来潮&#xff0c;玩一下Agent&#xff0c;实现了多轮对话功能 import requests, jsonfrom langchain.agents import load_tools from langchain.agents import initialize_agent from langchain_community.llms.tongyi import Tongyi from langchain.memory import Conver…

《剑网三》遇到找不到d3dx9_42.dll的问题要怎么解决?缺失d3dx9_42.dll是什么原因?

《剑网三》游戏运行中d3dx9_42.dll缺失问题深度解析与解决方案 在畅游《剑网三》的武侠世界时&#xff0c;不少玩家可能会遇到系统提示“找不到d3dx9_42.dll”的报错信息。这一突如其来的问题不仅让游戏进程受阻&#xff0c;还可能让玩家陷入困惑与无奈。我将为大家深入剖析这…

springboot443旅游管理系统(论文+源码)_kaic

摘 要 如今社会上各行各业&#xff0c;都喜欢用自己行业的专属软件工作&#xff0c;互联网发展到这个时候&#xff0c;人们已经发现离不开了互联网。新技术的产生&#xff0c;往往能解决一些老技术的弊端问题。因为传统旅游管理系统信息管理难度大&#xff0c;容错率低&#…

OneCode:开启高效编程新时代——企业定制出码手册

一、概述 OneCode 的 DSM&#xff08;领域特定建模&#xff09;出码模块是一个强大的工具&#xff0c;它支持多种建模方式&#xff0c;并具有强大的模型转换与集成能力&#xff0c;能够提升开发效率和代码质量&#xff0c;同时方便团队协作与知识传承&#xff0c;还具备方便的仿…

OpenCV(python)从入门到精通——运算操作

加法减法操作 import cv2 as cv import numpy as npx np.uint8([250]) y np.uint8([10])x_1 np.uint8([10]) y_1 np.uint8([20])# 加法,相加最大只能为255 print(cv.add(x,y))# 减法&#xff0c;相互减最小值只能为0 print(cv.subtract(x_1,y_1))图像加法 import cv2 as…

git 删除鉴权缓存及账号信息

在Windows系统下 清除凭证管理器中的Git凭据 按下Win R键&#xff0c;打开“运行”对话框&#xff0c;输入control&#xff0c;然后回车&#xff0c;打开控制面板。在控制面板中找到“用户账户”&#xff0c;然后点击“凭据管理器”。在凭据管理器中&#xff0c;找到“Windows…

【Linux进程】进程间的通信

目录 1. 进程间通信 1.1 进程间通信的目的 2. 管道 2.1 什么是管道 2.2. 匿名管道 匿名管道的特性 管道的4种情况 联系shell中的管道 2.3. 命名管道 代码级建立命名管道 2.4. 小结 总结 1. 进程间通信 进程间通信&#xff08;Inter-Process Communication&#xff0c;IPC&…

leecode494.目标和

这道题目第一眼感觉就不像是动态规划&#xff0c;可以看出来是回溯问题&#xff0c;但是暴力回溯超时&#xff0c;想要用动态规划得进行一点数学转换 class Solution { public:int findTargetSumWays(vector<int>& nums, int target) {int nnums.size(),bagWeight0,s…

会话守护进程

会话&&守护进程 文章目录 会话&&守护进程1.会话1.概念和特性2.创建会话3.getsid和setsid函数getsid函数setsid 函数 4.代码 2.守护进程3.创建守护进程模型守护进程创建步骤&#xff1a;两个函数 完整代码&#xff1a; 1.会话 1.概念和特性 进程组&#xff0c…

学习反射(反射的使用,反射的应用场景)

目录 反射的使用 总的测试代码如下 反射的应用场景 反射的使用 大家先看一个案例 有一个person 类 属性有 String 类型的 name ,int age &#xff0c;还有一个 方法 a。 package fs;public class Person {private String name;private int age;public void a(){System.out.p…

在ESP32使用AT指令集与服务器进行TCP/IP通信时,<link ID> 解释

在ESP32使用AT指令集与服务器进行TCP/IP通信时&#xff0c;<link ID> 是一个非常重要的参数。它用于标识不同的连接实例&#xff0c;特别是在多连接场景下&#xff08;如同时建立多个TCP或UDP连接&#xff09;。每个连接都有唯一的<link ID>&#xff0c;通过这个ID…

Ansible 批量管理华为 CE 交换机

注&#xff1a;本文为 “Ansible 管理华为 CE 交换机” 相关文章合辑。 使用 CloudEngine - Ansible 批量管理华为 CE 交换机 wsf535 IP 属地&#xff1a;贵州 2018.02.05 15:26:05 总体介绍 Ansible 是一个开源的自动化运维工具&#xff0c;AnsibleWorks 成立于 2012 年&a…

【python虚拟环境安装】linux centos 下的python虚拟环境配置

linux centos 下的python虚拟环境配置 在 CentOS 环境中处理 pip 安装警告的方法1. 创建并使用虚拟环境2. 忽略警告并继续使用 root 用户安装&#xff08;不推荐&#xff09;报错问题处理 在 CentOS 环境中处理 pip 安装警告的方法 当在 CentOS 环境中遇到 pip 安装警告时&…

【Datawhale AI 冬令营】如何动手微调出自己的大模型

目录 总体思路实操案例数据集构造收集数据数据构造 模型微调选择模型选择数据集参数配置开始训练 模型使用 总体思路 微调大模型主要以开源的通用大模型为基础&#xff0c;喂给模型自己准备的数据&#xff0c;将通用的大模型往自己想要的方向引导&#xff0c;变成更偏向某一领…

Python编程常用的19个经典案例

Python 的简洁和强大使其成为许多开发者的首选语言。本文将介绍36个常用的Python经典代码案例。这些示例覆盖了基础语法、常见任务、以及一些高级功能。 1. 列表推导式 fizz_buzz_list ["FizzBuzz" if i % 15 0 else "Fizz" if i % 3 0 else "Buzz…

关于数据流图绘制和使用上的一些个人经验

假设我们需要开发一个项目进度管理系统&#xff0c;在这个项目进度管理系统之中&#xff0c;我们需要开发一个功能&#xff1a;项目成员的列表。我们具有这样的业务需求&#xff1a; 在项目进度管理系统中&#xff0c;我们需要知道参与项目的人员到底有哪些&#xff0c;并且项目…