7个用于机器学习和数据科学的基本 Python 库

推荐:使用 NSDT场景编辑器 助你快速搭建3D应用场景

这篇文章针对的是刚开始使用Python进行AI的人,以及那些有经验的人,但对下一步要学习什么有疑问的人。我们将不时花点时间向初学者介绍基本术语和概念。如果您已经熟悉它们,我们鼓励您跳过更基本的材料并继续阅读,以了解对图形执行和急切执行等更精细的观点的看法。这篇文章将解释人工智能最重要的 Python 库和包,解释如何使用它们,并介绍它们的优点和缺点。

用于AI和ML的最广泛使用的Python库

将正确的库组合添加到开发环境中至关重要。以下包和库对于大多数 AI 开发人员至关重要。所有这些都可以作为开源发行版免费提供。

Scikit-learn:如果你需要做机器学习

它是什么:Scikit-learn是一个用于实现机器学习算法的Python库。

背景:一位名叫David Cournapeau的开发人员最初在2007年以学生身份发布了scikit-learn。开源社区迅速采用了它,多年来已经多次更新它。

特征: Scikit-learn中的软件包专注于建模数据。

  • Scikit-learn包括所有核心机器学习算法,其中包括向量机,随机森林,梯度提升,k均值聚类和DBSCAN。
  • 它旨在与 NumPy 和 SciPy(如下所述)无缝协作,以进行数据清理、准备和计算。
  • 它具有用于加载数据以及将其拆分为训练集和测试集的模块。
  • 它支持文本和图像数据的特征提取。

最适合:Scikit-learn是任何从事机器学习工作的人的必备品。如果您需要实现分类、回归、聚类、模型选择等算法,它被认为是可用的最佳库之一。

缺点:Scikit-learn是在深度学习起飞之前建立的。虽然它非常适合核心机器学习和数据科学工作,但如果你正在构建神经网络,你将需要TensorFlow或Pytorch(下图)。
最佳学习场所:Python 中的机器学习与数据学校的 Scikit-Learn 一起。(注意:Scikit-learn是最容易学习的Python库之一。一旦你精通Python本身,Scikit-learn就很容易了。

NumPy:如果您需要处理数字

它是什么:NumPy是一个Python包,用于处理数组或大型同质数据集合。您可以将数组视为电子表格,其中数字存储在列和行中。

背景:Python在1991年推出时最初并不是为了数值计算。尽管如此,它的易用性还是很早就引起了科学界的注意。多年来,开源社区开发了一系列用于数值计算的软件包。2005年,开发人员Travis Oliphant将十多年的开源开发合并到一个用于数值计算的库中,他称之为NumPy。

特征:NumPy的核心功能是对数组的支持,它允许您快速处理和操作大型数据集合。

  • NumPy 中的数组可以是 n 维的。这意味着数据可以是单列数字,也可以是多列和多行数字。
  • NumPy有用于执行一些线性代数函数的模块。
  • 它还具有用于绘制和绘制数字数组的模块。
  • NumPy 数组中的数据是同质的,这意味着它必须全部定义为相同的类型(数字、字符串、布尔值等)。这意味着数据得到有效处理。

最适合:操作和处理数据以进行更高级的数据科学或机器学习操作。如果你正在处理数字,你需要NumPy。

缺点:由于 NumPy 数组是同类的,因此它们不适合混合数据。你最好使用Python列表。此外,当处理超过 500,000 列时,NumPy 的性能往往会下降。
最佳学习场所:Linear Regression with NumPy and Python from Coursera。

Pandas:如果您需要操作数据

它是什么:Pandas是一个同时处理不同类型的标记数据的软件包。例如,如果您需要分析包含数字、字母和字符串数据的 CSV 文件,则可以使用它。

背景:韦斯·麦金尼(Wes McKinney)于2008年发行了《熊猫》。它建立在 NumPy 之上(事实上,您必须安装 NumPy 才能使用 Pandas),并扩展该包以处理异构数据。

特征:Pandas的核心功能是其多样化的数据结构,允许用户执行各种分析操作。

  • Pandas 有各种用于数据操作的模块,包括重塑、连接、合并和透视。
  • 熊猫具有数据可视化功能。
  • 用户可以执行数学运算,包括微积分和统计,而无需调用外部库。
  • 它具有可帮助您解决丢失数据的模块。

最适合:数据分析。

缺点:在vanilla Python和Pandas之间切换可能会令人困惑,因为后者的语法稍微复杂一些。熊猫的学习曲线也很陡峭。这些因素,再加上糟糕的文档,可能使其难以上手。
最好的学习场所:我从 DeepLearning.AI 开始介绍pandas。

SciPy:如果你需要为数据科学做数学

它是什么:SciPy是一个用于科学计算的Python库。它包含用于执行计算的包和模块,可帮助科学家进行或分析实验。

背景:在 1990 年代末和 2000 年代初,Python 开源社区开始开发一系列工具以满足科学界的需求。2001年,他们以SciPy的形式发布了这些工具。社区保持活跃,并始终更新和添加新功能。

特征:SciPy 的软件包包括一个完整的数学技术工具包,包括微积分、线性代数、统计学、概率等。

  • 它对数据科学家来说最受欢迎的一些软件包是用于插值、K 均值检验、数值积分、傅里叶变换、正交距离回归和优化。
  • SciPy 还包括用于图像处理和信号处理的软件包。
  • Weave功能允许用户在Python中用C / C++编写代码。

最适合:SciPy是数据科学家最好的朋友。

缺点:一些用户发现 SciPy 的文档缺乏,并批评它的几个软件包不如 MatLab 中的类似软件包。

最佳学习场所:Ahmad Bazzi 的 SciPy 编程。

如果你需要做机器学习:TensorFlow vs. PyTorch

TensorFlow和PyTorch执行与深度学习相关的相同基本任务:它们使获取数据,训练模型和生成预测变得容易。从人脸识别到大型语言模型,许多神经网络都是使用TensorFlow或PyTorch进行编码的。这些库曾经在前端和后端都明显不同。随着时间的推移,他们围绕同一套最佳实践趋同。

尽管如此,人工智能社区内部仍在争论哪个是最好的。2015年发布的TensorFlow是第一个出现在现场。它在商业人工智能和产品开发中占主导地位,但许多用户抱怨它的复杂性。

PyTorch于2016年发布,被广泛认为它更容易学习,实施起来更快。它是学术界的最爱,并在工业界稳步普及。但是,众所周知,它在缩放方面很困难。

选择哪个?

TensorFlow仍然是业界占主导地位的深度学习库。这部分是由于惯性,部分原因是TensorFlow在处理大型项目和复杂工作流程方面比PyTorch更好。它能够处理针对商业部署进行扩展的 AI 产品,使其成为产品开发的最爱。

如果你只是跳入深度学习,并希望专注于快速构建和原型设计模型,PyTorch可能是更好的选择。请注意,根据你的工作要求和公司技术,你可能有一天必须学习TensorFlow(特别是如果你梦想的工作是在TensorFlow的故乡谷歌)。

在下面详细了解这两个库的优缺点。

TensorFlow

这是什么? TensorFlow 是一个端到端的开源库,用于开发、训练和部署深度学习模型。

背景: TensorFlow最初由Google Brain于2015年发布。最初,它的前端不是用户友好的,并且它具有冗余的API,这使得构建和实现模型变得繁琐。随着时间的推移,其中许多问题已经通过更新以及通过将 Keras(见下文)集成为默认前端而得到解决。

特征: TensorFlow有许多用于构建深度学习模型并将其扩展以进行商业部署的软件包。

  • TensorFlow用户可以调用Dev Hub和Model Garden中的数百个预先训练的模型。开发人员中心包含即插即用模型,而模型花园适用于习惯于进行自定义的更高级用户。
  • 它在使用内存方面非常有效,可以并行训练多个神经网络。
  • TensorFlow 应用程序可以在各种硬件系统上运行,包括 CPU、GPU、TPU 等。
  • TensorFlow Lite针对移动和嵌入式机器学习模型进行了优化。
  • 用户可以在 Tensorboard.dev 上自由上传和分享他们的机器学习实验。

最适合:大规模构建生产就绪的深度学习模型。

缺点:一些用户仍然抱怨前端相当复杂。您可能还会遇到TensorFlow执行缓慢的批评。这主要是TensorFlow 1.0的遗留问题,当时它默认以图形模式执行操作。TensorFlow 2.0默认为预先执行模式。

最佳学习场所:来自 DeepLearning.ai 的TensorFlow开发人员专业证书。

Keras:

它是什么:Keras是一个适合初学者的工具包,用于处理神经网络。它是TensorFlow的前端接口。

背景:谷歌工程师Francois Choillet于2015年发布了Keras,作为许多深度学习库的API。截至 2020 年,Keras 是 TensorFlow 独有的。

特征: Keras 处理在 TensorFlow 中构建神经网络的高级任务,因此包含激活函数、层、优化器等基本模块。

  • Keras 支持原版神经网络、卷积神经网络和递归神经网络以及实用程序层,包括批量归一化、辍学和池化。
  • 它旨在简化深度神经网络的编码。

最适合:开发深度学习网络。

缺点:它仅适用于TensorFlow用户。如果你使用TensorFlow,你就是在使用Keras。

最佳学习场所: IBM 的 Keras 深度学习和神经网络简介。

PyTorch

它是什么:PyTorch是Facebook AI研究实验室对TensorFlow的回答。它是一个开源的通用库,用于机器学习和数据科学,特别是深度学习。

背景: Facebook在2016年发布了PyTorch,比TensorFlow晚了一年,它迅速受到对快速原型感兴趣的学者和其他研究人员的欢迎。这是由于其简化的前端以及其默认模式立即执行操作的事实(而不是像TensorFlow那样将它们添加到图形中以供以后处理)。

特征:PyTorch有许多类似于TensorFlow的特性。事实上,自推出以来的几年里,每个库都进行了更新,以包含用户最喜欢的功能。

  • PyTorch有自己的预训练模型库。PyTorch Hub 面向想要尝试模型设计的学术用户,生态系统工具包含预先训练的模型。
  • PyTorch 具有内存效率,可以并行训练多个模型。
  • 它支持多种硬件类型。

最适合:深度学习模型的快速原型设计。Pytorch 代码运行快速高效。

缺点:一些用户报告说,PyTorch 在处理大型项目、大型数据集和复杂的工作流程时遇到了困难。构建要大规模部署的AI产品的开发人员可能更喜欢TensorFlow。

最佳学习地点:来自 PyTorch.org 的 PyTorch 教程。

结论

Python库的成熟是它在AI社区中如此受欢迎的主要原因之一。它们可以轻松地将Python扩展到远远超出其原始设计的任务。一旦你牢牢掌握了 Python 语言和与你的工作相关的库,你将能够为广泛的应用程序构建、训练和迭代机器学习模型。

原文链接:7个用于机器学习和数据科学的基本 Python 库 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/105746.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python科研绘图--Task03

目录 图类型 关系类型图 散点图的例子 数据分布型图 rugplot例子 分类数据型图 ​编辑回归模型分析型图 多子图网格型图 FacetGrid() 函数 PairGrid() 函数 绘图风格、颜色主题和绘图元素缩放比例 绘图风格 颜色主题 绘图元素缩放比列 图类型 关系类型图 数据集变量…

基于云原生网关的流量防护实践

作者:涂鸦 背景 在分布式系统架构中,每个请求都会经过很多层处理,比如从入口网关再到 Web Server 再到服务之间的调用,再到服务访问缓存或 DB 等存储。在下图流量防护体系中,我们通常遵循流量漏斗原则进行流量防护。…

WPF基础入门-Class4-WPF绑定

WPF基础入门 Class4&#xff1a;WPF绑定 1、cs文件中设置需要绑定的数据&#xff1a; public partial class Class_4 : Window{public Class_4(){InitializeComponent();List<Color> test new List<Color>();test.Add(new Color() { Code "Yellow",…

数据库概述

目录 数据库 数据库的基本概念 数据 表 数据库 数据库管理系统 数据库系统 DBMS的主要功能 DBMS的工作模式 ​编辑 数据库的发展 数据库类型 关系数据库 关系数据库的构成 非关系数据库 非关系型数据库的优点 关系型数据库与非关系型数据库的区别 数据库 数据库…

前端需要理解的数据结构与算法知识

1 数组 1.1 集合、列表、数组的联系与区别 集合&#xff1a;由一个或多个确定的元素所构成的整体。类型不一定相同、确定、无序、互异。 列表&#xff08;又称线性列表&#xff09;&#xff1a;按照一定的线性顺序&#xff0c;排列而成的数据项的集合。类型不一定相同、有序…

nginx 中新增url请求参数

1、nginx中新增配置&#xff1a; set $args "$args&参数名参数值"; 示例&#xff1a; set $args "$args&demo1cn_yaojin&demo2123123&myip$remote_addr"; location / {add_header Access-Control-Allow-Origin *;add_header Access-Contro…

按钮权限控制

搜索关键字&#xff1a; 自定义指令传参| "自定义指令""dataset"|自定义指令dataset| "Vue""directives"|vue按钮权限实现 1、完整代码&#xff1a; <template> <div> <el-breadcrumb separator-class"el-icon…

taro h5 formData上传图片的坑-Required request part ‘file‘ is not present

描述&#xff1a;用formData上传图片 1、生成formData const formData new FormData() formData.append(file, data) // data是file formData.append(xxx, xxx) // 添加其他参数2、用taro.request请求 Taro.request({url: xxxx,data: formData,header: {Content-Type: mult…

16、Flink 的table api与sql之连接外部系统: 读写外部系统的连接器和格式以及Elasticsearch示例(2)

Flink 系列文章 1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接 13、Flink 的table api与sql的基本概念、通用api介绍及入门示例 14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性 15、Flink 的ta…

cortex-A7核PWM实验--STM32MP157

实验目的&#xff1a;驱动风扇&#xff0c;蜂鸣器&#xff0c;马达进行工作 目录 一&#xff0c;PWM相关概念 有源蜂鸣器和无源蜂鸣器 二&#xff0c;分析电路图&#xff0c;框图 三&#xff0c;分析RCC章节 1&#xff0c;确定总线连接 2&#xff0c;根据总线内容确定基…

Python案例|Matplotlib库实现的数据分析

数据展示是数据分析和挖掘中的重要环节&#xff0c;通过图形的形式可以直观、清晰地呈现数据内在的规律。 本文所用数据采用上一篇案例实现后的数据表&#xff0c;数据存储在newbj_lianJia.csv文件中&#xff0c;具体代码如下。 import pandas as pd #导入库 import matplot…

Linux安装Redis数据库,无需公网IP实现远程连接

文章目录 1. Linux(centos8)安装redis数据库2. 配置redis数据库3. 内网穿透3.1 安装cpolar内网穿透3.2 创建隧道映射本地端口 4. 配置固定TCP端口地址4.1 保留一个固定tcp地址4.2 配置固定TCP地址4.3 使用固定的tcp地址连接 Redis作为一款高速缓存的key value键值对的数据库,在…

AI 时代,程序员无需焦虑 | 《服务端开发:技术、方法与实用解决方案》(文末送书福利4.0)

文章目录 &#x1f4cb;前言&#x1f3af;程序员会被 AI 取代么&#xff1f;&#x1f3af;服务端开发尚难被 AI 取代&#x1f3af; 服务端开发何去何从&#xff1f;&#x1f3af;业界首部体系化、全景式解读服务端开发的著作&#x1f4ac;读者对象&#x1f4da;本书优势&#x…

Vue3学习

Proxy和definedProperty对比 Proxy 作为新标准将受到浏览器厂商重点持续的性能优化。Proxy 不兼容IE&#xff0c;也没有 polyfill, defineProperty 能支持到IE9。Proxy 能观察的类型比 defineProperty 更丰富。Object.definedProperty 是劫持对象的属性&#xff0c;新增元素需…

FPGA应用于图像处理

FPGA应用于图像处理 FPGA&#xff08;Field-Programmable Gate Array&#xff09;直译过来就是现场可编程门阵列。是一种可以编程的逻辑器件&#xff0c;具有高度的灵活性&#xff0c;可以根据具体需求就像编程来实现不同的功能。 FPGA器件属于专用的集成电流中的一种半定制电…

适配小程序隐私保护指引设置

由于小程序发布了一个公告&#xff0c;那么接下来就是怎么改简单的问题了。毕竟不太想大的改动历史上的代码。尽量简单的适配隐私策略就可以了。 整体思路也是参考现在App普遍的启动就让用户同意隐私策略&#xff0c;不同意不让用&#xff0c;同意了之后才能够继续使用。 公告…

SpringBoot入门篇1 - 简介和工程创建

目录 SpringBoot是由Pivotal团队提供的全新框架&#xff0c; 其设计目的是用来简化Spring应用的初始搭建以及开发过程。 1.创建入门工程案例 ①创建新模块&#xff0c;选择Spring初始化&#xff0c;并配置模块相关基础信息 ②开发控制器类 controller/BookController.jav…

第P2周:彩色图片识别

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 我的环境&#xff1a; 语言环境&#xff1a;Python3.10.7编译器&#xff1a;VScode深度学习环境&#xff1a;TensorFlow 2.13.0 一、前期工作&#xff1a; …

2023京东酒类市场数据分析(京东数据开放平台)

根据鲸参谋平台的数据统计&#xff0c;今年7月份京东平台酒类环比集体下滑&#xff0c;接下来我们一起来看白酒、啤酒、葡萄酒的详情数据。 首先来看白酒市场。 鲸参谋数据显示&#xff0c;7月份京东平台白酒的销量为210万&#xff0c;环比下滑约49%&#xff1b;销售额将近19…

前端工程化之规范化

规范化是我们践行前端工程化中重要的一部分。 为什么要有规范化标准 俗话说&#xff0c;无规矩不成方圆&#xff0c;尤其是在开发行业中&#xff0c;更是要有严谨的工作态度&#xff0c;我们都知道大多数软件开发都不是一个人的工作&#xff0c;都是需要多人协同的&#xff0…