推理与训练,分布式训练

什么是推理training

在人工智能领域,推理是指经过训练的机器学习模型从全新的数据(输入)中得出结论(输出)的过程。通俗地讲,推理是模型的实际运行。

什么是训练 inference

在人工智能领域,训练是指让机器学习模型做出准确推理的过程。训练可能涉及反复试错的过程,或者向模型展示期望输入和输出的示例,或者两者兼而有之。

推理和训练的算力对比

就算力而言,训练人工智能模型可能非常昂贵。不过,这通常是一次性的开支。一旦模型训练得当,理论上就无需再进行训练。
然而,推理是持续性的。如果一个模型正在使用中,它就会持续将其训练结果应用到新数据中,并做出更多推理。这需要相当大的算力,并且可能非常昂贵。

分布式训练

分布式训练是一种通过在多个计算设备或节点上共同进行模型训练的方法,克服单节点的限制。
常见的分布式训练技术包括数据并行,流水线模型并行,张量模型并行,混合并行。

数据并行

数据并行的核心思想是每个计算节点都有一份完整的模型,在不同的计算节点上使用不同的数据子集进行梯度计算,然后对每个计算节点的梯度进行累加,再将聚合后的结果广播到所有计算节点。
在这里插入图片描述

在计算过程中,服务器节点需要处理大量数据传输。随着计算节点数量增加,通信逐渐成为数据并行中的新瓶颈。
为了解决数据并行中的通信负载不均衡的问题,分布式数据并行DDP出现了。DDP的核心思想是将服务器节点上的通讯压力均衡转到各个计算节点上,即去服务器节点,留计算节点。
在传统的数据并行中, 通信瓶颈通常出现在服务器节点,因为服务器节点需要与其他计算节点进行通信以进行梯度聚合和权重更新。而分布式数据并行则直接去掉了服务器节点,使得各个计算节点之间可以直接进行通信和梯度聚合。这样,每个节点都会收到来自其他节点的梯度,从而能够独立进行反向传播和参数更新,有效解决了通信负载不均衡的问题。
在这里插入图片描述

虽然分布式数据并行使用起来非常简单和方便,但是其要求整个模型加载到单个计算节点上,为了缓解显存的压力,出现了一种新兴的数据并行方式,即完全分片数据并行FSDP。它的核心思想是在对数据进行切片的同时,将模型的参数也切分为多份,每个节点只存储部分参数信息。
在这里插入图片描述

流水线模型并行

流水线并行的核心思想是对模型进行切分,将模型的不同层放置到不同的计算节点上,从而降低单个计算节点的显存消耗,使得能够容纳更大规模的模型进行训练。
在这里插入图片描述

流水线并行又分为朴素流水线和微批次流水线。
朴素流水线并行的核心思想是将模型的不同层切分成多个部分 (Stage),并将每个部分(Stage)分配给一个 GPU,然后使用小批量(mini-batch)数据进行常规的训练,并在 GPU 之间进行点对点的通信。
在这里插入图片描述

微批次流水线并行方案Gpipe的核心思想是:将传入的小批次(mini-batch) 数据再进行切分为更小的微批次(micro-batch)数据,然后进行前向传播和反向传播。通过在同一时刻训练不同的微批次数据来减小节点的空闲时间,以及提升 GPU 的利用率。
在这里插入图片描述

(有一种模型向指令集靠近的感觉。。。)

张量模型并行

同样是将模型分解放置到不同的GPU上,但和流水线并行不同的是,张量并行是针对模型中的参数进行分片。最常见的张量并行方案是1D 张量并行,即将参数按照某一个维度进行划分(横着切或者竖着切)。它的核心思想是模型的参数被划分成多个张量,并分别分配到不同的节点上进行计算。训练过程中,每个节点独立计算分配给自己的参数。然后,通过通信和同步操作,确保所有节点上的模型参数得到更新。
在这里插入图片描述

大模型和机器学习模型的区别

大模型和机器学习模型各有其优势和适用场景。大模型在处理复杂、开放性的自然语言任务时表现出色,但需要大量资源。传统机器学习模型则更适合特定任务,资源需求较少,且在某些领域仍然是首选方案。在实际应用中,选择哪种模型取决于具体的任务需求、可用资源和性能要求。

  1. 规模和复杂度:
    ● 大模型:通常包含数十亿到数万亿个参数,如GPT-3有1750亿个参数。
    ● 机器学习模型:参数数量通常较少,从几百到几百万不等。
  2. 训练数据:
    ● 大模型:需要海量的训练数据,通常是互联网规模的文本数据。
    ● 机器学习模型:可以在相对较小的数据集上训练,数据量可能从几千到几百万条不等。
  3. 通用性vs专用性:
    ● 大模型:通常是通用模型,可以应用于多种自然语言处理任务。
    ● 机器学习模型:往往针对特定任务进行优化,如图像分类、垃圾邮件检测等。
  4. 训练方法:
    ● 大模型:通常使用自监督学习方法,如预测下一个词。
    ● 机器学习模型:可能使用监督学习、无监督学习或强化学习等多种方法。
  5. 计算资源需求:
    ● 大模型:需要大量的计算资源进行训练,通常需要多个GPU或TPU集群。
    ● 机器学习模型:可以在普通PC或单个GPU上训练。
  6. 推理时间:
    ● 大模型:由于规模庞大,推理时间可能较长。
    ● 机器学习模型:通常推理速度较快,适合实时应用。
  7. 可解释性:
    ● 大模型:由于复杂度高,通常被视为"黑盒",可解释性较差。
    ● 机器学习模型:某些模型(如决策树)具有较好的可解释性。
  8. 迁移学习能力:
    ● 大模型:具有强大的迁移学习能力,可以快速适应新任务。
    ● 机器学习模型:迁移学习能力相对有限,通常需要针对新任务重新训练。
  9. 更新和维护:
    ● 大模型:更新成本高,通常需要重新训练整个模型。
    ● 机器学习模型:可以进行增量更新,维护相对简单。
  10. 应用场景:
    ● 大模型:适用于复杂的自然语言处理任务,如文本生成、问答系统、语言翻译等。
    ● 机器学习模型:广泛应用于各种领域,包括计算机视觉、推荐系统、异常检测等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/421424.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JAVA多线程】JDK线程同步工具:Semaphore、CountDownLatch、CyclicBarrier

目录 1.可能会遇到的线程协作场景 2.Semaphore 3.CountDownLatch 4.CyclicBarrier 1.可能会遇到的线程协作场景 在并发编程中,线程除了独自向前运行,还可能相互之间要进行协作,以保证完成最终总的目标。可能会遇到的几种任务之间的协作&…

算法知识点————背包问题【动态规划】【打家劫舍】

万能头文件#include<bits/stdc.h> 01 背包 定义&#xff1a; 物品只能用1次。01对应选还是不选第i个物品 .N个物品、V容量的最大价值。 思路&#xff1a; &#xff08;1&#xff09;f[ i ] [j] 表示前i个物品容量j的最大价值。 &#xff08;2&#xff09;当前背包容量…

中国人民银行:数字人民币交易额已达7万亿元!中俄考虑使用国家数字货币进行双边结算!

近年来&#xff0c;数字货币的迅速发展引起了全球的广泛关注。中国人民银行&#xff08;PBOC&#xff09;近日透露&#xff0c;数字人民币&#xff08;e-CNY&#xff09;的交易额已接近1万亿美元&#xff0c;这标志着中国在数字货币领域的重大进展。同时俄罗斯也表示&#xff0…

file | 某文件夹【解耦合】下的文件查找功能实现及功能单元测试

文件查找工具 概要思路OS模块 --- 学习版os.getcwd()os.path.dirname(os.getcwd())os.path.dirname() 和 os.path.basename() OS模块 — 实战版单元测试解耦合 概要 梳理业务主逻辑&#xff1a; 查看存放被采集JSON数据的文件夹内的文件列表【所有 包含文件夹下的文件夹下的文…

C语言 | Leetcode C语言题解之第395题至少有K个重复字符的最长子串

题目&#xff1a; 题解&#xff1a; int longestSubstring(char* s, int k) {int ret 0;int n strlen(s);for (int t 1; t < 26; t) {int l 0, r 0;int cnt[26];memset(cnt, 0, sizeof(cnt));int tot 0;int less 0;while (r < n) {cnt[s[r] - a];if (cnt[s[r] - …

论文阅读:3D Gaussian Splatting for Real-Time Radiance Field Rendering

论文地址&#xff1a;https://arxiv.org/abs/2308.04079 代码地址&#xff1a;graphdeco-inria/gaussian-splatting: Original reference implementation of "3D Gaussian Splatting for Real-Time Radiance Field Rendering" (github.com) 概要 提出一个实时且能够…

论文解读 | ACL2024 Outstanding Paper:因果指导的主动学习方法:助力大语言模型自动识别并去除偏见...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 点击阅读原文观看作者直播讲解回放&#xff01; 作者简介 孙洲浩&#xff0c;哈尔滨工业大学SCIR实验室博士生 概述 尽管大语言模型&#xff08;LLMs&#xff09;展现出了非常强大的能力&#xff0c;但它们仍然…

ApplicationVerifier介绍说明

文章目录 1、介绍1、安装2、配置需要验证的项目2、在WinDbg中调试3、其他配置项 1、介绍 AppVerifier 特别用于检测和帮助调试内存损坏、危险的安全漏洞以及受限的用户帐户特权问题。 AppVerifier 有助于创建可靠且安全的应用程序&#xff0c;方法是监视应用程序与Windows操作…

53 - I. 在排序数组中查找数字 I

comments: true edit_url: https://github.com/doocs/leetcode/edit/main/lcof/%E9%9D%A2%E8%AF%95%E9%A2%9853%20-%20I.%20%E5%9C%A8%E6%8E%92%E5%BA%8F%E6%95%B0%E7%BB%84%E4%B8%AD%E6%9F%A5%E6%89%BE%E6%95%B0%E5%AD%97%20I/README.md 面试题 53 - I. 在排序数组中查找数字 …

Mysql基础练习题 1757.可回收且低脂的产品(力扣)

编写解决方案找出既是低脂又是可回收的产品编号。 题目链接&#xff1a; https://leetcode.cn/problems/recyclable-and-low-fat-products/description/ 建表插入数据&#xff1a; Create table If Not Exists Products (product_id int, low_fats ENUM(Y, N), recyclable …

mysql 之 information_schema

information_schema 是 MySQL 中的一个特殊数据库&#xff0c;它提供了关于 MySQL 服务器中所有数据库、表、列、索引、存储过程、函数、触发器等对象的元数据信息。information_schema 是一个只读数据库&#xff0c;主要用于查询数据库的结构信息&#xff0c;而不是存储用户数…

【网络安全】-文件上传漏洞

文件操作漏洞包括文件上传漏洞&#xff0c;文件包含漏洞&#xff0c;文件下载漏洞。 文章目录 前言 什么是文件上传漏洞&#xff1f; 文件上传的验证与绕过&#xff1a; 1.前端js验证&#xff1a;   Microsft Edge浏览器&#xff1a; Google Chrome浏览器&#xff1a; 2.后端…

[WEBPWN]BaseCTF week1 题解(新手友好教程版)

WEB A Dark Room 这道题的考点是查看网页源代码 网页源代码这里看到的是网页的html css js在用户浏览器上执行的代码 有时候很多铭感信息&#xff0c;或者关键信息。 查看网页源代码的几种方式 1 右键点击查看网页源代码 2 F12 3 Ctrl U 快捷键 HTTP是什么 HTTP&#x…

【F179】基于Springboot+vue实现的幼儿园管理系统

作者主页&#xff1a;Java码库 主营内容&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 项目描述 系统管理也都将通过计算机进行整体智能化操作&#xff…

Redis学习Day3——项目工程开发`

扩展阅读推荐&#xff1a; 黑马程序员Redis入门到实战教程_哔哩哔哩_bilibili 使用git命令行将本地仓库代码上传到gitee/github远程仓库-CSDN博客 一、项目介绍及其初始化 学习Redis的过程&#xff0c;我们还将遇到各种实际问题&#xff0c;例如缓存击穿、雪崩、热Key等问题&…

IGNAV_NHC分析

extern int nhc(insstate_t *ins,const insopt_t *opt,const imud_t *imu)函数名 insstate_t* ins IO ins state insopt_t* opt I ins options imud_t* imu I imu measurement data return : 1 (ok) or 0 (fail) 用NHC进行约束&#xff0c;其实用NHC做量测去…

从大脑图谱/ROI中提取BOLD信号

动机 在功能连接&#xff08;Functional Connectivity&#xff0c;FC&#xff09;构建过程中&#xff0c;由于FC中元素数目是节点数目的平方关系&#xff0c;所以在计算FC之前进行数据降维是一个常见的选择。 一般会将体素级/顶点级BOLD信号&#xff08;在2mm的图像分辨率下大脑…

Android libui新加接口,编译报错:error: Please update ABI references

1.背景信息 由于项目需要,要合入google的bug fix:https://cs.android.com/android/_/android/platform/frameworks/native/+/2c1782c6f986debe5ec89d5cdd3a3f08b08d5683 查看google的修改发现,对Transform.h 增加了一个方法:android::ui::Transform::det。合入修改之后,我…

NXP,S32K1XX汽车通用微控制器开发笔记

文章目录 1. 概述2. 开发环境配置2.1 S32 Design Studio2.2 安装SDK2.3 新建demo工程2.4 字体配置2.5 按需求修改demo2.5.1 修改pin脚定义2.5.2 增加串口打印功能2.6 编译代码2.7 debuger 配置参考1. 概述 S32K1系列32位微控制器(MCU)提供基于Arm Cortex-M的MCU,以及基本的…

pycharm中函数或方法的跳转以及返回

跳转 跳转很方便&#xff0c;ctrl 函数名即可。 跳转返回 有自带的回退按钮&#xff0c;找到视图->外观->工具栏&#xff0c;选中工具栏&#xff0c;这样就能出现箭头按钮&#xff0c;左箭头就是回退&#xff0c;右箭头前进。 快捷按钮可以为&#xff1a; 回退&…