大模型扫盲之小白入门手记

本篇内容来自小米集团数据科学部负责人刘汉武老师的数据特训营笔记。不涉及深入的知识,仅在扫盲。

首先一个问题:大模型和大语言模型的区别是什么?
有人说大模型像是连接数据的星辰,能给我们提供前所未有的见解和洞察。现有的大模型很多,随便一搜,就能看到很多,除却最近大火的GPT,还有专注于常识推理、形式逻辑的PaLM、专门服务于企业的Cohere、目前仅能用于研究的LLaMA…在大语言模型和大模型中,大语言模型的大体现在模型规模和数据量上;而由NLP发展起来的语言模型专注于文字语言的处理。可能在未来会有图像的分支(好像已经有了)

文章目录

  • 发展历史
  • 大模型一般用途
  • 使用大模型
    • 使用prompt让下游任务适配大模型
  • 模型部署

发展历史

大语言模型基于transform分支发展起来,整体大概可以分为3个大分支。

  • 蓝色的部分依赖于transform的解码器,以GPT为代表。GPT是闭源的,该分支下还有开源的LLaMA供研究学习
  • 粉色的部分依赖于transform的编码器,以BERT为代表,GPT君临天下之前,BERT横扫江湖
  • 绿色的部分既依赖于编码器,又依赖于解码器。其中最强健的两个模型,一个是谷歌T5,另一个是清华大学的GLM
    在这里插入图片描述

扫盲小知识:BERT和GPT有什么区别

大模型一般用途

大模型发展很快,日常生活中,像我这样的程序员有时候会让他帮忙写代码(bushi),有人用它作为生活管家,有人依赖它对数据进行分析(譬如,生成一些简单的sql语句:我要查询2023年8月某商品的销售量和用户类型)。我们可以简单分为4类:

  1. 使用者(非研发):譬如用AI写某红书,画画,写作业(不行!作业还是要自己写!)
  2. 大模型工具开发者(研发):他们需要了解大模型原理,依靠模型进行分布式训练,同时需要处理数据,进行一些模型的开发。典型的成果包括通过预训练大模型数据能捕捉语义规律,产生更自然的文本和图像内容的Monica
  3. 领域大模型开发者(研发):典型的成果由医疗大模型、交通大模型等等,这类人群利用底层大模型做微调,构建领域的大模型。他们重点关注模型微调的技术,譬如P_Tuning、LoRa、Instruct。需要了解大模型原理
  4. 基座大模型开发者(研发):典型的基座大模型有OpenAI的ChatGpt、Meta的LLaMA、阿里的通义千问、百度文心一言、小米的MiLM。开发基座大模型,需要精通大模型原理,熟练掌握大规模分布式训练、大规模数据处理的技术。

使用大模型

大模型那么香,那么,我们如何使用大模型呢?
我们做一个场景假设,你开了一家餐厅,并迎来了第一批顾客。他们用餐之后,纷纷在小程序上留下了评论。你想要统计一下有多少顾客满意、多少顾客觉得差点儿意思。
传统的方式不外乎自己或者雇个小弟一条一条看。更科技一些,可以雇个程序员给你写一个分类器。但是如果有了大模型,你只需要对大模型进行调教,就能完成情感分类这个任务。

在这里插入图片描述

使用prompt让下游任务适配大模型

从前,针对不同类型的需求,需要训练不同类型的模型。譬如机翻需要训练机翻的模型,情感分析需要训练情感分析的模型。每一次训练需要标注数据、预训练、获取尽可能收益大的特征、调参,才能得到一个对需求有效的模型。而prompt就像一个适配接口,只需要一个大模型,就可以适配不同的任务。

在这里插入图片描述

模型部署

我们知道,模型越大,消耗的算力越多,选模型需要选最合适的。因此我们需要通过部署模型进行对比测试,找到最合适的基座大模型。模型部署分5步:

  1. 搭建开发环境
  2. 到官网下载模型
  3. 下载源码
  4. 安装依赖
  5. 测试模型的基本能力

–没写完,放个凳子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/124072.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

扩散模型 DDPM 核心代码梳理

参考内容: 大白话AI | 图像生成模型DDPM | 扩散模型 | 生成模型 | 概率扩散去噪生成模型 AIGC 基础,从VAE到DDPM 原理、代码详解 全网最简单的扩散模型DDPM教程 The Annotated Diffusion Model LaTeX公式编辑器 备注: 具体公式的推导请查看…

【聚类】K-Means聚类

cluster:簇 原理: 这边暂时没有时间具体介绍kmeans聚类的原理。简单来说,就是首先初始化k个簇心;然后计算所有点到簇心的欧式距离,对一个点来说,距离最短就属于那个簇;然后更新不同簇的簇心&a…

OpenCV(二十八):连通域分割

目录 1.介绍连通域分割 2.像素领域介绍 3.两遍法分割连通域 4.连通域分割函数 1.介绍连通域分割 连通域分割是一种图像处理技术,用于将图像中的相邻像素组成的区域划分为不同的连通域。这些像素具有相似的特性,如相近的灰度值或颜色。连通域分割可以…

C高级第2天

写一个1.sh脚本,将以下内容放到脚本中: 在家目录下创建目录文件,dir 在dir下创建dir1和dir2 把当前目录下的所有文件拷贝到dir1中, 把当前目录下的所有脚本文件拷贝到dir2中 把dir2打包并压缩为dir2.tar.xz 再把dir2.tar.xz…

Android 12 源码分析 —— 应用层 四(SystemUI的基本布局设计及其基本概念)

Android 12 源码分析 —— 应用层 四(SystemUI的基本布局设计及其基本概念) 在上两篇文章中,我们介绍SystemUI的启动过程,以及基本的组件依赖关系。基本的依赖关系请读者一定要掌握,因为后面的文章,将会时…

2023年9月惠州/深圳CPDA数据分析师认证找弘博创新

CPDA数据分析师认证是大数据方面的认证,助力数据分析人员打下扎实的数据分析基础知识功底,为入门数据分析保驾护航。 帮助数据分析人员掌握系统化的数据分析思维和方法论,提升工作效率和决策能力,遇到问题能够举一反三&#xff0c…

四川玖璨电子商务有限公司:抖店怎么运营爆款

如今,随着网络的普及和电商平台的兴起,越来越多的人开始关注和尝试开设自己的网店。然而,在面对激烈的市场竞争中,如何让自己的抖店脱颖而出,成为爆款产品的运营者,是每个抖店经营者迫切需要解决的问题。 …

elementUi中的el-table表格的内容根据后端返回的数据用不同的颜色展示

效果图如下&#xff1a; 首先 首先&#xff1a;需要在表格行加入 <template slot-scope"{ row }"> </template>标签 <el-table-column prop"usable" align"center" label"状态" width"180" ><templ…

【业务功能篇91】微服务-springcloud-多线程-线程池执行顺序

一、线程的实现方式 1. 线程的实现方式 1.1 继承Thread class ThreadDemo01 extends Thread{Overridepublic void run() {System.out.println("当前线程:" Thread.currentThread().getName());} }1.2 实现Runnable接口 class ThreadDemo02 implements Runnable{…

20个经典巧妙电路合集

1、防反接保护&#xff08;二极管&#xff09; 在实际电子设计中&#xff0c;防反接保护电路非常重要&#xff0c;不要觉得自己肯定不会接错&#xff0c;实际上无论多么小心&#xff0c;还是会犯错误...... 最简单的就是利用二极管了&#xff0c;利用二极管的单向导电性&#…

米贸搜什么是网站排名流量

当谈到数字营销时&#xff0c;你的网站应该作为线上营销的中心枢纽。包括&#xff1a;Ads付费广告、EDM邮件营销、SEO搜索引擎优化等都旨在吸引用户访问你的网站&#xff0c;并在网站上进行深度转化。 被广泛应用且最有效的营销策略之一就是SEO&#xff0c;流量排名是衡量网站受…

管理类联考——数学——汇总篇——知识点突破——数据分析——计数原理——减法原理除法原理

减法原理 正面难则反着做(“ − - −”号) 【思路】当出现“至少、至多”、“否定用语"等正面较难分类的题目&#xff0c;可以采用反面进行求解&#xff0c;注意部分反面的技巧以及“且、或"的反面用法。 除法原理 看到相同&#xff0c;定序用除法消序( “ &quo…

数据结构--5.0.1图的存储结构

目录 一、邻接矩阵&#xff08;无向图&#xff09; 二、邻接矩阵&#xff08;有向图&#xff09; 三、邻接矩阵&#xff08;网&#xff09; 四、邻接表&#xff08;无向图&#xff09; 五、邻接表&#xff08;有向图&#xff09; ——图的存储结构相比较线性表与树来说就复…

ChatGPT 总结数据分析的所有知识点

ChatGPT功能非常多,特别是对某个行业,某个方向,某个技术进行总结那是相当专业的。 如下图。 直接用一个指令便总结出来数据分析当中的所有知识点内容。 AIGC ChatGPT ,BI商业智能, 可视化Tableau, PowerBI, FineReport, 数据库Mysql Oracle, Office, Python ,ETL Ex…

UE4/UE5 动画控制

工程下载​ ​​​​​​​​​​​​​https://mbd.pub/o/bread/ZJ2cm5pu 蓝图控制sequence播放/倒播动画&#xff1a; 设置开启鼠标指针&#xff0c;开启鼠标事件 在场景中进行过场动画制作 设置控制事件

Excel VSTO开发5 -Excel对象结构

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请在显著位置标明本文出处以及作者网名&#xff0c;未经作者允许不得用于商业目的。 5 Excel对象结构 Excel提供了几个比较重要的对象&#xff1a; Application、Workbooks、Workbook、Worksheets、Worksheet 为了便…

I.MX RT1176笔记(9)-- 程序异常追踪(CmBacktrace 和 segger rtt)

前言 在使用 ARM Cortex-M 系列 MCU时候&#xff0c;有时候会遇到各种异常&#xff08;Hard Fault, Memory Management Fault, Bus Fault, Usage Fault, Debug Fault&#xff09;&#xff0c;这时候我们根据经验查询PC指针&#xff0c;LR寄存器&#xff0c;堆栈数据定位地址然…

2023 年全国大学生数学建模D题目-圈养湖羊的空间利用率

D题目应该是专科题目&#xff1f;&#xff1f;&#xff1f;不确定了 感觉类似一个细胞分裂问题一样&#xff0c;1&#xff0c;2&#xff0c;4&#xff0c;8&#xff0c; 题目1中规中矩 按照前面说的分配方法&#xff0c;一步一步计算进行 缺口的问题考虑反推回去&#xff0c…

Friend.tech热潮未过,在推特刷屏的TipCoin又是个啥?

Web3社交赛道风起云涌&#xff0c;Friend.tech的热潮还没过&#xff0c;最近又有一款名为Tip Coin社交项目在X&#xff08;前Twitter&#xff09;开始刷屏。 TipCoin作为一款社交类区块链项目依托于X平台&#xff0c;用户通过在X平台上发布内容来进行“挖矿”&#xff0c;获得项…

计算机安全学习笔记(IV):基于角色的访问控制 - RBAC

RBAC(Role-Based Access Control)基于用户在系统中设定的角色而不是用户的身份。一般来说&#xff0c;RBAC模型定义角色为组织中的一项工作职责&#xff0c;RBAC系统给角色而不是给单独的用户分配访问权。用户根据他们的职责被静态地或动态地分配给不同的角色。 RBAC模型间的关…