LLM vs SLM 大模型和小模型的对比

语言模型是能够生成自然人类语言的人工智能计算模型。这绝非易事。

这些模型被训练为概率机器学习模型——预测适合在短语序列中生成的单词的概率分布,试图模仿人类智能。语言模型在科学领域的重点有两个方面:

  1. 领悟情报的本质。
  2. 并将其本质体现为与真实人类进行有意义的智能交流。


在展现人类智能方面,当今自然语言处理 (NLP)领域的前沿人工智能模型尚未通过图灵测试。(如果机器无法辨别通信是来自人类还是计算机,则机器通过了图灵测试。)

特别有趣的是,我们已经非常接近这个标记:当然是被大肆宣传的大型语言模型 (LLM) 和有前途但不那么被大肆宣传的 SLM。(SLM 可以代表小型语言模型或短语言模型。)


小型语言模型与大型语言模型

如果你关注过这些炒作,那么你可能对 ChatGPT 等LLM很熟悉。这些生成式人工智能在学术、工业和消费者领域都极具吸引力。这主要是因为它们能够以语音通信的形式进行相对复杂的交互。

目前,LLM 工具被用作互联网上可用知识的智能机器接口。LLM 会从互联网上提取相关信息,这些信息用于对其进行训练,并向用户提供简明易懂的知识。这是一种替代方法,可以避免在互联网上搜索查询、阅读数千个网页并得出简明扼要的答案。

事实上,ChatGPT 是 LLM 的第一个面向消费者的用例,之前仅限于 OpenAI 的 GPT 和谷歌的 BERT 技术。

最近的迭代(包括但不限于 ChatGPT)已在编程脚本上进行了训练和设计。开发人员使用 ChatGPT 编写完整的程序功能——假设他们可以通过文本用户提示充分指定要求和限制。



NLP 模型的主要三种类型包括符号 NLP、统计 NLP 和神经 NLP。AI训练营,请访问 2img.ai

大模型 (LLM) 的工作原理

那么大型语言模型是如何工作的呢?让我们回顾一下使用 LLM 生成自然语言的关键步骤。

步骤 1. 通用概率机器学习

这个想法是开发一个具有参数的数学模型,该模型可以以最高的概率表示真实的预测。

在语言模型中,这些预测是自然语言数据的分布。目标是使用学习到的自然语言概率分布,根据可用的上下文知识(包括用户提示查询)生成最有可能出现的短语序列。

第 2 步:架构 transformer 和自注意力

为了学习单词和连续短语之间的复杂关系,ChatGPT 和 BERT 等现代语言模型依赖于所谓的基于Transformers的深度学习架构。Transformers 的总体思路是在进行序列预测时将文本转换为按重要性 加权的数字表示。

步骤3.预训练和微调

语言模型针对特定任务领域进行了大量的微调和设计。设计语言模型的另一个重要用例是消除对仇恨言论和歧视等不良语言结果的偏见。

该过程涉及通过以下方式调整模型参数:

  1. 利用特定领域的知识对模型进行训练。
  2. 根据预训练数据初始化模型参数。
  3. 监控模型性能。
  4. 进一步调整模型超参数。


LLM 和 SLM 之间的区别

SLM 和 LLM 在其架构设计、训练、数据生成和模型评估方面都遵循概率机器学习的类似概念。

现在,让我们讨论一下 SLM 和 LLM 技术的区别。

更多资讯,请访问 2img.ai

尺寸和模型复杂性

也许 SLM 和 LLM 之间最明显的区别就是模型大小。

  • ChatGPT(GPT-4)等 LLM 据称包含1.76 万亿个参数。
  • 开源SLM如Mistral 7B可以包含70亿个模型参数。


差异在于模型架构中的训练过程。ChatGPT 在编码器-解码器模型方案中使用自注意力机制,而 Mistral 7B 使用滑动窗口注意力,允许在仅解码器模型中进行高效训练

语境理解和领域特异性

SLM 是使用特定领域的数据进行训练的。它们可能缺乏来自所有多个知识领域的整体背景信息,但很可能在所选领域表现出色。

另一方面,LLM 的目标是在更广泛的层面上模拟人类智能。它基于更大的数据源进行训练,预计在所有领域都表现良好,而特定领域的 SLM 则表现相对较好。

这意味着 LLM 也更加通用,并且可以进行调整、改进和设计,以更好地完成编程等下游任务。

资源消耗

训练 LLM 是一个资源密集型过程,需要大规模的云端 GPU 计算资源。从头开始训练 ChatGPT 需要数千个GPU进行训练,而 Mistral 7B SLM 可以在具有不错 GPU的本地机器上运行- 训练 7B 参数模型仍然需要在多个 GPU 上进行几个小时的计算。

偏见

LLM 往往存在偏见。这是因为它们没有经过充分微调,而且它们训练的原始数据是公开可访问的,并发布在互联网上。由于训练数据的来源,训练数据可能存在偏差……

  • 低估或歪曲某些群体或思想
  • 被错误地标记。


其他地方也出现了进一步的复杂性:语言本身会引入自己的偏见,这取决于方言、地理位置和语法规则等各种因素。另一个常见问题是模型架构本身可能会无意中强化偏见,而这种偏见可能不会被注意到。

由于 SLM 在相对较小的特定领域数据集上进行训练,与 LLM 相比,偏差风险自然较低。

推理速度

SLM 的模型尺寸较小意味着用户可以在本地机器上运行模型,并且仍能在可接受的时间内生成数据。

LLM 需要多个并行处理单元来生成数据。根据访问 LLM 的并发用户数量,模型推理速度往往会变慢。

那么,LLM 是一切问题的正确选择吗?

这个问题的答案完全取决于你的语言模型的使用情况和你可用的资源。在商业环境中,LLM 可能更适合担任你的呼叫中心和客户支持团队的聊天代理。

在大多数特定于功能的用例中,SLM 可能会表现出色。

考虑医疗、法律和金融领域的用例。这里的每个应用都需要高度专业化和专有的知识。利用这些知识在内部培训 SLM 并对其进行微调以供内部使用,可以作为高度监管和专业化行业中特定领域用例的智能代理。

更多资讯,请访问 2img.ai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/361956.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

gin-vue-amdin 新增路由

1:在api目录的example 下新建controller 层如下图(): 在enter.go 中 加入 这个新建的结构体: 2:在router 的example 文件夹下 新建对应的路由文件 3:在initlize 的router 中 添加对应的代码&a…

推动多模态智能模型发展:大型视觉语言模型综合多模态评测基准

随着人工智能技术的飞速发展,大型视觉语言模型(LVLMs)在多模态应用领域取得了显著进展。然而,现有的多模态评估基准测试在跟踪LVLMs发展方面存在不足。为了填补这一空白,本文介绍了MMT-Bench,这是一个全面的…

【数学建模】——【python库】——【Pandas学习】

专栏:数学建模学习笔记 pycharm专业版免费激活教程见资源,私信我给你发 python相关库的安装:pandas,numpy,matplotlib,statsmodels 总篇:【数学建模】—【新手小白到国奖选手】—【学习路线】 第一卷:【数学…

互联网信息服务算法备案流程与要求

一、备案申请的办理流程 企业通过网信办的互联网信息服务算法备案系统(https://beian.cac.gov.cn/#/index)提交算法备案申请。填报信息包括三部分,分别是算法主体信息、产品及功能信息、算法信息。备案中比较重要的文件包括主体信息中的《落…

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——> model-free】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 学堂在线 习题 2、 过 电子书 是否遗漏 【下载:本章 PDF GitHub 页面链接 】 【第二轮 才整理的,忘光了。。。又看了一遍视频】 3、 过 MOOC 习题 看 PDF 迷迷糊糊, 恍恍惚惚。…

深度学习 - Transformer 组成详解

整体结构 1. 嵌入层(Embedding Layer) 生活中的例子:字典查找 想象你在读一本书,你不认识某个单词,于是你查阅字典。字典为每个单词提供了一个解释,帮助你理解这个单词的意思。嵌入层就像这个字典&#xf…

道路救援入驻派单小程序开源版开发

道路救援入驻派单小程序开源版开发 1、用户立即救援 2、后台收到救援通知,派单救援师傅. 道路救援入驻派单小程序通常会包含一系列功能,旨在方便救援服务提供商、用户和后台管理系统之间的交互。以下是一个可能的功能列表: 用户端功能&…

Camera开发-相机输出常用数据格式

作者简介: 一个平凡而乐于分享的小比特,中南民族大学通信工程专业研究生在读,研究方向无线联邦学习 擅长领域:驱动开发,嵌入式软件开发,BSP开发 作者主页:一个平凡而乐于分享的小比特的个人主页…

OpenGL-ES 学习(6)---- 立方体绘制

目录 立方体绘制基本原理立方体的顶点坐标和绘制顺序立方体颜色和着色器实现效果和参考代码 立方体绘制基本原理 一个立方体是由8个顶点组成,共6个面,所以绘制立方体本质上就是绘制这6个面共12个三角形 顶点的坐标体系如下图所示,三维坐标…

【极速入门版】编程小白也能轻松上手Comate AI编程插件

文章目录 概念使用错误检测与修复能力API生成代码生成json格式做开发测试 在目前的百模大战中,AI编程助手是程序员必不可少的东西,市面上琳琅满目的产品有没有好用一点的,方便一点的呢?今天工程师令狐向大家介绍一款极易入门的国产…

three.js - MeshStandardMaterial(标准网格材质)- 金属贴图、粗糙贴图

金属贴图、粗糙贴图 金属贴图:metalnessMap 和 粗糙贴图:roughnessMap,是用于模拟物体表面属性的两种重要贴图技术,这两种贴图,通常与基于物理的渲染(PBR)材质(如:MeshSt…

nuxt3项目打包后获取.env设置的环境变量无效的解决办法

问题描述 在nuxt3项目开发过程中,设置了开发环境变量和生产环境变量,在本地开发时都能正常获取,但打包部署时获取不到,设置如下: //.env.development文件示例 SERVER_API_PATHhttp://192.168.25.100//.env.productio…

Elasticsearch环境搭建|ES单机|ES单节点模式启动|ES集群搭建|ES集群环境搭建

文章目录 版本选择单机ES安装与配置创建非root用户导入安装包安装包解压配置JDK环境变量配置single-node配置JVM参数后台启动|启动日志查看启动成功,访问终端访问浏览器访问 Kibana安装修改配置后台启动|启动日志查看浏览器访问 ES三节点集群搭建停止es服务域名配置…

小区物业管理收费系统源码小程序

便捷、透明、智能化的新体验 一款基于FastAdminUniApp开发的一款物业收费管理小程序。包含房产管理、收费标准、家属管理、抄表管理、在线缴费、业主公告、统计报表、业主投票、可视化大屏等功能。为物业量身打造的小区收费管理系统,贴合物业工作场景,轻…

未来20年人工智能将如何塑造社会

照片由Brian McGowan在Unsplash上拍摄 更多资讯,请访问 2img.ai “人工智能会成为我们的救星还是我们的末日?” 几十年来,这个问题一直困扰着哲学家、科学家和科幻爱好者。 当我们踏上技术革命的边缘时,是时候透过水晶球&#x…

【java算法专场】双指针(上)

目录 前言 基本原理 对撞指针 快慢指针 移动零 算法思路 算法步骤 代码实现 算法分析 复写零 算法思路 算法步骤 代码实现 快乐数 算法思路 算法步骤 代码实现 盛最多水的容器 ​编辑算法思路 代码实现 前言 双指针是一种在数组或链表等线性数据结构中高效…

CV每日论文--2024.6.26

1、StableNormal: Reducing Diffusion Variance for Stable and Sharp Normal 中文标题:StableNormal:减少扩散方差以实现稳定且锐利的法线 简介:本文介绍了一种创新解决方案,旨在优化单目彩色输入(包括静态图片与动态…

CCS的安装步骤

CCS的安装步骤 安装之前有几件重要的事情要做: 首先肯定是要下载安装包啦!点击此处是跳到官网下载地址安装包不能处的路径中不能包含中文关闭病毒防护和防火墙,以及其他杀毒软件最后是在重启后进行安装 主要的步骤如下: 找到安…

PDF转成清晰长图

打开一个宝藏网址在线PDF转换器/处理工具 - 在线工具系列 点击图下所示位置 按照图下所示先上传文件,设置转换参数后点击转换,等待 等待转换完成后,可以在转换结果处选择下载地址,点击即可进行下载使用了。对比了其他几个网站的转…

.NET C# Asp.Net Core Web API 配置 Nginx

.NET C# Asp.Net Core Web API 配置 Nginx 目录 .NET C# Asp.Net Core Web API 配置 Nginx1 创建Asp.Net Core Web API应用2 接口代码3 发布4 启动服务5 Nginx安装6 配置Nginx7 启动Nginx8 测试9 Nginx日志10 附: 1 创建Asp.Net Core Web API应用 2 接口代码 Weath…