LLM:了解大语言模型

大型语言模型(Large language models,LLMs),如 OpenAI 的 ChatGPT ,或者 DeepSeek 等,是过去几年中开发出来的深度神经网络模型。它们为自然语言处理(natural language processing,NLP)开启了一个新的时代。在 LLMs 出现之前,传统方法擅长于像电子邮件垃圾信息分类和简单的模式识别这样的分类任务,这些任务可以通过手工编写的规则或更简单的模型来捕捉。然而,对于那些需要复杂理解和生成能力的语言任务,比如解析详细指令、进行上下文分析以及创建连贯且上下文适当的原创文本,传统方法通常表现不佳。例如,上一代语言模型无法根据关键词列表撰写电子邮件——而这对当代的 LLMs 来说是一项轻松的任务。

LLMs 具有理解、生成和解读人类语言的卓越能力。然而,重要的是要澄清,当我们说语言模型“理解”时,我们的意思是它们能够以看起来连贯且上下文相关的方式处理和生成文本,并不是指它们拥有类似人类的意识或理解能力

得益于深度学习的进步,它是机器学习和人工智能(AI)中专注于神经网络的一个子集,LLMs 在海量文本数据上进行训练。这种大规模训练使得 LLMs 相比以前的方法能够捕捉到更深层次的上下文信息和人类语言的微妙之处。因此,LLMs 在包括文本翻译、情感分析、问答在内的广泛 NLP 任务中的性能得到了显著提升。

现代 LLMs 与早期 NLP 模型之间的另一个重要区别是,早期的 NLP 模型通常是为特定任务设计的,比如文本分类、语言翻译等。尽管那些早期的 NLP 模型在其狭窄的应用领域表现出色,但 LLMs 展示了跨一系列 NLP 任务的更广泛的熟练程度。

LLMs 背后的成功可以归因于许多 LLMs 所基于的 transformer 架构以及用于训练 LLMs 的巨大数据量,这使它们能够捕捉到各种语言细微差别、上下文和模式,这些如果手动编码将极具挑战性。

向基于 transformer 架构实施模型和使用大型训练数据集训练 LLMs 的转变,从根本上改变了自然语言处理,提供了更强大的工具来理解和与人类语言互动。

什么是 LLM

大型语言模型(LLM)是一种设计用来理解、生成和回应类似人类文本的神经网络。这些模型是深度神经网络,训练它们使用的是海量的文本数据,有时甚至涵盖了互联网上大部分公开可用的文本。

“大型语言模型”中的“大型”既指模型参数的数量规模,也指其训练所基于的庞大数据库。这样的模型往往拥有数百亿甚至更多的参数,这些是在网络中可调整的权重,在训练过程中被优化以预测序列中的下一个词。下一个词的预测是合理的,因为它利用了语言固有的顺序性来训练模型理解文本中的上下文、结构和关系。然而,这是一个非常简单的任务,因此对于许多研究人员来说,它能产生如此强大的模型是令人惊讶的。在后续章节中,我们将逐步讨论并实现下一个词的训练过程。

LLMs 采用了一种称为 transformer 的架构,这使得它们在进行预测时能够选择性地关注输入的不同部分,从而使它们特别擅长处理人类语言的细微差别和复杂性。由于 LLMs 能够生成文本,它们也常被称为生成式人工智能(generative artificial intelligence),通常简称为生成 AI 或 GenAI。如图 1.1 所示,人工智能涵盖了创建能够执行需要类似人类智能的任务的机器这一更广泛的领域,这些任务包括理解语言、识别模式和做出决策,还包括机器学习和深度学习等子领域。

在这里插入图片描述

图 1.1 正如这一层次结构所描绘的不同领域之间的关系所示,LLMs代表了深度学习技术的一种特定应用,利用其处理和生成类似人类文本的能力。深度学习是机器学习的一个专门分支,专注于使用多层神经网络。机器学习和深度学习都是旨在实施能够让计算机从数据中学习并执行通常需要人类智能的任务的算法的领域。

用于实现人工智能的算法是机器学习领域的重点。具体来说,机器学习涉及开发能够从数据中学习并基于数据做出预测或决策的算法,而无需进行明确的编程。举个例子来说明这一点,可以考虑垃圾邮件过滤器作为机器学习的一个实际应用。与其手动编写规则来识别垃圾邮件,不如给一个机器学习算法提供标记为垃圾邮件和合法邮件的电子邮件示例。通过在训练数据集上最小化其预测误差,模型学会识别表明是垃圾邮件的模式和特征,从而能够将新邮件分类为垃圾邮件或非垃圾邮件。

如图 1.1 所示,深度学习是机器学习的一个子集,专注于使用三层或更多层(也称为深度神经网络)的神经网络来模拟数据中的复杂模式和抽象。与深度学习相比,传统的机器学习需要手动提取特征。这意味着人类专家需要识别并选择对模型最为相关的特征。

虽然现在人工智能领域主要由机器学习和深度学习主导,但它也包括其他方法,例如使用基于规则的系统、遗传算法、专家系统、模糊逻辑或符号推理。

回到垃圾邮件分类的例子,在传统的机器学习中,人类专家可能需要手动从电子邮件文本中提取特征,比如某些触发词(例如“奖品”、“赢”、“免费”)的频率、感叹号的数量、全大写字词的使用或可疑链接的存在。基于这些专家定义的特征创建的数据集随后会被用来训练模型。与传统机器学习不同,深度学习不需要手动提取特征。这意味着对于深度学习模型,人类专家不需要识别并选择最相关的特征。(然而,无论是传统的机器学习还是用于垃圾邮件分类的深度学习,仍然需要收集标签,如垃圾邮件或非垃圾邮件,这些标签需要由专家或用户收集。)


原文:Sebastian Raschka. Build a Large Language Model(From Scratch),此处为原文的中文翻译,为了阅读方便,有适当修改。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32516.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux多进程学习

一、什么是多进程 1.多任务程序能够同时做多件事情,如QQ同时聊天和上传下载。 2.多任务程序在应用开发中非常普遍,是必须掌握的基本概念。 二、进程的创建与资源分配 1.操作系统在创建进程时会分配内存资源、CPU资源和时间片。 2.进程的内容包括代码、…

「Unity3D」UGUI将元素固定在,距离屏幕边缘的某个比例,以及保持元素自身比例

在不同分辨率的屏幕下,UI元素按照自身像素大小,会发生位置与比例的变化,本文仅利用锚点(Anchors)使用,来实现UI元素,固定在某个比例距离的屏幕边缘。 首先,将元素的锚点设置为中心&…

STM32 内置的通讯协议

数据是以帧为单位发的 USART和UART的区别就是有没有同步功能 同步是两端设备有时钟连接,异步是没时钟连接,靠约定号的频率(波特率)接收发送数据 RTS和CTS是用来给外界发送已“可接收”或“可发送”信号的,一般用不到…

C语言实现队列数据结构:思路与代码详解

目录 一、引言 二、整体思路 三、代码模块分析 (一)头文件包含与宏定义 (二)数据类型定义 (三)队列操作函数 1. 队列初始化 2. 队列销毁 3. 入队操作 4. 出队操作 5. 获取队头元素 6…

商业智能BI的未来,如何看待AI+BI这种模式?

昨天在和一位朋友线上聊天的时候,提了一个问题,你是如何看待AI(人工智能)BI(商业智能)这种模式和方向的,我大概来说一下我个人的看法。 以我在商业智能BI项目中接触到的行业和企业,…

如何制作Windows系统盘、启动盘?(MediaCreationTool_22H2)

文章目录 每日一句正能量前言一、准备工作二、制作启动盘后记 每日一句正能量 每个在你生命里出现的人,都有原因。喜欢你的人给你温暖关心。你喜欢的人让你学会爱和付出,不喜欢你的人让你自省成长。你不喜欢的人教会你宽容尊重,没有人是偶然出…

DataWhale 大语言模型 - 语言模型发展历程

大语言模型 LLMBook 项目背景 本课程围绕中国人民大学高瓴人工智能学院赵鑫教授团队出品的《大语言模型》书籍展开,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的…

C#带有设备仿真功能串口调试助手

本文档介绍一种方法,可以用来仿真串口设备。这样调试PLC程序时可以在没有仪器时用于测试程序的运行。详细代码见: https://download.csdn.net/download/qq_34047402/90477066 C#带有设备仿真功能串口调试助手资源-CSDN文库 步骤如下: 1.把串口设备接收和发送仿真数据放到一…

本地部署 OpenManus 保姆级教程(Windows 版)

一、环境搭建 我的电脑是Windows 10版本,其他的没尝试,如果大家系统和我的不一致,请自行判断,基本上没什么大的出入啊。 openManus的Git地址:https://github.com/mannaandpoem/OpenManus 根据官网的两种安装推荐方式如…

01 | Go 项目开发极速入门课介绍

提示: 所有体系课见专栏:Go 项目开发极速入门实战课。 你好,欢迎学习本课程。本课程是一个 Go 项目开发极速入门课程。旨在帮助刚学习完 Go 基础语法的 Go 开发者,快速掌握如何开发一个功能相对全面的 Go 项目。 根据课程设计目标…

使用 Elastic-Agent 或 Beats 将 Journald 中的 syslog 和 auth 日志导入 Elastic Stack

作者:来自 Elastic TiagoQueiroz 我们在 Elastic 一直努力将更多 Linux 发行版添加到我们的支持矩阵中,现在 Elastic-Agent 和 Beats 已正式支持 Debian 12! 本文演示了我们正在开发的功能,以支持使用 Journald 存储系统和身份验…

江科大51单片机笔记【15】直流电机驱动(PWM)

写在前言 此为博主自学江科大51单片机(B站)的笔记,方便后续重温知识 在后面的章节中,为了防止篇幅过长和易于查找,我把一个小节分成两部分来发,上章节主要是关于本节课的硬件介绍、电路图、原理图等理论…

【Linux】:封装线程

朋友们、伙计们,我们又见面了,本期来给大家带来封装线程相关的知识点,如果看完之后对你有一定的启发,那么请留下你的三连,祝大家心想事成! C 语 言 专 栏:C语言:从入门到精通 数据结…

全球领先的光学方案设计公司:倚光科技

在光学技术革新的浪潮中,倚光(深圳)科技有限公司以创新者的姿态迅速崛起,成为全球光学领域的标杆企业。自 2021 年成立以来,公司始终聚焦纳米光学技术研发与超精密加工,凭借顶尖的技术实力和前瞻性的市场布…

2.2.3 TCP—UDP-QUIC

文章目录 2.2.3 TCP—UDP-QUIC1. TCP如何做到可靠性传输1. ACK机制2. 重传机制3. 序号机制4. 窗口机制5. 流量机制6. 带宽机制 2. tcp和udp如何选择1. tcp和udp格式对比2. ARQ协议(Automatic Repeat reQuest,自动重传请求)1. ARQ协议的主要类…

【动手实验】TCP 连接的建立与关闭抓包分析

本文是基于知识星球程序员踩坑案例分享中的作业进行的复现和总结,借此加深对 TCP 协议的理解, 原文参见TCP 连接的建立和关闭 —— 强烈建议新手看看。 实验环境 这里使用两台位于同一子网的腾讯云服务器,IP 分别是 node2(172.1…

视频理解之Actionclip(论文宏观解读)

配合解读代码解读 1.研究背景 1. 视频行为识别的重要性 视频行为识别是视频理解领域的核心任务之一,旨在通过分析视频内容来识别和分类其中的人物行为或活动。这一任务在多个领域具有重要的应用价值,例如智能监控、人机交互、自动驾驶、医疗健康等。随…

基于LabVIEW的脚本化子VI动态生成

该示例展示了一种利用LabVIEW VI脚本(VI Scripting)技术,通过程序化方式动态生成并替换子VI的解决方案。核心逻辑为:基于预定义的模板VI,根据用户选择的数学操作(加法或乘法),自动生…

Debian系统grub新增启动项

参考链接 给grub添加自定义启动项_linux grub定制 启动项名称自定义-CSDN博客 www.cnblogs.com 1. boot里面的grub.cfg 使用vim打开boot里面的grub.cfg sudo vim /boot/grub/grub.cfg 这时候会看到文件最上方的提示 2. 真正配置grub的文件 从刚才看到的文件提示中&#x…

ctfhub-web-SSRF通过攻略

1.URL Bypass 打开题目 请求的URL中必须包含http://notfound.ctfhub.com,使用来绕过即可 /?urlhttp://notfound.ctfhub.com127.0.0.1/flag.php 成功获得flag 2.数字IP Bypass 开启题目 发现127以及172被过滤了 尝试别的绕过 127.0.0.1–>localhost 127.0…