LLM：了解大语言模型

大型语言模型（Large language models，LLMs），如 OpenAI 的 ChatGPT ，或者 DeepSeek 等，是过去几年中开发出来的深度神经网络模型。它们为自然语言处理（natural language processing，NLP）开启了一个新的时代。在 LLMs 出现之前，传统方法擅长于像电子邮件垃圾信息分类和简单的模式识别这样的分类任务，这些任务可以通过手工编写的规则或更简单的模型来捕捉。然而，对于那些需要复杂理解和生成能力的语言任务，比如解析详细指令、进行上下文分析以及创建连贯且上下文适当的原创文本，传统方法通常表现不佳。例如，上一代语言模型无法根据关键词列表撰写电子邮件——而这对当代的 LLMs 来说是一项轻松的任务。

LLMs 具有理解、生成和解读人类语言的卓越能力。然而，重要的是要澄清，当我们说语言模型“理解”时，我们的意思是它们能够以看起来连贯且上下文相关的方式处理和生成文本，并不是指它们拥有类似人类的意识或理解能力。

得益于深度学习的进步，它是机器学习和人工智能（AI）中专注于神经网络的一个子集，LLMs 在海量文本数据上进行训练。这种大规模训练使得 LLMs 相比以前的方法能够捕捉到更深层次的上下文信息和人类语言的微妙之处。因此，LLMs 在包括文本翻译、情感分析、问答在内的广泛 NLP 任务中的性能得到了显著提升。

现代 LLMs 与早期 NLP 模型之间的另一个重要区别是，早期的 NLP 模型通常是为特定任务设计的，比如文本分类、语言翻译等。尽管那些早期的 NLP 模型在其狭窄的应用领域表现出色，但 LLMs 展示了跨一系列 NLP 任务的更广泛的熟练程度。

LLMs 背后的成功可以归因于许多 LLMs 所基于的 transformer 架构以及用于训练 LLMs 的巨大数据量，这使它们能够捕捉到各种语言细微差别、上下文和模式，这些如果手动编码将极具挑战性。

向基于 transformer 架构实施模型和使用大型训练数据集训练 LLMs 的转变，从根本上改变了自然语言处理，提供了更强大的工具来理解和与人类语言互动。

什么是 LLM

大型语言模型（LLM）是一种设计用来理解、生成和回应类似人类文本的神经网络。这些模型是深度神经网络，训练它们使用的是海量的文本数据，有时甚至涵盖了互联网上大部分公开可用的文本。

“大型语言模型”中的“大型”既指模型参数的数量规模，也指其训练所基于的庞大数据库。这样的模型往往拥有数百亿甚至更多的参数，这些是在网络中可调整的权重，在训练过程中被优化以预测序列中的下一个词。下一个词的预测是合理的，因为它利用了语言固有的顺序性来训练模型理解文本中的上下文、结构和关系。然而，这是一个非常简单的任务，因此对于许多研究人员来说，它能产生如此强大的模型是令人惊讶的。在后续章节中，我们将逐步讨论并实现下一个词的训练过程。

LLMs 采用了一种称为 transformer 的架构，这使得它们在进行预测时能够选择性地关注输入的不同部分，从而使它们特别擅长处理人类语言的细微差别和复杂性。由于 LLMs 能够生成文本，它们也常被称为生成式人工智能（generative artificial intelligence），通常简称为生成 AI 或 GenAI。如图 1.1 所示，人工智能涵盖了创建能够执行需要类似人类智能的任务的机器这一更广泛的领域，这些任务包括理解语言、识别模式和做出决策，还包括机器学习和深度学习等子领域。

在这里插入图片描述

图 1.1 正如这一层次结构所描绘的不同领域之间的关系所示，LLMs代表了深度学习技术的一种特定应用，利用其处理和生成类似人类文本的能力。深度学习是机器学习的一个专门分支，专注于使用多层神经网络。机器学习和深度学习都是旨在实施能够让计算机从数据中学习并执行通常需要人类智能的任务的算法的领域。

用于实现人工智能的算法是机器学习领域的重点。具体来说，机器学习涉及开发能够从数据中学习并基于数据做出预测或决策的算法，而无需进行明确的编程。举个例子来说明这一点，可以考虑垃圾邮件过滤器作为机器学习的一个实际应用。与其手动编写规则来识别垃圾邮件，不如给一个机器学习算法提供标记为垃圾邮件和合法邮件的电子邮件示例。通过在训练数据集上最小化其预测误差，模型学会识别表明是垃圾邮件的模式和特征，从而能够将新邮件分类为垃圾邮件或非垃圾邮件。

如图 1.1 所示，深度学习是机器学习的一个子集，专注于使用三层或更多层（也称为深度神经网络）的神经网络来模拟数据中的复杂模式和抽象。与深度学习相比，传统的机器学习需要手动提取特征。这意味着人类专家需要识别并选择对模型最为相关的特征。

虽然现在人工智能领域主要由机器学习和深度学习主导，但它也包括其他方法，例如使用基于规则的系统、遗传算法、专家系统、模糊逻辑或符号推理。

回到垃圾邮件分类的例子，在传统的机器学习中，人类专家可能需要手动从电子邮件文本中提取特征，比如某些触发词（例如“奖品”、“赢”、“免费”）的频率、感叹号的数量、全大写字词的使用或可疑链接的存在。基于这些专家定义的特征创建的数据集随后会被用来训练模型。与传统机器学习不同，深度学习不需要手动提取特征。这意味着对于深度学习模型，人类专家不需要识别并选择最相关的特征。（然而，无论是传统的机器学习还是用于垃圾邮件分类的深度学习，仍然需要收集标签，如垃圾邮件或非垃圾邮件，这些标签需要由专家或用户收集。）

原文：Sebastian Raschka. Build a Large Language Model(From Scratch)，此处为原文的中文翻译，为了阅读方便，有适当修改。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/32516.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！