语言模型是能够生成自然人类语言的人工智能计算模型。这绝非易事。
这些模型被训练为概率机器学习模型——预测适合在短语序列中生成的单词的概率分布,试图模仿人类智能。语言模型在科学领域的重点有两个方面:
- 领悟情报的本质。
- 并将其本质体现为与真实人类进行有意义的智能交流。
在展现人类智能方面,当今自然语言处理 (NLP)领域的前沿人工智能模型尚未通过图灵测试。(如果机器无法辨别通信是来自人类还是计算机,则机器通过了图灵测试。)
特别有趣的是,我们已经非常接近这个标记:当然是被大肆宣传的大型语言模型 (LLM) 和有前途但不那么被大肆宣传的 SLM。(SLM 可以代表小型语言模型或短语言模型。)
小型语言模型与大型语言模型
如果你关注过这些炒作,那么你可能对 ChatGPT 等LLM很熟悉。这些生成式人工智能在学术、工业和消费者领域都极具吸引力。这主要是因为它们能够以语音通信的形式进行相对复杂的交互。
目前,LLM 工具被用作互联网上可用知识的智能机器接口。LLM 会从互联网上提取相关信息,这些信息用于对其进行训练,并向用户提供简明易懂的知识。这是一种替代方法,可以避免在互联网上搜索查询、阅读数千个网页并得出简明扼要的答案。
事实上,ChatGPT 是 LLM 的第一个面向消费者的用例,之前仅限于 OpenAI 的 GPT 和谷歌的 BERT 技术。
最近的迭代(包括但不限于 ChatGPT)已在编程脚本上进行了训练和设计。开发人员使用 ChatGPT 编写完整的程序功能——假设他们可以通过文本用户提示充分指定要求和限制。
NLP 模型的主要三种类型包括符号 NLP、统计 NLP 和神经 NLP。AI训练营,请访问 2img.ai
大模型 (LLM) 的工作原理
那么大型语言模型是如何工作的呢?让我们回顾一下使用 LLM 生成自然语言的关键步骤。
步骤 1. 通用概率机器学习
这个想法是开发一个具有参数的数学模型,该模型可以以最高的概率表示真实的预测。
在语言模型中,这些预测是自然语言数据的分布。目标是使用学习到的自然语言概率分布,根据可用的上下文知识(包括用户提示查询)生成最有可能出现的短语序列。
第 2 步:架构 transformer 和自注意力
为了学习单词和连续短语之间的复杂关系,ChatGPT 和 BERT 等现代语言模型依赖于所谓的基于Transformers的深度学习架构。Transformers 的总体思路是在进行序列预测时将文本转换为按重要性 加权的数字表示。
步骤3.预训练和微调
语言模型针对特定任务领域进行了大量的微调和设计。设计语言模型的另一个重要用例是消除对仇恨言论和歧视等不良语言结果的偏见。
该过程涉及通过以下方式调整模型参数:
- 利用特定领域的知识对模型进行训练。
- 根据预训练数据初始化模型参数。
- 监控模型性能。
- 进一步调整模型超参数。
LLM 和 SLM 之间的区别
SLM 和 LLM 在其架构设计、训练、数据生成和模型评估方面都遵循概率机器学习的类似概念。
现在,让我们讨论一下 SLM 和 LLM 技术的区别。
更多资讯,请访问 2img.ai
尺寸和模型复杂性
也许 SLM 和 LLM 之间最明显的区别就是模型大小。
- ChatGPT(GPT-4)等 LLM 据称包含1.76 万亿个参数。
- 开源SLM如Mistral 7B可以包含70亿个模型参数。
差异在于模型架构中的训练过程。ChatGPT 在编码器-解码器模型方案中使用自注意力机制,而 Mistral 7B 使用滑动窗口注意力,允许在仅解码器模型中进行高效训练。
语境理解和领域特异性
SLM 是使用特定领域的数据进行训练的。它们可能缺乏来自所有多个知识领域的整体背景信息,但很可能在所选领域表现出色。
另一方面,LLM 的目标是在更广泛的层面上模拟人类智能。它基于更大的数据源进行训练,预计在所有领域都表现良好,而特定领域的 SLM 则表现相对较好。
这意味着 LLM 也更加通用,并且可以进行调整、改进和设计,以更好地完成编程等下游任务。
资源消耗
训练 LLM 是一个资源密集型过程,需要大规模的云端 GPU 计算资源。从头开始训练 ChatGPT 需要数千个GPU进行训练,而 Mistral 7B SLM 可以在具有不错 GPU的本地机器上运行- 训练 7B 参数模型仍然需要在多个 GPU 上进行几个小时的计算。
偏见
LLM 往往存在偏见。这是因为它们没有经过充分微调,而且它们训练的原始数据是公开可访问的,并发布在互联网上。由于训练数据的来源,训练数据可能存在偏差……
- 低估或歪曲某些群体或思想
- 被错误地标记。
其他地方也出现了进一步的复杂性:语言本身会引入自己的偏见,这取决于方言、地理位置和语法规则等各种因素。另一个常见问题是模型架构本身可能会无意中强化偏见,而这种偏见可能不会被注意到。
由于 SLM 在相对较小的特定领域数据集上进行训练,与 LLM 相比,偏差风险自然较低。
推理速度
SLM 的模型尺寸较小意味着用户可以在本地机器上运行模型,并且仍能在可接受的时间内生成数据。
LLM 需要多个并行处理单元来生成数据。根据访问 LLM 的并发用户数量,模型推理速度往往会变慢。
那么,LLM 是一切问题的正确选择吗?
这个问题的答案完全取决于你的语言模型的使用情况和你可用的资源。在商业环境中,LLM 可能更适合担任你的呼叫中心和客户支持团队的聊天代理。
在大多数特定于功能的用例中,SLM 可能会表现出色。
考虑医疗、法律和金融领域的用例。这里的每个应用都需要高度专业化和专有的知识。利用这些知识在内部培训 SLM 并对其进行微调以供内部使用,可以作为高度监管和专业化行业中特定领域用例的智能代理。
更多资讯,请访问 2img.ai