文言一心,ChatGLM-6B和ChatGPT等模型概述

原文首发于博客文章大语言模型概况

定义

(个人理解的)大语言模型(Large Language Model)是一种基于深度学习技术的自然语言处理通用模型,它可以通过学习大规模文本数据的模式和规律,从而实现对自然语言的理解和生成。通用型:在广泛的任务中表现出色,而不是针对一项特定任务,规模大:参数数量在数十亿或更多数量级的深度学习模型。

大模型在 NLP 任务中的出色表现确实为人工智能领域带来了新的发展和探索方向。语言作为思想的符号,是人类交流和表达的主要方式,因此理解和生成自然语言是通往通用人工智能(AGI)之路的一个重要方向。大模型的出现和不断优化,使得计算机能够更好地理解自然语言的含义和上下文,进而提供更准确、更自然的语言交互和信息处理。然而,要实现真正的通用人工智能,还需要解决许多挑战和问题,例如:如何将机器学习模型从“短期记忆”转变为“长期记忆”,如何让机器具备更深入的理解和推理能力,以及如何解决数据隐私和安全等问题。

关键概念说明

  • Transformer 架构:Transformer 是 Google 于 2017 年提出的一种全新的神经网络架构,主要用于自然语言处理。它抛弃了 RNN 和 CNN,而是引入了注意力机制,实现 Encoder-Decoder 架构。Transformer 结构清晰,计算效率高,并可以进行并行计算,这使其在 NLP 任务上表现优异。

  • 编码器模型:Encoder 用于理解输入的句子表达,输出向量表示输入句子的特征信息,例如输入“I love NLP”,输出[0.1, 0.2, 0.3, 0.4]

  • 解码器模型:Decoder 则基于 Encoder 的输出以及自身的上下文信息生成输出句子。例如输入[0.1, 0.2, 0.3, 0.4],输出”I love machine learning“。编码器和解码器通过注意力机制交互。

  • 注意力机制:下面的例子演示了编码器和解码器通过注意力机制的交互过程,在这个过程中,编码器输出一次编码向量,代表输入句子信息。解码器每生成一个词,就会查询一次编码器的输出。并生成注意力分布,指出当前最重要的编码器输出内容。解码器结合注意力信息和自己的上下文,产生新的预测词。解码器每预测一个词,就将其加入到上下文,用于生成下个词。这个动态查询-生成的过程,就是编码器和解码器通过注意力机制进行交互。

    输入句子:I love NLP。编码器:
    输入:I love NLP。
    输出:向量[0.1, 0.2, 0.3, 0.4] 表示输入句子的特征信息。解码器:
    输入:[0.1, 0.2, 0.3, 0.4]  
    输出:I 
    (此时解码器只生成了第一个词 I,将其作为上下文信息。)注意力:解码器的注意力机制会查询编码器的输出[0.1, 0.2, 0.3, 0.4],并生成注意力分布[0.6, 0.2, 0.1, 0.1],表示解码器当前更关注编码器第1个输出元素。解码器:
    输入:[0.1, 0.2, 0.3, 0.4],[0.6, 0.2, 0.1, 0.1]  
    上下文:I
    输出:love  
    (解码器利用注意力分布所强调的编码器输出信息,以及自己的上下文I,生成love为当前最佳输出。)
    .....
    解码器最终生成:I love machine learning。
    
  • 自回归模型:Transformer 的 Decoder 需要每步生成一个词元,并将当前生成的词元信息加入到上下文中,用于生成下一个词元,例如模型输入“I love”,输出“I love NLP”,然后基于“I love NLP”生成“I love natural language processing”,每一步都基于前面生成的内容生成新的输出,这一生成策略被称为自回归(Auto-regressive)。典型的 autoregressive 模型有 GPT-2、GPT-3 等。

  • 掩码模型:掩码语言模型(MLM)需要对输入文本中的一些词元进行掩码,然后训练模型基于上下文来预测被掩码的词元,例如输入句子“I love [MASK] learning”,输出“I love machine learning”,模型需要填充[MASK]来预测掩码词,实现对上下文的理解。BERT 就是一种典型的掩码语言模型。

发展

大语言模型进化树追溯了 LLM 的发展历程,重点统计了相对知名的模型,同一分支上的模型关系更近。不基于 Transformer 的模型用灰色表示,decoder-only模型是蓝色分支,encoder-only模型是粉色分支,encoder-decoder模型是绿色分支。模型在时间轴的竖直位置表示其发布时间。实心方块表示开源模型,空心方块则是闭源模型。右下角的堆积条形图是指各家公司和机构的模型数量。

大语言模型进化树

encoder-only 模型

掩码语言模型是一种常用的训练方法,它基于上下文来预测句子中被遮掩的词,使得模型能够更深刻地理解词与其上下文之间的关系。这些模型使用 Transformer 架构等技术在大型文本语料上训练,并在许多 NLP 任务中取得了最佳表现,如情感分析和命名实体识别。著名的掩码语言模型有 BERT、RoBERTa 和 T5。由于其在多种任务上的成功表现,掩码语言模型已成为自然语言处理领域的一种重要工具,但这些方法需要基于具体下游任务的数据集进行微调。在 LLM 的早期发展阶段,BERT 为仅编码器模型带来了初始的爆发式增长。(BERT主要用于自然语言理解任务:双向预训练语言模型+fine-tuning(微调))

decoder-only 模型

扩增语言模型的规模就能显著提升其在少样本或零样本时的表现,最成功的模型是自回归语言模型,它的训练方式是根据给定序列中前面的词来生成下一个词。这些模型已被广泛用于文本生成和问答等下游任务。自回归语言模型包括 GPT-3、PaLM 和 BLOOM。变革性的 GPT-3 首次表明通过提示和上下文学习能在少 / 零样本时给出合理结果,并由此展现了自回归语言模型的优越性。另外还有针对具体任务优化的模型,比如用于代码生成的 CodeX 以及用于金融领域的 BloombergGPT。在 2021 年GPT-3 的出现之后,仅解码器模型经历了爆发式的发展,仅编码器模型却渐渐淡出了视野。(GPT主要用于自然语言生成任务:自回归预训练语言模型+Prompting(指示/提示))

适用方向

  • 自然语言理解:当实际数据不在训练数据的分布范围内或训练数据非常少时,可利用 LLM 那出色的泛化能力。
  • 自然语言生成:使用 LLM 的能力为各种应用创造连贯的、上下文相关的和高质量的文本。
  • 知识密集型任务:利用 LLM 中存储的广博知识来处理需要特定专业知识或一般性世界知识的任务。
  • 推理能力:理解和利用 LLM 的推理能力来提升各种情形中制定决策和解决问题的能力。

参考链接

  1. 大型语言模型的实用指南:如果想了解在自己的业务中使用大语言模型,这里是一些最佳实践

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/12866.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Axure页面设置管理灰色,无法设置怎么办?

我昨天在知乎上找到AxurePR9以及对应的安装包,但是安装完后发现【项目】选项卡下面的页面样式管理器是灰色的,无法设置相关的参数。但是我把原来的软件给删掉了,没有截图保存。 后面我找到了一个方法,大家可以参照一下&#xff1…

错过了前三次的伟大革命(蒸汽机革命、电气革命、信息革命),GPT-4 你还要错过人工智能AI革命吗!!!

错过了前三次的伟大革命(蒸汽机革命、电气革命、信息革命),GPT-4 你还要错过人工智能AI革命吗!!! 看 GPT-4 是如何炼成绝世神功:葵花宝典? 欲练神功,不必自宫。西方不败—…

最贵的教育方式有望普及了

我们要学习的知识是一张网,这张网上每个节点都是知识点,知识点之间彼此关联。 在学习这个主题之前,张大胖可能已经掌握了A和D 而何小痩已经掌握了I和J 而一个教程/文章可能只涵盖了这些: 所以张大胖在看文章过程中,遇到…

【GPT-4】免费开源的 MiniGPT-4 —— 提供类似 GPT-4 的图像理解与对话能力,让你先人一步感受到图像对话的强大之处。

GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平”,OpenAI 表示。 OpenAI 联合创始人Sam Altman 表示,它是“迄今为止功能最强大、最一致的模型”,能够使用图像和文本。…

2023异想大会|星尘数据CEO章磊:懒惰是第一生产力,ChatGPT给了我们一个懒惰的机会

5月18日,由《财经天下》、「市界」、《博客天下》联合举办的2023年异想大会在北京召开,大会以“想象创未来”为主题,邀请来自各领域的多名企业家、专家,探索下一个能够改变商业世界的“异想”。 在大会“天工开物——人工智能劈开…

对OpenAI重拳出击!美国政府出手「开源」ChatGPT,Altman惊慌连发3推

FTC突然对OpenAI展开调查,Altman连发3推澄清。FTC对阵OpenAI的大戏正缓缓拉开帷幕。 重磅!美国联邦贸易委员会的调查说来就来! 调查对象不是别人,正是风头正旺的OpenAI。 一封长达20页的调查要求书直接给了Sam Altman当头棒喝。…

【NLP】GPT-4 和 ChatGPT 要点

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

关于GPT-3和GPT-4,你需要知道都在这里

友情提示 提示:本文约3500个文字,字数较长,可直接点击序号进入相关目录阅读字数 文章目录 友情提示前言一、什么是 GPT-3、GPT-4 和 ChatGPT?二、对未来的担忧三、什么时候可以用GPT4?四、GPT-4用在什么地方五、GPT-4能…

OpenAI被曝要搞「App Store」,专卖ChatGPT应用,网友:快搭生态,让苹果微软靠边站...

丰色 发自 凹非寺量子位 | 公众号 QbitAI OpenAI被曝还要再搞一个App Store!‍‍‍‍‍‍‍‍ 这次不是插件商店这样的“小打小闹”,而是真正的大模型超市。‍‍‍‍‍ 据The Information消息,OpenAI将与第三方合作,将他们定制的垂…

OpenAI放大招!推出史上最强「模型商店」,打通所有ChatGPT应用

来源:新智元 OpenAI又双叒叕放大招了! 简单来说,Sam Altman打算把市面上的大模型拉一个平台,搞一个LLM版的App Store。 这样一来,AI模型的生态直接就给OpenAI抢完了。 这个平台属于是双向对接——开发者可以将根据自己…

【GPT-4 ChatGPT】第 1 章 :GPT-4 和 ChatGPT 基础知识

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

【ChatGPT】我们的 AI 安全方法 | Our approach to AI safety

【ChatGPT】我们的 AI 安全方法 | Our approach to AI safety 我们的 AI 安全方法 | Our approach to AI safetyBuilding increasingly safe AI systems | 构建越来越安全的人工智能系统Learning from real-world use to improve safeguards | 从实际使用中学习以改进保障措施P…

Web3中文|GPT-4超越GPT-3.5的五大看点

A Beautiful Cinderella Dwelling Eagerly Finally Gains Happiness Inspiring Jealous Kin Love Magically Nurtures Opulent Prince Quietly Rescues Slipper Triumphs Uniting Very Wondrously Xenial Youth Zealously 这是一段描述童话故事《灰姑娘》的内容,它出…

【让你惊呼的“神器”,ChatGPT inside】

让你惊呼的“神器”,ChatGPT inside ChatGPT 的横空出世,已经搅动了整个科技圈。而它给自然语言处理领域带来的革命性变革,也为很多初创公司和开发者打开了新世界的大门。 在过去,自然语言处理技术通常只被各大科技巨头藏私&…

如何更好的向ChatGPT提问以及应用场景探索

ChatGPT已经慢慢发展成为了一个生态,先前ChatGPT是不联网的,然而现在ChatGPT已经可以安装商店应用,可以让ChatGPT帮你安排行程订酒店等等,未来肯定接入更多应用,比如手机助手,智能音箱,电子宠物…

可汗学院创始人:GPT-4 将如何改变教育行业?

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 当你想了解 AI 将如何冲击某一个行业时,最好的做法就是去观察、了解该行业大佬的观点以及实践。 萨尔曼可汗,全球知名在线教育网站可汗学院创始人,毕业于…

chatgpt(0)-pycharm-vscode安装使用插件Codeium-bito

1. pycharmcodeium 下载插件 codeium 登录: 一直出现:Log In | Codeium Free AI Code Completion & Chat 2.pycharmbito 3.vscodebito: 下载安装 注册登录 创建工作区使用 示例: copilot 一直未用起来过。

在 Visual Studio 2022 中使用 GitHub Copilot chat

本文通过实际应用场景和示例代码展示了 GitHub Copilot Chat 在 Visual Studio 2022 中的优势和特点。最后,鼓励读者在实际工作中尝试使用 Copilot Chat,以提升开发效率和代码质量。希望这些信息和经验能为你在使用GitHub Copilot时提供帮助和启发。 文章…

我做了一个 VSCode 插件版的 ChatGPT

其实很早之前就想学学 VSCode 插件开发了,但是又不知道做什么,加上我这半吊子前端水平,迟迟没有动手。 最近 ChatGPT 火的一塌糊涂,我也一直在用,真的非常好用,有些问题之前需要 Google 搜索,现…

ubuntu+vscode+chatGPT踩坑总结

最近在linux上用Vscode跑jupyter notebook(windows调试环境搞得祭了,Vscode死活连接不上jupyter的server),从装vscode到使用chatGPT插件总结如下: 1.proxy问题,伴随整个过程。首先是安装结束后&#xff0c…