ChatGPT类模型汇总


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

ChatGPT类模型

(封面图由文心一格生成)

ChatGPT类模型汇总

当今的自然语言处理领域,基于Transformer架构的大型语言模型(LLM)成为了研究的热点,其中ChatGPT类模型更是备受关注。这类模型以OpenAI GPT系列模型为代表,具有无监督预训练和有监督微调的能力,可以为对话系统、问答系统等任务提供强大的语言生成和理解能力。本篇博客将对当前较为知名的ChatGPT类模型进行汇总,从模型结构、训练数据、微调效果等方面进行比较和介绍,旨在为研究者和开发者提供参考和帮助。

OPT

OPT 是由 Meta AI 研究人员发布的一系列大规模预训练语言模型,模型包括125M、350M、1.3B、2.7B、6.7B、13B、30B、66B、175B 9个不同的参数规模和版本,除了 175B 的版本需要填写申请获取外,其它规模版本的模型都完全开放下载,可以免费获得。OPT-175B 和 GPT-3 的性能相当,并且部署只需要损耗 GPT-3 1/7 的能量损耗。OPT 系列模型开源的目的是为促进学术研究和交流,因为绝大多数大语言模型训练成本高昂,导致大部分研究人员都无法负担大语言模型的训练或使用;同时,各大企业发布的大语言预训练模型由于商业目的也都无法完整访问模型权重,只能通过 API 调用获取结果,阻碍了学术的交流与研究。
github链接:https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

LLaMA

LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。

这项工作重点关注使用比通常更多的 tokens 训练一系列语言模型,在不同的推理预算下实现最佳的性能,也就是说在相对较小的模型上使用大规模数据集训练并达到较好性能。Chinchilla 论文中推荐在 200B 的 tokens 上训练 10B 规模的模型,而 LLaMA 使用了 1.4T tokens 训练 7B的模型,增大 tokens 规模,模型的性能仍在持续上升。
github链接:https://github.com/facebookresearch/llama

BLOOM

BLOOM 是 BigScience(一个围绕研究和创建超大型语言模型的开放协作研讨会)中数百名研究人员合作设计和构建的 176B 参数开源大语言模型,同时,还开源了BLOOM-560M、BLOOM-1.1B、BLOOM-1.7B、BLOOM-3B、BLOOM-7.1B 其他五个参数规模相对较小的模型。BLOOM 是一种 decoder-only 的 Transformer 语言模型,它是在 ROOTS 语料库上训练的,该数据集包含 46 种自然语言和 13 种编程语言(总共 59 种)的数百个数据来源。 实验证明 BLOOM 在各种基准测试中都取得了有竞争力的表现,在经过多任务提示微调后取得了更好的结果。BLOOM 的研究旨在针对当前大多数 LLM 由资源丰富的组织开发并且不向公众公开的问题,研制开源 LLM 以促进未来使用 LLM 的研究和应用。
huggingface链接:https://huggingface.co/bigscience/bloom

Flan-PaLM

Flan-PaLM 540B在几个基准测试中实现了最先进的性能,例如在五次训练下,MMLU达到了75.2%。我们还公开发布了Flan-T5检查点,1即使与PaLM 62B等更大的模型相比,也实现了强大的少量训练性能。总体而言,指令微调是一种通用方法,可以提高预训练语言模型的性能和可用性。

github链接:https://huggingface.co/google/flan-t5-xxl

Cerebras-GPT-13B

Cerebras-GPT是一个由Cerebras公司推出的大型语言模型家族,旨在通过开放式架构和数据集,以及展示在Cerebras软件和硬件堆栈上训练大型语言模型的简单性和可扩展性,促进LLM缩放定律的研究。所有Cerebras-GPT模型都可在Hugging Face上获取。

github链接:https://huggingface.co/cerebras/Cerebras-GPT-13B
相关介绍:https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/

Flan-UL2

Flan-UL2是基于T5架构的编码器解码器模型,使用了去年早些时候发布的UL2模型相同的配置。它使用了“Flan”提示微调和数据集收集进行微调。

原始的UL2模型只使用了512的感受野,这使得它对于N-shot提示,其中N很大,不是理想的选择。
Flan-UL2 checkpoint使用2048的感受野,使其更适用于少量的上下文学习。
原始的UL2模型还有一些模式切换标记,这对于获得良好性能是相当必要的。然而,它们有点繁琐,因为这在推理或微调过程中经常需要一些更改。在这次更新/更改中,我们继续训练UL2 20B进行额外的100k步(使用小批量)来忘记“模式标记”,然后应用Flan指令微调。这个Flan-UL2检查点不再需要模式标记了。

github链接:https://huggingface.co/google/flan-ul2

LMFlow

LMFlow是一个可扩展、方便、高效的工具箱,用于微调大型机器学习模型,旨在提供用户友好、快速、可靠且对整个社区开放的服务。该工具箱提供了在线服务、Colab聊天机器人(shell和web)、本地部署等四种演示。其中在线服务提供了预训练好的模型供用户试用,Colab聊天机器人提供了两种交互式机器人,可轻松在Colab上部署。此外,如果用户资源充足,还可以使用本地部署方式部署更大的模型。需要注意的是,该工具箱并不保证数据和预训练模型的准确性、完整性、适用性或合法性,用户必须对其自身使用行为承担所有责任和风险,并在使用前获得法律、商业和技术咨询。工具箱不对用户不当数据准备和预训练模型而导致的任何直接、间接、特殊、偶然或后果性损害负责。此外,提供的检查点仅供研究目的使用,不鼓励或支持商业用途。用户应该保证正确和适当地使用这些检查点,使用过程中产生的任何风险和责任需自行承担。模型生成的结果基于概率模型,与LMFlow工具箱无直接关联。因此,用户需要对模型生成的结果自行承担风险和责任,并在依赖模型生成的结果前获得法律、商业和技术咨询。工具箱不对用户依赖模型生成的结果而导致的任何直接、间接、特殊、偶然或后果性损害负责。
github链接:https://github.com/OptimalScale/LMFlow

ChatGLM

ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答,更多信息请参考我们的博客。

为了方便下游开发者针对自己的应用场景定制模型,我们同时实现了基于 P-Tuning v2 的高效参数微调方法 (使用指南) ,INT4 量化级别下最低只需 7GB 显存即可启动微调。

不过,由于 ChatGLM-6B 的规模较小,目前已知其具有相当多的局限性,如事实性/数学逻辑错误,可能生成有害/有偏见内容,较弱的上下文能力,自我认知混乱,以及对英文指示生成与中文指示完全矛盾的内容。请大家在使用前了解这些问题,以免产生误解。更大的基于 1300 亿参数 GLM-130B 的 ChatGLM 正在内测开发中。

github链接:https://github.com/THUDM/ChatGLM-6B

Alpaca

Alpaca是一个基于LLaMA预训练模型,使用Self-Instruct技术生成的5.2万条指令跟随数据进行微调的聊天机器人模型。在初步的人类评估中,Alpaca 7B模型的表现与Self-Instruct指令跟随评估套件上的text-davinci-003模型相似。

Alpaca仍在不断发展中,还有许多需要解决的限制。重要的是,我们尚未对Alpaca模型进行安全和无害微调。因此,我们鼓励用户在与Alpaca交互时要保持谨慎,并报告任何有关行为,以帮助改进模型的安全和道德考虑。

github链接:https://github.com/tatsu-lab/stanford_alpaca


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/1331.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

训练自己的ChatGPT 语言模型(一).md

0x00 Background 为什么研究这个? ChatGPT在国内外都受到了广泛关注,很多高校、研究机构和企业都计划推出类似的模型。然而,ChatGPT并没有开源,且复现难度非常大,即使到现在,没有任何单位或企业能够完全复…

chatgpt4模型介绍

在当今信息爆炸的时代,人们越来越多地依赖计算机和互联网与他人进行交流。然而,传统的计算机交互方式常常显得呆板和不自然,难以满足人们对于智能、自然对话的需求。为了解决这一问题,OpenAI推出了ChatGPT,这是一种能够…

ChatGPT模型采样算法详解

ChatGPT模型采样算法详解 ChatGPT所使用的模型——GPT(Generative Pre-trained Transformer)模型有几个参数,理解它们对文本生成任务至关重要。其中最重要的一组参数是temperature和top_p。二者控制两种不同的采样技术,用于因果…

ChatGPT探索系列之二:学习GPT模型系列的发展历程和原理

文章目录 前言一、GPT的起源GPT系列 二、GPT的原理1. GPT原理:自注意2. GPT原理:位置编码3. GPT原理:Masked Language Modeling4. GPT原理:预训练5. GPT原理:微调6. GPT原理:多任务学习 三、GPT模型的风险与…

一文读懂chatGPT模型原理(无公式)

每天给你送来NLP技术干货! 来自:JioNLP 点击这里进群—>加入NLP交流群 (本文是chatGPT原理介绍,但没有任何数学公式,可以放心食用) 前言 这两天,chatGPT模型真可谓称得上是狂拽酷炫D炸天的存…

LeCun:ChatGPT无法实现通用人工智能,但ALM技术路线可以!

文 | 天于刀刀 ChatGPT 将加速通用人工智能的实现。—— 邱锡鹏 在上周刚刚结束的 2023 全球人工智能开发者先锋大会(GAIDC)上,作者有幸亲身参与大模型技术与应用分论坛,并在现场聆听了来自业界和学界一众大佬的精彩讲座。 在会上…

chatgpt的历史问答记录消失的解决之道

刚刚使用发现我的历史会话记录都没有了,我旁边的一个朋友也没有了。 网上查了一下,很多网友,居然也没有历史记录了。 这是故意而为之,还是误操作删除记录,更有可能是不是装了插件引起的。无意当中发现了一个方法&…

ChatGPT报错解决

背景:登录后无法正常交流,报错内容为: Something went wrong. If this issue persists please contact us through our help center at help.openai.com 如图所示: 解决方法: 1. 不关闭代理的情况下Log out再Log in&a…

chatGPT Access denied访问被拒绝(已解决)

这个网站可以直接进入ai聊天,但是功能只有语言模块,我试用了一下作为文字训练可以使用。ChatGPT Online - AI Chat GPThttps://chatgpt.org/chat 然后是网站尚Access denied 解决办法 首先要使用海外的原生IP进行全局代理,不要使用各大云平…

这20种职业ChatGPT无法取代!

李开发在《AI未来进行式》一书中分析了AI存在明显不足的三大短板,即便到了2042年,AI可能仍然无法完全掌握这些能力。 第一、创造力。AI不具备进行创造、构思以及战略性规划的能力。尽管AI非常擅长针对单一领域的任务进行优化,使目标函数达到最…

聊聊ChatGPT无法取代的7个工作

ChatGPT——全世界都在谈论的非常流行的人工智能工具。自从 2022 年 11 月 30 日推出以来,ChatGPT 就被证明是执行复杂任务并简化它们的一体式工具。无论是通过 UPenn 的沃顿商学院 MBA 考试,撰写常春藤盟校入学论文,还是完成简单的任务&…

OpenAI 宣布部分解除 ChatGPT 无法联网限制,引入插件策略,会带来什么变化?

OpenAI 发布 ChatGPT Plugins (ChatGPT 插件集) 昨天凌晨,OpenAI 发布 ChatGPT Plugins (ChatGPT 插件集),它能将 ChatGPT 连接到第三方应用程序) 这是 AI 的 App Store 时刻,AI 经历了「iPhone」时刻后,如今也有了应用商店。 这…

我破除了 ChatGPT 无法联网的魔咒!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 前阵子我写过一篇文章,介绍了几种无需安装 ChatGPT Plugin,即可让其轻松破除无法联网的魔咒。 最近看到不少同学对此感兴趣,因此我把这几个方案汇总完善…

解决ChatGPT 总是打不开,显示不可用,网站崩溃,聊几句话就报错,plus会员无法升级始终不成功的问题

为什么你的chat gpt总是打不开,显示不可用,网站崩溃,聊几句话就报错,plus会员无法升级始终不成功? 首先第一个问题open ai服务不可用 那么这个问题很显然,你所在的位置不提供chat gpT的服务,解…

ChatGPT - 根据写作进行调整,总结长文并加速学习

文章目录 Prompt Prompt “将以下文本总结为500字或更少。为每个重要点创建部分,并简要总结该点。” [文本]

ACL2023论文写作竟允许使用ChatGPT 了!

文|HFL源|HFL实验室 随着以ChatGPT为代表的生成式AI的火热,近期人工智能领域的顶级会议相继推出相关政策以进一步规范这类工具在科学文献撰写中的使用。ACL 2023程序委员会主席在近期的一篇博客中披露了ACL 2023大会的相关政策。 原文&#x…

首篇ChatGPT辅助写作的论文,已在arXiv发表!

编|LRS源|新智元 虽然ChatGPT写的论文错误太多,但掠夺性期刊应该会接收。(错误尝试!!) ChatGPT以其强大的文本创作能力,直接问鼎地表最强问答模型。 但强大的AI也会带来一些负面影响…

ChatGpt结合Google文档完成自动化写作流程--1

GPT机器人可以通过API连接谷歌文档,让我们进行文字创作和编辑。可以通过它,提供写作思路,创建标题,起草文章介绍和大纲,编写段落,最后总结全文。同时,在一篇文章里,还能帮我们插入图…

使用ChatGPT最新版实现批量写作,打造丰富多彩的聚合文章

随着人工智能的迅猛发展,ChatGPT最新版作为一种自然语言处理模型,可以为我们提供强大的文本生成能力。在这篇文章中,我们将探讨如何利用ChatGPT最新版来实现批量写作,从而打造丰富多彩的聚合文章。 一、ChatGPT最新版简介 Chat…