【AI热点技术】ChatGPT开源替代品——LLaMA系列之「羊驼家族」

ChatGPT开源替代品——LLaMA系列之「羊驼家族」

  • 1. Alpaca
  • 2. Vicuna
  • 3. Koala
  • 4. ChatLLaMA
  • 5. FreedomGPT
  • 6. ColossalChat
    • 完整的 ChatGPT 克隆解决方案
    • 中英双语训练数据集
    • 完整的RLHF管线
  • 相关链接

现在如果问什么最火,很多人第一反应肯定就是ChatGPT。的确,2023年开年以来AIGC的大火,ChatGPT称为热点话题。那么除了ChatGPT之外,还有没有其他类似的大语言模型呢?本文从一次意外的LLaMA泄漏开始,介绍开源LLM领域最大的创新火花。

LLaMA
与OpenAI推出ChatGPT相对应的,Meta AI(原Facebook)也推出了自己的大语言模型LLaMA 。它有不同的版本,包括7B、13B、33B和65B的参数,虽然它比GPT-3小,但在许多任务上,它都能和GPT-3的性能相媲美。然而,一次意外的泄露,导致LLM领域最大的创新火花。

很短时间内,诞生了基于LLaMA的一系列创新应用,例如Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 。它们统称为「羊驼家族」。

1. Alpaca

Alpaca
Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。更为关键是训练成本奇低,不到600美元。
地址:https://crfm.stanford.edu/2023/03/13/alpaca.html

简介 GPT-3.5(text-davinci-003)、ChatGPT、Claude和Bing Chat等指令遵循模型的功能越来越强大。现在,许多用户定期与这些模型交互,甚至在工作中使用它们。然而,尽管指令遵循模型得到了广泛部署,但仍有许多不足之处:它们会产生虚假信息,传播社会刻板印象,并产生有毒语言。

为了在解决这些紧迫问题方面取得最大进展,学术界的参与至关重要。不幸的是,在学术界对指令遵循模型进行研究一直很困难,因为没有一个易于访问的模型在功能上接近OpenAI的text-davinci-003等闭源模型。

斯坦福大学发布了一个名为Alpaca的指令遵循语言模型的研究结果,该模型是从Meta的LLaMA 7B模型中微调而来的。作者团队在52K指令上训练Alpaca模型,随后使用text-davinci-003以自学风格生成演示。在自我指导的评估集上,Alpaca表现出许多类似于OpenAI的text-davinci-003的行为,但它也出奇地小,易于复制/便宜。

作者团队正在发布我们的训练配方和数据,并打算在未来发布模型权重。他们还举办了一个互动演示,使研究团体能够更好地了解 Alpaca 的行为。交互可以暴露意外的功能和失败,这将指导作者团队以后对这些模型的评估。也鼓励用户在我们的网络演示中报告任何相关的行为,以便能够更好地理解和减轻这些行为。由于任何版本都有风险,将在本文后面讨论这个开放版本的思考过程。

作者强调,Alpaca仅用于学术研究,禁止任何商业用途。这个决定有三个因素:首先,Alpaca是基于LLaMA的,它有非商业许可证,所以必须继承这个决定。其次,指令数据基于OpenAI的text-davinci-003,其使用条款禁止开发与OpenAI竞争的模型。最后,没有设计足够的安全措施,因此Alpaca还没有准备好用于一般用途。

下图说明了作者团队如何获得Alpaca模型。对于数据,通过构建自我教学方法来生成遵循指令的演示。从self-instruct seed set的175个人写的指令输出对开始。然后,提示Text-Davinci-003使用种子集作为文本示例来生成更多说明。通过简化了生成管道(请参阅GitHub中的详细信息),并大大降低了成本,从而改善了自我教学方法。数据生成过程产生了52K唯一的说明和相应的输出,使用OpenAI API售价不到500美元。
Alpaca模型的诞生过程

2. Vicuna

2023年3月底,来自UC伯克利、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员开源了Vicuna,这是一个与GPT-4性能相匹配的LLaMA微调版本。
Vicuna
简介 作者介绍了Vicuna-13B,这是一种由通过微型Llama培训的开源聊天机器人,该聊天机器人是从ShareGpt收集的用户共享对话中的。使用GPT-4作为法官的初步评估显示,Vicuna-13b在90%以上的Openai Chatgpt和Google bard质量中,在超过90%的案例中超过了其他模型,例如Llama和Stanford Alpaca等其他型号。训练Vicuna-13b的成本约为300美元。代码和权重以及在线演示,可公开用于非商业用途。
Chat with Open Large Language Models
Demo
图2 Workflow Overview
上图概述了作者团队的工作。 首先,从 ShareGPT.com 收集了大约 7 万个对话,ShareGPT.com 是一个用户可以分享他们的 ChatGPT 对话的网站。 接下来,增强了 Alpaca 提供的训练脚本,以更好地处理多轮对话和长序列。 训练是在一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。 为了提供演示服务,作者实现了一个轻量级的分布式服务系统。 通过创建一组 80 个不同的问题并利用 GPT-4 来判断模型输出,对模型质量进行了初步评估。 为了比较两个不同的模型,将每个模型的输出组合成每个问题的单个提示。 然后将提示发送到 GPT-4,GPT-4 评估哪个模型提供更好的响应。

3. Koala

UC伯克利 AI Research Institute(BAIR)发布的一个新模型「考拉」(Koala),相比之前使用OpenAI的GPT数据进行指令微调,Koala的不同之处在于使用网络获取的高质量数据进行训练
koala
在这篇文章中,作者介绍了考拉,这是一个聊天机器人,通过对从网络收集的对话数据微调Meta的LLaMA进行训练。作者描述了我们模型的数据集管理和训练过程,并介绍了一项用户研究的结果,该研究将该模型与ChatGPT和斯坦福大学的Alpaca进行了比较。研究结果表明,考拉可以有效地响应各种用户查询,生成的响应通常比羊驼更受欢迎,并且至少在超过一半的情况下与ChatGPT并列。
Klala
作者希望这些结果进一步有助于围绕大型闭源模型相对于小型公共模型的相对性能的讨论。特别是,它表明,足够小的模型可以在本地运行,如果仔细采集数据进行训练,就可以获得它们较大的表兄弟的大部分性能。这可能意味着,例如,社区应该投入更多的精力来管理高质量的数据集,因为这可能比简单地增加现有系统的大小更有助于建立更安全、更实际、更有能力的模型。作者强调,考拉是一个研究原型,虽然希望它的发布将提供一个有价值的社区资源,它仍然在内容,安全性和可靠性方面存在重大缺陷,不应该在研究之外使用。
Online interactive demo

4. ChatLLaMA

Nebuly开源了ChatLLaMA ,这是一个使用让我们使用自己的数据创建对话助手的框架。
ChatLLaMA
ChatLLaMA是一个库,允许您使用自己的数据和尽可能少的计算量创建超个性化的类似ChatGPT的助手。我们不再依赖于一个“统治我们所有人”的大型助手,而是设想未来我们每个人都可以创建自己的个性化版本的类似ChatGPT的助手。想象一下,未来许多处于“edge”的ChatLLaMA将支持人类的各种需求。但是,在“edge”创建个性化助手需要在多个方面进行巨大的优化工作:数据集创建、RLHF的高效训练和推理优化。
ChatLLaMA
这个库旨在简化超个性化ChatLLaMA助理的开发。它的目的是通过抽象计算优化和收集大量数据所需的工作,让开发人员安心。ChatLLaMA旨在帮助开发人员处理各种用例,所有用例都与RLHF训练和优化推理有关。以下是一些用例参考:

  • 为垂直特定任务(法律、医疗、游戏、学术研究等)创建类似ChatGPT的个性化助手;
  • 想在本地硬件基础设施上使用有限的数据,训练一个高效的类似ChatGPT的助手;
  • 想创建自己的个性化版本类ChatGPT助手,同时避免成本失控;
  • 想了解哪种模型架构(LLaMA、OPT、GPTJ等)最符合我在硬件、计算预算和性能方面的要求;
  • 想让助理与我的个人/公司价值观、文化、品牌和宣言保持一致。

5. FreedomGPT

FreedomGPT使用Electron 和 React构建,它是一个桌面应用程序,允许用户在他们的本地机器上运行LLaMA。
FreedomGPT
FreedomGPT的特色,从它的名字上就可见一斑——它回答的问题不受任何审查或安全过滤。这个程序由AI风险投资公司Age of AI开发。FreedomGPT 建立在 Alpaca 之上。FreedomGPT使用Alpaca的显著特征,因为与其他模型相比,Alpaca相对更易于访问和定制。

ChatGPT遵循OpenAI的使用政策,限制仇恨、自残、威胁、暴力、性方面的内容。与ChatGPT不同,FreedomGPT回答问题时没有偏见或偏袒,并且会毫不犹豫地回答有争议或争论性的话题。

FreedomGPT甚至还回答了「如何在家制造炸弹」,而OpenAI专门从GPT-4中删除了这一点。FreedomGPT很独特,因为它克服了审查限制,在没有任何保障的情况下迎合有争议的话题。它的标志是自由女神像,因为这个独特而大胆的大语言模型象征了自由。

FreedomGPT甚至可以在不需要联网的情况下,就能在计算机上本地运行。

6. ColossalChat

Colossal人工智能是基于加州大学伯克利分校杰出教授James Demmel教授和新加坡国立大学总统青年教授Yang You教授的专业知识开发的。自开源发布以来,Colossal AI已多次在GitHub Trending上排名第一,拥有约20000名GitHub stars,并成功被接受为SC、AAAI、PPoPP、CVPR和ISC等国际人工智能和HPC顶级会议的官方教程。

ColossalChat只需要不到100亿个参数就可以达到中英文双语能力,效果与ChatGPT和GPT-3.5相当。此外,基于LLaMA模型的ColossalChat,还复刻了完整的RLHF过程,是目前最接近ChatGPT原始技术路线的开源项目。
https://chat.colossalai.org/

完整的 ChatGPT 克隆解决方案

ColossalChat是第一个基于LLaMA预训练模型开源完整RLHF pipline实现,包括有监督数据收集、有监督微调、奖励模型训练和强化学习微调。可以用1.6GB的GPU内存复制ChatGPT训练过程,并在训练过程中体验7.73倍的加速。它包括以下内容:

  • 演示:一个交互式演示,无需注册或等候名单即可在线试用。
  • 训练代码:开源完整的RLHF训练代码,包括7B和13B模型。
  • 数据集:开源的104K中英文双语数据集。
  • 推理:70 亿参数模型的 4 位量化推理,仅需要 4GB GPU 内存。
  • 模型权重:单台服务器仅需少量算力即可实现快速复现。
  • 其他更大的模型、数据集和其他优化将被快速更新和添加。

虽然 GPT 系列中的模型,例如 ChatGPT 和 GPT-4,非常强大,但它们不太可能完全开源。幸运的是,开源社区一直在努力解决这个问题。
例如,Meta 开源了 LLaMA 模型,它提供的参数大小从 70 亿到 650 亿不等。在大多数基准测试中,一个 130 亿参数的模型可以胜过 1750 亿个 GPT-3 模型。然而,由于它没有指令调整阶段,其实际生成的结果并不令人满意。
Stanford 的 Alpaca 通过调用 OpenAI 的 API 以自我指导的方式生成训练数据。这个轻量级模型只有 70 亿个参数,可以用一小部分成本进行微调,以实现类似于具有 1750 亿个参数的超大型语言模型(如 GPT-3.5)的会话性能。
然而,现有的开源解决方案在 RLHF(人类反馈强化学习)的第一阶段只能被视为有监督的微调模型,而不会执行后续的对齐和微调阶段。此外,Alpaca 的训练数据集仅限于英语,这在一定程度上限制了模型的性能。
然而,ChatGPT 和 GPT-4 令人印象深刻的效果是由于在训练过程中引入了 RLHF,这增加了生成内容与人类价值观的一致性。
RLHF

中英双语训练数据集

ColossalChat发布了一个双语数据集,其中包含大约100,000个中英文问答对。该数据集是从社交媒体平台上的真实问题场景中收集和清理的,作为种子数据集,使用self-instruct进行扩展,标注成本约为900美元。与其他self-instruct方法生成的数据集相比,该数据集包含更真实和多样化的种子数据,涵盖更广泛的主题。该数据集适用于微调和RLHF训练。在提供优质数据的情况下,ColossalChat可以实现更好的对话交互,同时也支持中文。
双语训练数据集

完整的RLHF管线

RLHF 算法复刻涉及三个阶段:

  • 在 RLHF-Stage1 中,使用前面提到的数据集进行监督指令微调以微调模型。
  • 在 RLHF-Stage2 中,通过对同一提示的不同输出手动排序来训练奖励模型分配相应的分数,然后监督奖励模型的训练。
  • 在 RLHF-Stage3 中,使用了强化学习算法,这是训练过程中最复杂的部分:
    RLHF-Stage3
    在PPO部分,ColossalChat遵循两个阶段的流程:首先是make experience阶段,使用SFT(Supervised Fine-Tuning)、Actor、RM(Reward Model)和Critic模型计算生成的体验并存储在buffer中. 然后是参数更新阶段,利用经验计算策略损失和价值损失。

在 PTX 部分,ColossalChat 计算了 Actor 的输出响应与输入语料库的响应部分之间的交叉熵损失。这个loss用于在PPO梯度上加入预训练梯度,以保持语言模型原有的性能,防止遗忘。最后,将策略损失、价值损失和 PTX 损失相加用于反向传播和参数更新。

相关链接

  1. Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality
  2. Koala: A Dialogue Model for Academic Research
  3. ColossalChat:用于克隆 ChatGPT 和完整 RLHF 管道的开源解决方案
  4. ColossalChat:完整RLHF平替ChatGPT的开源方案

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/8965.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【花雕学AI】超级提问模型大全!150个ChatGPT神奇示例,让你的聊天更有趣!

引言 你是否想要成为聊天高手,让你的对话更加有趣和深入?你是否想要掌握一些超级提问模型,让你的聊天更加有创意和挑战?你是否想要借助人工智能的力量,生成一些适合你的超级提问模型? 如果你的答案是肯定…

如何在教育与科研领域使用ChatGPT

ChatGPT提示是您给予ChatGPT的一系列指示,以便它能够按需生成结果。由于ChatGPT是一种会话型人工智能,因此它需要明确的指示才能生成准确的结果。 ChatGPT提示的结构通常是以指令格式呈现的。它看起来像是您在与AI交流,给予它执行特定任务的…

SETalk精彩回顾:ChatGPT对软件工程的新机遇(文末完整视频回看)

以下内容经由SE小助手编辑整理自3月28日SETalk直播间大咖对话:“ChatGPT对软件工程的新机遇”线上沙龙访谈,内容很干货,万字长文,建议收藏和分享给更多关注同学一起来看。点击关注公众号持续获得最新资讯。 正式开场前&#xff0c…

ChatGPT一出,软件工程师先丢饭碗?

【导读】ChatGPT一出,很多人害怕自己的工作会被AI取代。最近,有外媒盘点了最可能被ChatGPT取代10大高危职位。 自从2022年11月发布以来,OpenAI的ChatGPT已经被用来写求职信,创作儿童读物,甚至帮助学生作弊。 聊天机器人…

SETalk精彩回顾:ChatGPT对软件工程的新机遇

以下内容经由SE小助手编辑整理自3月28日SETalk直播间大咖对话:“ChatGPT对软件工程的新机遇”线上沙龙访谈,内容很干货,万字长文,建议收藏和分享给更多关注同学一起来看。点击关注公众号持续获得最新资讯。 正式开场前&#xff0c…

通俗易懂的LLM

目录 前言一、Tuning1、Fine-Tuning(微调)2、Prompt-Tuning(提示微调)2.1 In-context learning(上下文学习)2.2 Pattern-Verbalizer-Pair(PVP)2.3 Prompt-Tuning2.4 Prompt-Tuning v…

android 总结

目录 一.什么是android 二、Android 的学习路线 三.android的安装 四.android的环境与配置 1.JDK的下载 2.SDK 3.虚拟机的下载安装 4.虚拟机的大小及版本 五.Fragment的使用 1.定义 Fragment 类 2.在 Activity 中添加 Fragment 3.在 XML 布局文件中添加 Frag…

语法型中文文本纠错方案探索

现在NLP的文本纠错还是以纠正拼写错误为主,本文章会对比几个具备语法纠错能力的中文模型,探索其在实际应用中的效果会如何。 参与比对的模型或服务: Hanlp2.0文本纠错功能 百度智能云高级纠错功能(其实还测过ModelScope的BERT…

相比ChatGPT一样智能的体感螺丝刀

外观精致,上手使用感良好 很惊喜的拿到了MINIWARE ES15体感电动螺丝刀 老久老久之前就关注了这款科技感十足的体感电动螺丝刀 包装简约精致环保,但里面的东西一点不简单 靓银色的304不锈钢材质,上手强烈的金属触感,不粘指纹 还…

WPF面试题-来自ChatGPT的解答

问题来自【愚公系列】2023年07月 WPF控件专题 2023秋招WPF高频面试题[1],回答站长通过ChatGPT重新整理,可对比两者区别学习、整理。 文章目录 入门篇[2] 谈谈什么是WPF?说说WPF中的XAML是什么?为什么需要它?它只存在于…

CUBA Platform 6.3的新增功能

我们很自豪地宣布新版本的CUBA平台和Studio全面上市! 也许这是有史以来功能最丰富的平台版本之一–在各个级别都有重要的变化:体系结构,可扩展性,API可用性和性能。 本文介绍了该平台的主要增强功能。 发行说明中提供了完整的更…

53岁周鸿祎考上清华博士;图灵奖得主杨立昆炮轰ChatGPT:五年内就没人用了;Red Hat恪守对开源的承诺|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

ChatGLM-6B的基座/部署/微调/实现:从GLM到6B的LoRA/P-Tuning微调、及6B源码解读

前言 随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出,绝大部分公司的技术 产品 服务,以及绝大部分人的工作都将被革新一遍 类似iPhone的诞生 大家面向iOS编程 有了App Store现在有了ChatGPT插件/GPT应用商店&#xff…

53岁周鸿祎考上清华博士;图灵奖得主杨立昆炮轰ChatGPT:五年内就没人用了;Red Hat恪守对开源的承诺|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

爆 ChatGPT 大规模封号亚洲节点,并停止注册;Google 否认 Bard 窃取 ChatGPT 数据进行训练|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

ChatGLM2发布,位居C-Eval榜首!

文章目录 中文大语言模型评估基准:C-EVALChatGLM2-6B部署推理环境配置模型下载git-lfs安装 代码调用基于gradio的网页版Demo显存占用情况数理逻辑 推理性能显存占用的减少量化对模型性能的影响 基于 P-Tuning v2 的微调(官方)环境配置微调数据…

最新ChatGPT GPT-4 文本推理技术详解(附ipynb与python源码及视频讲解)——开源DataWhale发布入门ChatGPT技术新手从0到1必备使用指南手册(二)

目录 前言最新ChatGPT GPT-4 文本推理技术详解1. 什么是推理(Reasoning)?2. 导入ChatGPT3. 测试ChatGPT的推理能力3.1 演绎推理(Deductive Reasoning)3.2 归纳推理(Inductive Reasoning)3.3 溯因…

火狐Merlin插件要登录谷歌账号

这个怎么破 谷歌又用不了

Edge 浏览器:隐藏功能揭秘与高效插件推荐

文章目录 一、前言二、Edge 的各种奇淫巧计2.1 开启 Edge 分屏功能2.2 启动 Edge 浏览器后直接恢复上次关闭前的页面2.3 解决 Edge 浏览器无法同步账号内容2.4 开启垂直标签页(推荐)2.5 设置标签分组(推荐)2.6 设置标签睡眠时间&a…

chatgpt注册报错:Oops!The email you provided is not supported. 根本原因是邮箱无效

如图所示,很多朋友在注册chatGPT是都会遇到这样的问题,显而易见就是邮箱不支持,openai为了保证数据安全限制了一些邮箱的注册。 目前已经知道的不再支持注册的有: QQ邮箱 163邮箱 微软邮箱 谷歌邮箱 CN结尾的邮箱都不支持 火…