优雅码住!ChatGPT的五大开源替代方案

自去年11月发布以来,ChatGPT吸引了全球各行业人士的注意力和想象力。人们将它用于各种任务和应用程序,而且它有可能改变流行的应用程序并创建新的应用程序。

但ChatGPT也引发了微软和谷歌等科技巨头之间的人工智能竞赛,使得该行业在大型语言模型(LLM)上的竞争更加激烈,并越来越降低了开放性。这些遵循指令的LLM的源代码、模型架构、权重和训练数据不对公众开放。它们中的大多数都可以通过商业API或黑盒网络应用程序获得。

ChatGPT、Bard和Claude等封闭式LLM有很多优势,包括容易获得尖端技术。但它们也对想要学习和更好地理解LLM的研究实验室和科学家带来了一些限制。对于想要创建和运行自己的模型的企业和组织来说,也很不方便。

幸运的是,在创建商业LLM的竞赛中,也有一个社区努力创建与最先进的LLM性能相匹配的开源模型。这些模型可以通过分享结果来帮助改进研究。他们还可以帮助防止一些资金充足的企业对LLM市场拥有太多的影响和权力。

LLaMa

最重要的开源语言模型之一来自Meta公司的人工智能研究实验室FAIR。今年2月,FAIR发布了LLaMA,这是一个LLM家族,有四种不同的大小:7亿个、13亿个、33亿个和650亿个参数(ChatGPT基于1750亿参数的InstructGPT模型)。

FAIR研究人员对1.4万亿令牌的LLaMA 65B和LLaMA 33B进行了训练,对1万亿令牌的最小模型LLaMA 7B进行了训练(GPT-3 175B是InstructGPT的基本模型,在4990亿个令牌上进行了训练)。

LLaMa不像ChatGPT那样是一个遵循指令的LLM。但LLaMA规模较小背后的想法是,在更多令牌上预训练的较小模型更容易重新训练,并更容易针对特定任务和用例进行微调。这使得其他研究人员可以通过人类反馈强化学习(RLHF)等技术对模型进行微调,使其具有类似ChatGPT的性能。

Meta公司以“专注于研究用例的非商业许可”发布了该模型。它只让学术研究人员、政府附属组织、民间社会和研究实验室根据具体情况访问该模型。人们为了了解可以查阅一些论文,并请求访问训练过的模型。

LLaMa模型在发布后不久就被泄露到网上,这实际上让所有人都可以使用它。

Alpaca

斯坦福大学的研究人员在今年3月发布了Alpaca,这是一种基于LLaMA 7B LLM之后的指令。他们在由InstructGPT生成的52,000个指令遵循示例的数据集上对LLaMA模型进行了微调。

研究人员使用了一种叫做自我指导的技术,在这种技术中,LLM生成指令、输入和输出样本来微调自己。自我指导从一小部分工作人员编写的例子开始,包括指导和输出。研究人员使用这些例子来提示语言模型生成类似的例子。然后他们审查和过滤生成的示例,将高质量的输出添加到种子池中,并删除其余的输出。他们重复这个过程,直到获得足够大的数据集来微调目标模型。

Alpaca的训练流程:

根据他们的初步实验,Alpaca的表现与InstructGPT非常相似。

斯坦福大学的研究人员发布了整个自我指导的数据集,数据生成过程的细节,以及生成数据和微调模型的代码(由于Alpaca是基于LLaMA的,必须从Meta公司获取原始模型)。

其研究人员表示,其样品生成的微调成本不到600美元,这对于资金紧张的实验室和组织来说很适用。

然而,研究人员强调,Alpaca仅用于学术研究,禁止用于任何商业用途。它是由LLaMa创建的,这使得它受到与其基本模型相同的许可规则的约束。由于研究人员使用了InstructGPT来生成微调数据,因此他们必须遵守OpenAI公司的使用条款,该条款禁止开发与OpenAI公司竞争的模型。

Vicuna

加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员发布了Vicuna,这是基于LLaMA的遵循指令的另一个LLM。Vicuna有70亿个和130亿个参数的两种大小。

研究人员使用Vicuna的训练代码和ShareGPT上的7万个例子对Vicuna进行了微调。ShareGPT是一个用户可以与ChatGPT分享对话的网站。他们对训练过程做了一些改进,以支持更长的对话场景。他们还使用了SkyPilot机器学习工作量管理器,将训练成本从500美元降至140美元左右。

Vicuna的LLM训练流程:

初步评估表明,Vicuna的表现优于LLaMA和Alpaca,也非常接近Bard和ChatGPT-4。研究人员发布了模型权重以及安装、训练和运行LLM的完整框架。还有一个非常有趣的在线演示,用户可以在其中测试和比较Vicuna与其他开源指令LLM。

Vicuna的在线演示是“仅供非商业用途的研究预览”。用户要运行自己的模型,必须首先从Meta获取LLaMA实例并对其应用权重增量。

Dolly

Databricks公司在今年3月发布了Dolly,这是EleutherAI的GPT-J 6B的微调版本。研究人员受到LLaMA和Alpaca研究团队所做工作的启发。训练Dolly的费用不到30美元,只需在一台计算机上花费30分钟训练。

EleutherAI基础模型的使用消除了Meta对LLaMA衍生LLM的限制。然而,Databricks根据Standford Alpaca团队通过ChatGPT生成的相同数据训练Dolly。因此,由于OpenAI公司对ChatGPT生成的数据施加了竞业限制,该模型仍然不能用于商业目的。

Databricks公司在今年4月发布了Dolly 2.0,这是一个基于EleutherAI的Pythia模型的具有120亿个参数的大型语言模型。这一次,Databricks公司在15000个示例数据集上对模型进行了微调,这些示例完全由人类生成。他们通过一个有趣的、游戏化的过程收集了这些例子,其中包括Databricks公司的5000名员工。

Databricks公司发布了训练有素的Dolly 2.0模型,它没有以前模型的条款限制,用户可以将它用于商业目的。Databricks公司还发布了15K指令遵循语料库,用于微调Pythia模型。机器学习工程师可以使用这个语料库来微调他们自己的LLM。

Open Assistant

Open Assistant是一个非常有趣的项目,这是一个类似于ChatGPT的语言模型,从一开始就以防止大公司垄断LLM市场为目的。

其研究团队将开放他们所有的模型、数据集、开发、数据收集等,这是一项全面、透明的社区努力结果。所有参与该项目的人员都是志愿者,致力于开放性。

观看其联合创始人兼团队负责人Yannic Kilcher的娱乐视频,可以了解Open Assistant的最佳方式。Kilcher长期以来一直直言不讳地批评OpenAI等公司采取的封闭方式。

Open Assistant有基于LLaMA和Pythia的不同版本。用户可以将Pythia版本用于商业目的。大多数模型可以在单个GPU上运行。

来自世界各地的13000多名志愿者帮助收集了用于微调基本模型的样本。该团队将很快发布所有数据以及一篇解释该项目的论文。经过训练的模型可以在Hugging Face上找到。该项目的GitHub页面包含用于训练模型和使用模型的前端的完整代码。

该项目还有一个网站,用户可以在那里与Open Assistant聊天并测试模型。它有一个任务仪表板,用户可以通过创建提示或标记输出来为项目做出贡献。

相关生产力工具

近10年间,甚至连传统企业都开始大面积数字化时,我们发现开发内部工具的过程中,大量的页面、场景、组件等在不断重复,这种重复造轮子的工作,浪费工程师的大量时间。

针对这类问题,低代码把某些重复出现的场景、流程,具象化成一个个组件、api、数据库接口,避免了重复造轮子。极大的提高了程序员的生产效率。体验官网:https://www.jnpfsoft.com/?csdn

推荐一款程序员都应该知道的软件JNPF快速开发平台,采用业内领先的SpringBoot微服务架构、支持SpringCloud模式,完善了平台的扩增基础,满足了系统快速开发、灵活拓展、无缝集成和高性能应用等综合能力;采用前后端分离模式,前端和后端的开发人员可分工合作负责不同板块,省事又便捷。

开源之美

最近推出开源LLM的努力为科技公司重振合作和共享权力的承诺做出了很大贡献,而这正是互联网最初的承诺。它展示了所有这些不同的社区如何相互帮助,共同推动这一领域的发展。

LLaMA的开源模型帮助推动了这场运动。Alpaca项目表明,创建调整指令的LLM不需要付出巨大的努力和成本。这反过来又激发了Vicuna项目的灵感,该项目进一步降低了训练和收集数据的成本。Dolly则朝着不同的方向努力,展示了社区主导的数据收集工作的好处,以解决商业模型的竞业限制要求。

当然,还有其他几个值得一提的模型,包括加州大学伯克利分校的Koala和LLaMA.cpp, LLaMA .cpp是LLaMA模型的C++实现,可以在ARM处理器上运行。在接下来的几个月,观察开源运动将如何发展以及它将如何影响LLM市场,将成为一件有趣的事情。

原文标题:A look at open-source alternatives to ChatGPT,作者:Ben Dickson

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/8966.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AI热点技术】ChatGPT开源替代品——LLaMA系列之「羊驼家族」

ChatGPT开源替代品——LLaMA系列之「羊驼家族」 1. Alpaca2. Vicuna3. Koala4. ChatLLaMA5. FreedomGPT6. ColossalChat完整的 ChatGPT 克隆解决方案中英双语训练数据集完整的RLHF管线 相关链接 现在如果问什么最火,很多人第一反应肯定就是ChatGPT。的确&#xff0c…

【花雕学AI】超级提问模型大全!150个ChatGPT神奇示例,让你的聊天更有趣!

引言 你是否想要成为聊天高手,让你的对话更加有趣和深入?你是否想要掌握一些超级提问模型,让你的聊天更加有创意和挑战?你是否想要借助人工智能的力量,生成一些适合你的超级提问模型? 如果你的答案是肯定…

如何在教育与科研领域使用ChatGPT

ChatGPT提示是您给予ChatGPT的一系列指示,以便它能够按需生成结果。由于ChatGPT是一种会话型人工智能,因此它需要明确的指示才能生成准确的结果。 ChatGPT提示的结构通常是以指令格式呈现的。它看起来像是您在与AI交流,给予它执行特定任务的…

SETalk精彩回顾:ChatGPT对软件工程的新机遇(文末完整视频回看)

以下内容经由SE小助手编辑整理自3月28日SETalk直播间大咖对话:“ChatGPT对软件工程的新机遇”线上沙龙访谈,内容很干货,万字长文,建议收藏和分享给更多关注同学一起来看。点击关注公众号持续获得最新资讯。 正式开场前&#xff0c…

ChatGPT一出,软件工程师先丢饭碗?

【导读】ChatGPT一出,很多人害怕自己的工作会被AI取代。最近,有外媒盘点了最可能被ChatGPT取代10大高危职位。 自从2022年11月发布以来,OpenAI的ChatGPT已经被用来写求职信,创作儿童读物,甚至帮助学生作弊。 聊天机器人…

SETalk精彩回顾:ChatGPT对软件工程的新机遇

以下内容经由SE小助手编辑整理自3月28日SETalk直播间大咖对话:“ChatGPT对软件工程的新机遇”线上沙龙访谈,内容很干货,万字长文,建议收藏和分享给更多关注同学一起来看。点击关注公众号持续获得最新资讯。 正式开场前&#xff0c…

通俗易懂的LLM

目录 前言一、Tuning1、Fine-Tuning(微调)2、Prompt-Tuning(提示微调)2.1 In-context learning(上下文学习)2.2 Pattern-Verbalizer-Pair(PVP)2.3 Prompt-Tuning2.4 Prompt-Tuning v…

android 总结

目录 一.什么是android 二、Android 的学习路线 三.android的安装 四.android的环境与配置 1.JDK的下载 2.SDK 3.虚拟机的下载安装 4.虚拟机的大小及版本 五.Fragment的使用 1.定义 Fragment 类 2.在 Activity 中添加 Fragment 3.在 XML 布局文件中添加 Frag…

语法型中文文本纠错方案探索

现在NLP的文本纠错还是以纠正拼写错误为主,本文章会对比几个具备语法纠错能力的中文模型,探索其在实际应用中的效果会如何。 参与比对的模型或服务: Hanlp2.0文本纠错功能 百度智能云高级纠错功能(其实还测过ModelScope的BERT…

相比ChatGPT一样智能的体感螺丝刀

外观精致,上手使用感良好 很惊喜的拿到了MINIWARE ES15体感电动螺丝刀 老久老久之前就关注了这款科技感十足的体感电动螺丝刀 包装简约精致环保,但里面的东西一点不简单 靓银色的304不锈钢材质,上手强烈的金属触感,不粘指纹 还…

WPF面试题-来自ChatGPT的解答

问题来自【愚公系列】2023年07月 WPF控件专题 2023秋招WPF高频面试题[1],回答站长通过ChatGPT重新整理,可对比两者区别学习、整理。 文章目录 入门篇[2] 谈谈什么是WPF?说说WPF中的XAML是什么?为什么需要它?它只存在于…

CUBA Platform 6.3的新增功能

我们很自豪地宣布新版本的CUBA平台和Studio全面上市! 也许这是有史以来功能最丰富的平台版本之一–在各个级别都有重要的变化:体系结构,可扩展性,API可用性和性能。 本文介绍了该平台的主要增强功能。 发行说明中提供了完整的更…

53岁周鸿祎考上清华博士;图灵奖得主杨立昆炮轰ChatGPT:五年内就没人用了;Red Hat恪守对开源的承诺|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

ChatGLM-6B的基座/部署/微调/实现:从GLM到6B的LoRA/P-Tuning微调、及6B源码解读

前言 随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出,绝大部分公司的技术 产品 服务,以及绝大部分人的工作都将被革新一遍 类似iPhone的诞生 大家面向iOS编程 有了App Store现在有了ChatGPT插件/GPT应用商店&#xff…

53岁周鸿祎考上清华博士;图灵奖得主杨立昆炮轰ChatGPT:五年内就没人用了;Red Hat恪守对开源的承诺|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

爆 ChatGPT 大规模封号亚洲节点,并停止注册;Google 否认 Bard 窃取 ChatGPT 数据进行训练|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

ChatGLM2发布,位居C-Eval榜首!

文章目录 中文大语言模型评估基准:C-EVALChatGLM2-6B部署推理环境配置模型下载git-lfs安装 代码调用基于gradio的网页版Demo显存占用情况数理逻辑 推理性能显存占用的减少量化对模型性能的影响 基于 P-Tuning v2 的微调(官方)环境配置微调数据…

最新ChatGPT GPT-4 文本推理技术详解(附ipynb与python源码及视频讲解)——开源DataWhale发布入门ChatGPT技术新手从0到1必备使用指南手册(二)

目录 前言最新ChatGPT GPT-4 文本推理技术详解1. 什么是推理(Reasoning)?2. 导入ChatGPT3. 测试ChatGPT的推理能力3.1 演绎推理(Deductive Reasoning)3.2 归纳推理(Inductive Reasoning)3.3 溯因…

火狐Merlin插件要登录谷歌账号

这个怎么破 谷歌又用不了

Edge 浏览器:隐藏功能揭秘与高效插件推荐

文章目录 一、前言二、Edge 的各种奇淫巧计2.1 开启 Edge 分屏功能2.2 启动 Edge 浏览器后直接恢复上次关闭前的页面2.3 解决 Edge 浏览器无法同步账号内容2.4 开启垂直标签页(推荐)2.5 设置标签分组(推荐)2.6 设置标签睡眠时间&a…