Databricks来搅局了:0门槛克隆ChatGPT,完全开源可随意修改商用

1477e4997bbe169a8fb87f07d8c1441b.png

bbb0b2aa55718a44436a70cb8a320720.jpeg

全球首个完全开源的大语言模型,性能堪比 GPT3.5!

大数据热潮催生了许多成功的公司,例如 Snowflake、Databricks、Splunk 和 Cloudera。现在我们进入了生成式人工智能时代,那么会不会有新的“人工智能和大数据”结合方式?

最近,大数据公司 Databricks 就在生成式人工智能领域采取了行动。两周前,该公司发布了一个名为 Dolly 的开源大型语言模型,旨在应对市场对于生成式 AI 及相关应用的旺盛需求,我们可以称之为 Dolly 1.0。

6559ddf01b6664b95779e4f4f90e07d8.png

像 ChatGPT 和 Bard 这样的生成式 AI,它们使用的数据通常来自于在成千上万不同网站,使用的数据量十分惊人,而且想要使用这些数据训练 AI 还需要数以千计的强大 GPU 在背后提供支持。Databricks 希望通过开源 Dolly 1.0 及其训练数据,让任何人都能开发出一个真正像人类的 AI,而无需投资数百万美元,这让这类 AI 不再是只有大型科技公司才能负担得起的东西,数以百万计的小公司也将能够从中受益。

Databricks 首席执行官 Ali Ghodsi 表示,Dolly 1.0 只需要非常少的数据和非常短的时间就能完成训练,“只需 30 美元、一台服务器和三个小时,我们就能教 Dolly 开始进行人类级别的交互。”

4 月 12 日,Databricks 再次发布了该大语言模型(LLM)的开源迭代版本,并命名为 Dolly 2.0。Databricks 表示,Dolly 2.0 是业内第一个开源、遵循指令的 LLM,它在透明且免费提供的数据集上进行了微调,该数据集也是开源的,可用于商业目的。这意味着 Dolly 2.0 可用于构建商业应用程序,无需支付 API 访问费用或与第三方共享数据。

1

Dolly 2.0的诞生

Dolly 1.0 基于 EleutherAI 在 2021 年开源的自然语言处理模型 GPT-J。GPT-J 是一个基于 GPT-3,由 60 亿个参数组成的自然语言处理 AI 模型。但该模型使用了来自 StanfordAlpaca 项目的 5.2 万个问答数据集,是根据 OpenAI 的 ChatGPT 的输出进行训练的,因为 OpenAI 的使用条款限制,Dolly 1.0 并不能用于商业用途。

Databricks 在官方博文中指出,“用于训练 Dolly 1.0 的数据集中,包含来自 ChatGPT 的输出。斯坦福团队明确提到,OpenAI 的服务条款试图阻止任何人创建能够与其竞争的 AI 模型。”

Dolly 2.0 建立在 Databricks 公司首版 Dolly 的基础之上,为了规避这个问题并建立起可供商用的模型,Databricks 使用基于 EleutherAI 的 Pythia 模型家族中的 120 亿参数语言模型,成功构建起了 Dolly 2.0。

该公司表示,他们专门在 5000 名 Databricks 员工之内开展了众包,通过高质量的人工生成指令建立起训练数据集,借此完成了模型训练和微调。该公司将这套高质量的人工生成响应 / 揭示数据集称为 databricks-dolly-15k,其使用 Creative Commons Attribution-ShareAlike 3.0 Unported License 许可。

“任何人均可出于任何目的使用、修改或扩展这套数据集,包括商业应用程序。”Databricks 还强调,该数据集可通过 GitHub 页面(https://github.com/databrickslabs/dolly/tree/master/data)直接下载。

模型权重则可通过 Databricks Hugging Face 页面(https://huggingface.co/databricks)处下载获取。

2

Dolly 2.0想成为大小公司的福音

Databricks 之所以发布基于开源数据的大语言模型,主要是考虑到企业客户对控制模型并引入针对性场景 / 特定用例的需求。这也与行业常见的商业闭环训练模型(例如 ChatGPT)形成了鲜明对比。

市场调研公司 Omdia 首席分析师 Bradley Shimmin 表示,“Dolly 2.0 这类模型大多是开放的,不需要在大规模 GPU 集群上进行长达数月的训练,因此为那些希望构建内部生成式 AI 方案的企业打开了新世界的大门。”

Shimmin 指出,“这些小型(即训练参数的规模较小)模型使用大量提示 / 响应对作为训练数据,因此特别适合希望控制整个解决方案、支持针对性用例的企业客户。例如,他们可以利用现有问答配对建立的帮助台数据库训练自己的 AI 模型。”

根据咨询公司 Amalgam Insights 首席分析师 Hyoun Park 的说法,开源大语言模型的另一大优势,在于 Dolly 2.0 这类成果能够让企业更好地跟踪数据治理和驻留,并与所支持的用例保持良好的关联性。

Park 还专门拿 OpenAI 的名称打趣,说“因为 OpenAI 的 ChatGPT 等其他模型在使用时要依赖于 API。对某些企业而言,这种依赖性可能引发关于 API 的合规性、治理或数据安全问题。”

这也相当于,Dolly 2.0 和其他基于开源的大语言模型将在受严格监管的行业中成为各企业的福音。这是个良好的开端,让企业意识到他们也可以创建并拥有自己的模型,且无需支付 API 访问费或与大语言模型提供商共享数据。这些在受到严格监管的行业中都可能产生巨大的问题。

开源与闭源大语言模型间的区别

与闭源大语言模型相比,基于开源的模型所使用的训练数据对公众开放,因此可根据业务进行微调和定制以满足企业需求。相比之下,ChatGPT 等闭源模型则根据其开发者 OpenAI 所掌握的训练进行训练,模型可通过 API 付费访问,且禁止直接用于商业用途。

Chandrasekaran 认为,“「开放式大语言模型」可以有多种理解方式。最明显也最重要的一点,就是对这些模型的源代码和部署灵活性做出调整。除此之外,开放的范围还可以涵盖模型权重、训练数据集以及开放 / 协作方式层面的决策。”

IDC 的 Schubmehl 表示,Dolly 2.0 就遵循基于开源的模型这一理念。“Dolly 2.0 是一套大语言模型,模型本体、训练代码、数据集和模型权重都可作为开源资源从 Databricks 处获取,以供企业根据业务需求创建自己的定制化大语言模型。”Schubmehl 同时提到,这种方法与其他大语言模型形成了鲜明对比,后者往往并不开放模型构建中的各类组成要素。

分析人士还提到,闭源与开源大语言模型间的另一个区别,主要体现在训练的参数量上。其中闭源大语言模型的参数规模往往更大。以 ChatGPT4 为例,其训练中使用到 100 万亿个参数;相比之下,Dolly 2.0 的参数量只有区区 120 亿个。

3

Dolly 2.0如何融入

Databricks的生成式AI战略

Constellation Research 的 Thurai 表示,Databricks 此次推出 Dolly 2.0 可以算是其夺取生成式 AI 市场份额的一项重要战略。

“从本质上讲,众多大语言模型和基础模型业务都被掌握在超大规模企业手中。每家企业都有自己的变体——微软有 ChatGPT、谷歌有 Bard,AWS 则通过 Huggingface 合作伙伴关系提供基础设施、流程、工具及模型共享和目录服务。Databricks 当然不能坐以待毙,必须在热火朝天的大语言模型市场上分一杯羹。”

其他分析师则认为,Dolly 的发布符合 Databricks 公司向市场投放开源产品的战略。

IDC 的 Schubmehl 表示,“Databricks 的专长,就是通过各种开源 AI 工具和服务帮助客户充分利用自己的数据和运营体系。Dolly 是另一个绝佳安全,能够为组织提供基于最新 AI 技术的选项,也就是大语言模型。”但分析师们也承认,Databricks 的 Dolly 2.0 恐怕无法立刻对 ChatGPT 或 Bard 等竞争对手产生影响。

Omdia 公司的 Shimmin 认为,“Dolly 乃至其他开源生成式 AI 大语言模型的出现,将彻底颠覆 Bard、ChatGPT 和 Galactica 等现有大语言模型的未来前景。但从中短期来说,这些成果在 Google Workplace、微软 Office 等产品中的地位还将稳固地维持下去。”

Amalgam Insights 的 Park 则给出了不同意见,认为 Dolly 最终会成为 ChatGPT 这类通用工具的功能伴侣。“人们会从通用工具中学习如何使用和提示生成式 AI,而 Dolly 这类模型则负责帮助用户处理更具体、更专业的特定工作用例。”

另外,也有评论指出,Dolly-like LLM 的一个能力是可以用来编写代码,特别是 SQL 代码。这可能会导致非 SQL 专家能够在 Databricks lakehouse 上设置和运行查询。

这可以从两方面来理解:第一,SQL 开发人员可以使用它来提高工作效率,第二,你不需要那么多 SQL 开发人员。Dolly 可以减少 Databricks 对 SQL 程序员的需求。将这种想法扩展到 Snowflake 和所有其他数据仓库环境,SQL 技能在未来可能会变得不那么有价值。

参考链接

https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-viable-instruction-tuned-llmhttps://www.infoworld.com/article/3693349/why-did-databricks-open-source-its-llm-in-the-form-of-dolly-2-0.html

转载自丨InfoQ

编辑丨翁培培

相关阅读 | Related Reading

2fc21c6cdb565d7d995d336ba7195eb8.jpeg

中国开源项目贡献者已超过10万,《中国开源生态图谱2023》发布

89796b187e8001add2e52deacbd9eb11.jpeg

浅谈KPI与开源的可持续发展

开源社简介

开源社成立于 2014 年,是由志愿贡献于开源事业的个人成员,依 “贡献、共识、共治” 原则所组成,始终维持厂商中立、公益、非营利的特点,是最早以 “开源治理、国际接轨、社区发展、项目孵化” 为使命的开源社区联合体。开源社积极与支持开源的社区、企业以及政府相关单位紧密合作,以 “立足中国、贡献全球” 为愿景,旨在共创健康可持续发展的开源生态,推动中国开源社区成为全球开源体系的积极参与及贡献者。

2017 年,开源社转型为完全由个人成员组成,参照 ASF 等国际顶级开源基金会的治理模式运作。近九年来,链接了数万名开源人,集聚了上千名社区成员及志愿者、海内外数百位讲师,合作了数百家赞助、媒体、社区伙伴。

6ad7c933502d30bc1fa1a8da9129ddb3.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/30451.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT老板警告:AI可能灭绝人类

萧箫 发自 凹非寺量子位 | 公众号 QbitAI 图灵奖得主Bengio和Hinton,同时警告AI可能灭绝人类! 就在昨夜,一封签署名单多达350人的公开信迅速传播开去,信中核心只有一句话: “降低AI灭绝人类的风险”,应该像…

百度飞桨赋能区域高校与企业,助力西南产教融合新发展

当前,我国经济发展进入新常态、创新驱动发展战略深入推进,以深度学习为代表的人工智能技术发展驶入快车道,复合型AI人才需求持续攀升,产教深度融合发展已成为新趋势,数字化转型正推动教育生态体系、产业生态体系的重塑…

最新版升级GPT4-PLUS攻略

前置条件: 有一个gpt的免费账号 一个魔法上网工具(主要是azure国内版不能用) 1.如果你没有gpt账号,你可以用谷歌邮箱(可以用国内手机号注册)去openai.com官网注册,会卡在手机号那里,这个网上有相关服务,tb也行,反正你…

MySQL 处理大数据表的 3 种方案,写的太好了,建议收藏!!

点击关注公众号,Java干货及时送达 学习 Spring Cloud 微服务的正确姿势! 用上 ChatGPT 啦,强的离谱! 博客园在绝境求生。。 作者:马佩 链接:https://juejin.cn/post/7146016771936354312 场景 当我们业务数…

为何OpenAI能领先大厂开发出如ChatGPT的模型

为何OpenAI能领先大厂开发出ChatGPT的大模型? 信仰和环境缺一不可,不是因为OpenAI从0到1创造性的搞出来大模型,而是信仰和环境造就了ChatGPT大模型 在谈论为何中国乃至其他国家的大厂未能开发出如ChatGPT的模型时,我们需要强调&am…

我用ChatGPT做WebRTC音视频性能优化

ChatGPT取代程序员还是给程序员加Buff? 这两周,AI新闻一个接着一个,3月23日,Google开放了内测已久的AI对话服务Bard,Google强调,这是一款定位为用户提供创意之源的产品,可生成写作草稿或生活中…

chatGPT给出Python time.sleep()假死(挂起)的解决办法

1. time.sleep()假死(挂起)的原因与解决办法 最近,使用chatGPT帮着写程序,完成通过API获取天气数据的程序,运行起来后出现了状况:莫名其妙的的假死(程序被挂起来,不执行了&#xff…

我用ChatGPT做WebRTC音视频性能优化,主打一个高效

ChatGPT取代程序员还是给程序员加Buff? 这两周,AI新闻一个接着一个,3月23日,Google开放了内测已久的AI对话服务Bard,Google强调,这是一款定位为用户提供创意之源的产品,可生成写作草稿或生活中…

chatgpt赋能Python-python_beam_search

Python中的Beam Search算法 Beam Search是一种搜索算法,可用于解决许多问题,包括自然语言处理中的语言模型生成和翻译。在这篇文章中,我们将介绍Python中Beam Search算法的实现,重点讨论算法的优劣和在NLP中的应用。 什么是Beam…

VSCode插件整理

一、安装插件 前端统一开发工具:VSCode插件整理。 首先,如果你不知道怎么安装编辑器插件,那么请记住这个图标: 二、插件推荐 特别推荐:SummerCopilot(最近更新) https://marketplace.visual…

科研论文小技巧分享

关于湖大蔺博士分享的一些科研小技巧~ 欢迎补充指正~ 科研论文 一、入门看文献二、创造idea三、撰写论文3.1 论文结构题目(Title)摘要(Abstract)关键词(Keywords)引言 (Introduction)综述发展史理论、方法、结果描述参考文献 (References) 3.2 写作总结之…

Angular框架学习踩坑记录

文章目录 1. 项目build后部署到tomcat显示空白页2. vscode远程连接linux进行angular开发实时调试 1. 项目build后部署到tomcat显示空白页 按照Angular文档完成了入门demo,部署时遇到问题:将build好的dist文件夹放在tomcat的/webapps文件夹下并修改文件夹…

QT开发光纤解调仪软件中各种问题总结

最近因为被派了开发光纤解调仪软件开发的活,花了大概两个月的时间从零开始学QT写软件,总体完成的差不多之后在这里把遇到的困难总结一下。 一、动态链接库的调用 我手上的资料有公司之前很老的用MFC写的软件的源码,根据那个软件的源码来进行…

chatgpt赋能python:Python循环卡住-如何规避这个问题

Python循环卡住- 如何规避这个问题 Python是一种简单,易学且功能强大的编程语言,它被广泛应用于各种应用程序开发领域,从数据科学到Web开发。 然而,在循环中有时会遇到Python卡死的情况。 在这篇文章中,我们将详细介绍…

联网GPT-3.5上线!网友实测给差评

【导读】ChatGPT默默升级了,联网插件Default (GPT-3.5) with browsing上线,网友纷纷上手实测。 OpenAI的ChatGPT在默默进化...... 一觉醒来,网友爆料称ChatGPT里的联网插件变了。 ChatGPT中的Browsing ALPHA模型不再显示。更改为&#xff1…

ChatGPT: 如何利用OpenAI的GPT-3.5构建智能对话助手

ChatGPT: 如何利用OpenAI的GPT-3.5构建智能对话助手 GPT-3.5:OpenAI的语言模型在自然语言处理领域的重要地位和应用潜力 GPT-3.5是OpenAI开发的一种强大的语言模型,具有广泛的应用潜力和在自然语言处理领域的重要地位。作为OpenAI最新一代的语言模型&…

ChatGPT: 从GPT-3.5到GPT-4,探索语言模型的演进之路

ChatGPT: 从GPT-3.5到GPT-4,探索语言模型的演进之路 引言 人工智能语言模型的演进 随着人工智能的快速发展,语言模型作为自然语言处理领域的一项重要技术也在不断演进。从最初的基于规则的系统,到基于统计的模型,再到近年来的深度…

PCM音频文件的制作

一、PCM编码简介 PCM是英文Pulse-code modulation的缩写,中文译名是脉冲编码调制。它是70年代末发展起来的,记录媒体之一的CD,在80年代初由飞利浦和索尼公司共同推出。脉码调制的音频格式也被DVD-A所采用,它支持立体声和5…

案例分享:基于预训练大模型的AI自动标注

从自动化时代到智能化时代,人工智能潜在的价值规模迅速扩张。如何将潜在的应用价值落到现实场景是摆在一众AI企业面前亟待破解的难题。 数据资源场景单一且有限、算力资源存在上限且成本高企、高端人才稀缺等问题无一不在阻碍AI产业的规模化商业落地。 而伴随着以…

AI文本生成软件选哪个?看看这些软件推荐吧

最近几个月的时间内AI智能技术逐渐向大众开放,许多人都在使用AI智能进行一些创作 但是许多小伙伴依然不知道该如何使用AI来智能生成文本。那么大家想知道有哪些AI文本生成软件吗?看看下面几款大家常用的AI文本生成软件的介绍吧。 1.“AI写作宝” 软件介…