大数据分析公司Databricks Inc近日也加入了生成式 AI 领域的竞争之中,发布了一个名为 Dolly 的开源大型语言模型。
Databricks 是基于 EleutherAI 在 2021 年开源的自然语言处理模型 —— GPT-J。GPT-J 是一个基于 GPT-3,由 60 亿个参数组成的自然语言处理 AI 模型。该模型在一个 800GB 的开源文本数据集上进行训练,并且能够与类似规模的 GPT-3 模型相差无几。
ChatGPT 和 Bard 这样的生成式 AI,小公司构建自己的模型,而不将数据通过 API 发送给专有模型背后的服务提供商,也可以保护小公司的敏感数据和专有的知识产权。此外,一些公司可能在模型质量、成本和期望行为方面有不同的权衡,这些公司也可以根据需求调整模型。
Databricks 尽管模型小得多,只有 60 亿个参数,以及较小的数据集和训练时间(ChatGPT 的参数是 1750 亿个),但 Dolly 仍然表现出了 ChatGPT 所展示的同样的 "神奇的人类互动能力"
Databricks 目前已经在 Github上开源了一个简单的 Databricks notebook,开发者可以使用它在 Databricks 上自己构建 Dolly
Github:GitHub - databrickslabs/dolly: Databricks’ Dolly, a large language model trained on the Databricks Machine Learning Platform