基于斯坦福大学开源,从零搭建chatGPT

下载地址:

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理仓库:https://github.com/togethercomputer/RedPajama-Data

复刻ChatGPT!斯坦福等开启红睡衣计划,开源1.2万亿token训练集

【新智元导读】从零打造ChatGPT,AI从业者大团结!

Meta AI开源的大羊驼LLaMA模型彻底点燃了开源社区的热情,并在此基础上相继开发出了各种类ChatGPT的羊驼Alpaca, Vicuna等。

但Meta只是开源了LLaMA的权重,训练用到的数据集并没有开源出来,对于那些想从头开始训练LLaMA的从业者来说,目前还没有开源方案。

最近,由Ontocord.AI,苏黎世联邦理工学院DS3Lab,斯坦福CRFM,斯坦福Hazy Research 和蒙特利尔学习算法研究所的宣布开启「红睡衣」(RedPajama)计划,旨在生成可复现、完全开放、最先进的语言模型,即从零一直开源到ChatGPT!

下载地址:

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理仓库:https://github.com/togethercomputer/RedPajama-Data

「红睡衣」开源计划总共包括三部分:

1. 高质量、大规模、高覆盖度的预训练数据集;

2. 在预训练数据集上训练出的基础模型;

3. 指令调优数据集和模型,比基本模型更安全、可靠。

目前红睡衣计划中的第一部分,即预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可以匹配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。

完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB,有条件、有网速的小伙伴可以开始搞起来了!

目前开发团队正在橡树岭领导计算设施(OLCF)的支持下开始训练模型,预计几周后即可开源。

通过OpenChatKit,研究人员已经收到了数十万条高质量的自然用户指令,将用于发布 RedPajama 模型的指令优化版本。

复刻LLaMA

2023年2月27日,Meta推出LLaMa并发布了相关论文。

论文链接:https://arxiv.org/pdf/2302.13971.pdf

LLaMa实际上是一组基础语言模型的统称,其参数范围从70亿到650亿不等,其中LLaMA-13B(130亿参数)版本甚至在大多数基准测试中都优于1750亿参数的GPT-3;最大的LLaMA-65B和Chinchilla-70B和PaLM-540B相比也不落下风。

和之前的大模型不同的是,LLaMa完全使用「公开数据集」就达到了SOTA,并不存在其他模型中「不可告人」的秘密,无需使用专用或只存在于虚空中的数据集。

具体使用的数据集和预处理操作如下。

English CommonCrawl-占比67%

使用CCNet pipeline对五个CommonCrawl dumps(2017-2020年)进行预处理,删除重复的行,并用fastText线性分类器进行语言分类,去除非英语页面,并用ngram语言模型过滤低质量内容。

还训练了一个线性模型来对维基百科中用作参考文献的页面与随机采样的页面进行分类,并去除未被分类为参考文献的页面。

C4-占比15%

在探索实验中,研究人员观察到使用多样化的预处理CommonCrawl数据集可以提高性能,所以将公开的C4数据集纳入我们的数据。

C4的预处理也包含重复数据删除和语言识别步骤:与CCNet的主要区别是质量过滤,主要依靠启发式方法,如是否存在标点符号,以及网页中的单词和句子数量。

Github-占比4.5%

使用谷歌BigQuery上的GitHub公共数据集,只保留在Apache、BSD和MIT许可下发布的项目。

然后用基于行长或字母数字字符比例的启发式方法过滤了低质量的文件,并用正则表达式删除了HTML boilerplate(如<header>等)。

最后在文件层面上对所生成的数据集进行重复计算,并进行精确匹配。

维基百科-占比4.5%

数据集中添加了2022年6月至8月期间的维基百科dumps,涵盖20种语言,包括使用拉丁字母或西里尔字母的语言,具体为bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然后对数据进行预处理,以去除超链接、评论和其他格式化的html模板。

Gutenberg and Books3-占比4.5%

训练数据集中包括两个书籍相关的语料库,Gutenberg Project为公共领域的书籍;ThePile中Books3部分是一个用于训练大型语言模型的公开数据集。

预处理操作主要是删除重复内容超过90%的书籍。

ArXiv-占比2.5%

通过处理arXiv的Latex文件将科学数据添加到训练数据集中,删除了第一节之前的所有内容,以及书目;还删除了.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。

Stack Exchange-占比2%

Stack Exchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。保留了28个最大网站的数据,删除了文本中的HTML标签,并按分数(从高到低)对答案进行了排序。

分词器(Tokenizer)

根据SentencePiece的实现使用字节对编码(byte-pair-encoding,BPE)算法对数据进行分词,其中连续的数字被分割成单个数字。

最终整个训练数据集在分词后获得了大约1.4T的tokens,除了维基百科和图书数据外,其他的数据在训练期间只使用一次,总共进行了约两个epochs

参考资料:

https://www.together.xyz/blog/redpajama

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2222.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代搭建开发chatgpt

ChatGPT是由OpenAI开发的一款自然语言处理模型&#xff0c;而且它已经预训练好了。基于它开发ChatGPT应用程序需要以下步骤&#xff1a; 准备环境&#xff1a;安装Python3和相关的库&#xff0c;如TensorFlow、Keras等&#xff0c;并下载预训练的ChatGPT模型。 数据准备…

如何在windows docker上搭建本地ChatGPT,不需要翻墙

一、安装windows docker 详情请看&#xff1a;安装Windows docker与VSCode docker、Dev Containers和Remote - SSH插件_kexiaohua4393的博客-CSDN博客 二、拉取项目 打开docker并以管理员身份打开cmd&#xff0c;输入docker pull pengzhile/pandora github项目地址&#xf…

用 Express 和 Vue3 搭建的 ChatGPT 演示网页

ChatGPT的强大&#xff0c;在此不再介绍。Openai提供了接入的API&#xff0c;目前市面上见到的接入产品有公众号、IM、vscode插件、chrome插件等&#xff0c;如何搭建一个ChatGPT的演示网页呢&#xff1f; 感谢社区大佬的开源项目&#xff1a; https://github.com/Chanzhaoyu/…

ChatGPT专业应用:小红书种草文案撰写

正文共 547字&#xff0c;阅读大约需要 2 分钟 小红书博主/品牌方运营必备技巧&#xff0c;您将在2分钟后获得以下超能力&#xff1a; 快速批量生成种草文案 Beezy评级 &#xff1a;B级 *经过简单的寻找&#xff0c; 大部分人能立刻掌握。主要节省时间。 推荐人 | Alice 编辑…

如何用ChatGPT 写了篇文章!

这几天大家应该看到很多人&#xff0c;尤其做技术的&#xff0c;互联网圈子的人都在刷屏一个ai玩意&#xff0c;叫 ChatGPT。在写这篇之前&#xff0c;我也试了试&#xff0c;感觉还挺好玩。看到很多人在问这是个啥&#xff0c;今天就来简单说说。 1、 ChatGPT 是什么&#x…

『干货』文案策划如何利用ChatGPT创作一篇热文?4步快速生成,1分钟搞定……

文案有多苦&#xff0c;大家心里都清楚。 组长会骂你文章没写到点子上&#xff0c; 项目负责人会觉得你没能力&#xff0c; 品牌方更是需要你说个一二三来…… 文案更是改了又改&#xff0c;调了又调&#xff01; 谁都可以对你指指点点&#xff0c;谁都可以骑在你头上拉S……

ChatGPT横空出世|超强大功能写代码、写情书、写文章、做设计火爆全网

会被人工智能替代的行业 不是孩子未来的发展方向 因为我们在有限的时间里 无法穷尽对技术的学习 那么人工智能无法替代的是什么&#xff1f; 最近火热的ChatGPT&#xff0c;是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型&#xff0c;它能够通过学习和理解人…

如何使用chatGPT生成小红书种草文案

如何使用chatGPT生成小红书种草文案 小红书拥有超千万的日活用户&#xff0c;为商家提供了广阔的变现空间和机会&#xff0c;成为商家选择在小红书上推广的原因之一。 小红书种草文案&#xff0c;例如具有影响力的热门话题、产品使用方法等内容可以让消费者迅速了解产品为品牌…

使用ChatGPT生成思维导图(附永久免费镜像网址)

前言 思维导图&#xff08;The Mind Map&#xff09;&#xff0c;是表达发散性思维的有效图形思维工具。思维导图运用图文并重的技巧&#xff0c;把各级主题的关系用相互隶属与相关的层级图表现出来&#xff0c;把主题关键词与图像、颜色等建立记忆链接 &#xff0c;可以应用于…

ChatGPT商业运营版系统源码 全开源 站长亲测

介绍&#xff1a; 最新ChatGPT商业运营版系统源码 全开源 站长亲测 测试环境&#xff1a;PHP7.4MySQL5.6 用是没问题的&#xff0c;支持暗黑模式&#xff0c;反应也是很快的&#xff0c;充值方面使用的是后台生成卡密方式&#xff0c;有能力的可以对接一下在线支付&#x…

ChatGPT - ChatPPT快速生成PPT

文章目录 PreChatPPT Pre ChatGPT - 使用chatgpt mindshow 快速生成PPT ChatPPT 访问 https://www.chat-ppt.com/ 按需优化即可

chatgpt提示词生成器

1、在网站上找到提示词模板 https://www.explainthis.io/zh-hant/chatgpt 2、在chatgpt界面输入&#xff1a;把以下文字翻译成简体中文。然后改成想要的内容就可以了

LLM - 基于 Vicuna-13B 参数计算搭建私有 ChatGPT 在线聊天

欢迎关注我的CSDN&#xff1a;https://spike.blog.csdn.net/ 本文地址&#xff1a;https://blog.csdn.net/caroline_wendy/article/details/131312366 LLaMA 和 Vicuna 都是大语言模型(LLM)&#xff0c;两者的差异如下&#xff1a; LLaMA (Large Language Model Meta AI)&#…

Keep chatgpt alive, 安装插件,保持chatgpt在线

前言 ChatGPT是一种基于自然语言处理&#xff08;NLP&#xff09;的人工智能技术&#xff0c;可以帮助我们实现智能聊天。 然而&#xff0c;在使用ChatGPT插件过程中&#xff0c;我们可能会遇到频繁的网络错误&#xff0c;这会导致我们需要不断刷新网页&#xff0c;重复进行一…

chatgpt prompt 在线生成器

1. Hugging Face ChatGPT Prompt Generator &#xff08;有时候需要等很久&#xff09; ChatGPT-prompt-generator是一个特殊的ChatGPT prompt 生成器应用程序&#xff0c;允许用户生成适合其所需角色的提示。 左边输入&#xff0c;然后提交以后右边出prompt 该应用程序生成…

ChatGPT在线个人小助手应用搭建

ChatGPT在线个人小助手应用搭建 在线体验 点我在线体验 因为openAI账户申请后会默认有18美元的账户, openAI每次调用大概会花掉0.01美元, 所以为了防止恶意刷api,无意义聊天, 页面做了密码限制,如果密码不对,是不会启用openAI智能回复的.代码此文就不讲解了,源码面前,了无秘密…

微信公众号对接ChatGPT-实现基于自己知识库的机器人功能-并且可以人工接入进行回复的客服系统...

现在很多教程有介绍如何把chatGPT对接到自己的公众号上&#xff0c;利用公众号的自动回复接口功能&#xff0c;实现用户在公众号与chatGPT进行交互。 而我实现的功能比上面的要高级很多 首先&#xff0c;用户在公众号端发送咨询消息&#xff0c;可以得到自动回复&#xff0c;并…

【极客技术】啥?公众号免费开放ChatGPT Plus了?

【火速出圈】ChatGPT 上线啦&#xff01; 这段时间ChatGPT火速出圈&#xff0c;感谢大师兄的亲情支持&#xff0c;上周我们的公众号自动回复功能成功接入ChatGPT啦&#xff01;从此&#xff0c;智能问答、趣味互动一触即达&#xff01;体验更加便捷~ 公众号目前已经接入的是Cha…

实现ChatGPT项目(可商用:web端、接入qq群、公众号、企业微信)

前言 ChatGPT是一款非常流行的社交媒体应用程序&#xff0c;它可以让用户在全球范围内与其他用户进行交流和互动&#xff0c;分享他们的想法、观点和经验。ChatGPT的成功得益于它的许多独特的功能和优势。它涵盖了各种各样的话题和主题&#xff0c;从科技和商业到娱乐和文化&a…