斯坦福「红睡衣」计划:真·从零复刻ChatGPT!

format,png

源 | 新智元

大家好,这里是 NewBeeNLP。一起从零打造ChatGPT,AI从业者大团结!

Meta AI开源的大羊驼LLaMA模型彻底点燃了开源社区的热情,并在此基础上相继开发出了各种类ChatGPT的羊驼Alpaca, Vicuna等。

但Meta只是开源了LLaMA的权重,训练用到的数据集并没有开源出来,对于那些想从头开始训练LLaMA的从业者来说,目前还没有开源方案。

最近,由Ontocord.AI,苏黎世联邦理工学院DS3Lab,斯坦福CRFM,斯坦福Hazy Research 和蒙特利尔学习算法研究所的宣布开启「红睡衣」(RedPajama)计划,旨在生成可复现、完全开放、最先进的语言模型,即从零一直开源到ChatGPT!

9998c65df2be432761db4fb073e7beee.png

下载地址:

https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

预处理仓库:https://github.com/togethercomputer/RedPajama-Data

「红睡衣」开源计划总共包括三部分:

1. 高质量、大规模、高覆盖度的预训练数据集;

2. 在预训练数据集上训练出的基础模型;

3. 指令调优数据集和模型,比基本模型更安全、可靠。

8c06148508f8329d4224bcf46bf1acba.png

目前红睡衣计划中的第一部分,即预训练数据集RedPajama-Data-1T已开源,包括七个子集,经过预处理后得到的token数量大致可以匹配Meta在原始LLaMA论文中报告的数量,并且数据预处理相关脚本也已开源。

f050eee1f5c0675f1d27a9ef8556d3cb.png

完整的RedPajama-Data-1T数据集需要的存储容量为压缩后3TB,解压后5TB,有条件、有网速的小伙伴可以开始搞起来了!

目前开发团队正在橡树岭领导计算设施(OLCF)的支持下开始训练模型,预计几周后即可开源。

通过OpenChatKit,研究人员已经收到了数十万条高质量的自然用户指令,将用于发布 RedPajama 模型的指令优化版本。

复刻LLaMA

2023年2月27日,Meta推出LLaMa并发布了相关论文。

16586e6f27b35655e3660a9e666d8ed0.png

论文链接:https://arxiv.org/pdf/2302.13971.pdf

LLaMa实际上是一组基础语言模型的统称,其参数范围从70亿到650亿不等,其中LLaMA-13B(130亿参数)版本甚至在大多数基准测试中都优于1750亿参数的GPT-3;最大的LLaMA-65B和Chinchilla-70B和PaLM-540B相比也不落下风。

和之前的大模型不同的是,LLaMa完全使用「公开数据集」就达到了SOTA,并不存在其他模型中「不可告人」的秘密,无需使用专用或只存在于虚空中的数据集。

具体使用的数据集和预处理操作如下。

9347c60eb20b06a7f3a71511d8cede40.png

English CommonCrawl-占比67%

使用CCNet pipeline对五个CommonCrawl dumps(2017-2020年)进行预处理,删除重复的行,并用fastText线性分类器进行语言分类,去除非英语页面,并用ngram语言模型过滤低质量内容。

还训练了一个线性模型来对维基百科中用作参考文献的页面与随机采样的页面进行分类,并去除未被分类为参考文献的页面。

C4-占比15%

在探索实验中,研究人员观察到使用多样化的预处理CommonCrawl数据集可以提高性能,所以将公开的C4数据集纳入我们的数据。

C4的预处理也包含重复数据删除和语言识别步骤:与CCNet的主要区别是质量过滤,主要依靠启发式方法,如是否存在标点符号,以及网页中的单词和句子数量。

Github-占比4.5%

使用谷歌BigQuery上的GitHub公共数据集,只保留在Apache、BSD和MIT许可下发布的项目。

然后用基于行长或字母数字字符比例的启发式方法过滤了低质量的文件,并用正则表达式删除了HTML boilerplate(如<header>等)。

最后在文件层面上对所生成的数据集进行重复计算,并进行精确匹配。

维基百科-占比4.5%

数据集中添加了2022年6月至8月期间的维基百科dumps,涵盖20种语言,包括使用拉丁字母或西里尔字母的语言,具体为bg, ca, cs, da, de, en, es, fr, hr, hu, it, nl, pl, pt, ro, ru, sl, sr, sv, uk;然后对数据进行预处理,以去除超链接、评论和其他格式化的html模板。

Gutenberg and Books3-占比4.5%

训练数据集中包括两个书籍相关的语料库,Gutenberg Project为公共领域的书籍;ThePile中Books3部分是一个用于训练大型语言模型的公开数据集。

预处理操作主要是删除重复内容超过90%的书籍。

ArXiv-占比2.5%

通过处理arXiv的Latex文件将科学数据添加到训练数据集中,删除了第一节之前的所有内容,以及书目;还删除了.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。

Stack Exchange-占比2%

Stack Exchange是一个高质量问题和答案的网站,涵盖了从计算机科学到化学等不同领域。保留了28个最大网站的数据,删除了文本中的HTML标签,并按分数(从高到低)对答案进行了排序。

分词器(Tokenizer)

根据SentencePiece的实现使用字节对编码(byte-pair-encoding,BPE)算法对数据进行分词,其中连续的数字被分割成单个数字。

最终整个训练数据集在分词后获得了大约1.4T的tokens,除了维基百科和图书数据外,其他的数据在训练期间只使用一次,总共进行了约两个epochs

参考资料:

https://www.together.xyz/blog/redpajama

一起交流

想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定o要备注信息才能通过)

format,png

d575dea20edb654139bfddbbb866ea8f.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47740.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023 Prompts_ChatGPT 提示语大全

ChatGPT Prompts 是一个专注于 ChatGPT 提示语的大全集合网站&#xff0c;涵盖了广泛的领域和主题。无论是想在日常生活中获取写作灵感&#xff0c;还是想在科技、文学、医学等领域提升写作效率和质量&#xff0c;用户都可以从该网站中找到适合自己的相关提示语。 该网站提供的…

如何不被薅羊毛

有赞微页面优惠券组件内有个便捷的功能&#xff1a;自动获取本店铺创建的优惠券&#xff0c;便于商家进行营销活动。但如果商家创建了用于测试的优惠券&#xff0c;却未考虑到该券会被微页面自动获取和推广。这时就可能会被消费者薅羊毛。为了避免损失发生&#xff0c;我们需要…

亏大了!一男子薅羊毛 13 万被判 3 年

公众号关注 「奇妙的 Linux 世界」 设为「星标」&#xff0c;每天带你玩转 Linux &#xff01; ​ 近年来&#xff0c;网上读书类APP为推广产品纷纷向用户发放福利券用以尝鲜或追书。然而&#xff0c;这一利好双方的行为&#xff0c;却被不法分子钻了空子。刘某某雇人制作三款计…

薅羊毛的最高境界,解放你的双手

目录提示 引子AutoJs安装开发环境连接手机 编写刷视频的脚本总结 引子 各短视屏平台为了抢占市场&#xff0c;抢占流量大都推出了刷视频红包的功能&#xff0c;作为一个羊毛党来说&#xff0c;哪有那么多时间刷这玩意&#xff0c;工作还干不干了&#xff0c;钱还挣不挣了&…

玩赚亚丁号---薅羊毛专业版

玩赚亚丁号 亚丁号这个软件其实还是蛮简单的&#xff0c;只要会玩手机的都会这个软件没啥难度。其实这个软件相对简单我都不知道说点什么&#xff1f;就按照下面的目录讲解吧&#xff01; 一、自动阅读功能 自动阅读分三个板块”自动刷”、”刷任务”和区块链。其中黄色背景…

为了“薅羊毛”,他注册了20万个假账号,被判刑了!

点击上方 "程序员小乐"关注公众号, 星标或置顶一起成长 每天凌晨00点00分, 第一时间与你相约 每日英文 When you have something you really love but it causes you pain, God is just testing you to see if you are strong enough to hold it. 当你真正喜欢一样东…

企业如何解决被“薅羊毛”?

今日一条新闻大学生用肯德基优惠券漏洞诈骗获刑&#xff0c;冲上了热搜&#xff0c;引起了广大人民的关注。大学生能利用手机端和客户端的数据不同的bug&#xff0c;发起虚假交易&#xff0c;获取退券退款&#xff0c;使被害单位在错误的基础上进行财产处分&#xff0c;进而造成…

薅羊毛专业版第十六次更新

源码链接&#xff1a;https://pan.baidu.com/s/1tK3CbTEl4_ZWqa-2vDxl2w 提取码&#xff1a;kgzz APK下载链接&#xff1a;https://wwe.lanzous.com/ioZxshqzzq 薅羊毛也好撸羊毛也摆反正就是自动阅读亚丁号云控的第十六次更新&#xff1a; 1、陀螺世界增加看AD次数 2、在悬…

2019,我们被“黑”科技薅过的羊毛?

14秒破10亿。 1分36秒破100亿。 1小时3分59秒破1000亿。 …… 在刚刚过去的双十一&#xff0c;天猫不经意间又创造出一组让人叹为观止的数字。 有人感慨国人购买力之恐怖。也有人感怀直播带货之疯狂。有人忙着盘算自己贡献出多少GDP。也有人庆幸自己一觉醒来居然错过了上千…

惊呆了!两人发现抵用券漏洞,疯狂“薅羊毛”获利 770 余万

整理 | 王晓曼 出品 | 程序人生 &#xff08;ID&#xff1a;coder _life&#xff09; 据报道&#xff0c;近日&#xff0c;上海派出所接到报案称&#xff0c;某公司在定期对运营的APP后台进行梳理时发现&#xff0c;2020年11月至12月期间&#xff0c;有约1600笔利用公司发售的抵…

【奶奶看了都会】教你用Python 脚本薅京东签到羊毛

又到了周末的时间&#xff0c;每次周末都得整点花里胡哨的东西玩&#xff0c;今天就来说说怎么用Python脚本自动完成京东签到领京豆 京豆在京东上面可以抵扣运费、充话费等等。京豆获取方式有每日签到、做任务 自动签到脚本 这里用Python写自动化脚本&#xff0c;去做每日签到…

薅了一波羊毛

去年大概在十月份的时候给自己定了一个小目标&#xff0c;从今年开始接触一些投资理财方面的知识。这不今年开始就慢慢实践了&#xff0c;做了一回小白。学着去薅羊毛。 就是我开始在学习基金方面的知识了&#xff0c;我记得早之前说过&#xff0c;这一辈子我应该是不会去碰股票…

CSDN 给你一个薅羊毛的机会!你真的不要吗?

抢红包、集福卡、转锦鲤等等&#xff0c;每年过年过节&#xff0c;各种价值几十亿的瓜分活动&#xff0c;对于网络冲浪选手来说&#xff0c;眼花缭乱但也乐趣满满。 可现实是&#xff1a;你抢了5毛8&#xff0c;人家抢了好几万&#xff01; 甚至前段时间&#xff0c;字节跳动安…

带大家薅点羊毛

阅读本文大概需要 2.9 分钟。 昨天的文章&#xff0c;评论区有人以为我是教大家一些薅羊毛的方法&#xff0c;说实话&#xff0c;我知道的薅羊毛的方法确实不少&#xff0c;甚至认识不少专业的羊毛党&#xff0c;这个领域其实有很多门道&#xff0c;研究的够深&#xff0c;还是…

薅羊毛第三十七次更新

老规矩APK地址&#xff1a;薅羊毛专业版_v1.0.141.apk - 蓝奏云 我的博客地址&#xff1a;亚丁号 源代码地址&#xff1a;薅羊毛专业版.rar - 蓝奏云 更新内容&#xff1a; 1、提供试用版功能 代码我之前应该贴过 /*** */ function computerTrainTime() {try {let trianTi…

卧槽!当当网的羊毛被网友薅惨了!这一次到底被薅了多少?

大家都知道&#xff0c;每年到1024程序员节日&#xff0c;当当都会搞搞活动&#xff0c;但是官方的这个活动只设置了满减规则&#xff1a;每满100减50。其实意味着满100减50&#xff0c;满200减100&#xff0c;满400减200&#xff0c;相当于5折了。 但最近有网友爆料&#xff0…

薅羊毛解释

不少商家都会在促销时发放大量优惠券&#xff0c;然而这些优惠券大部分会被羊毛党抢占。 导致真实用户享受到不了这些优惠&#xff0c;进而对平台产生抵触和抗拒心理&#xff0c;平台的品牌信誉度会受到损害。另一方面&#xff0c;由于拉进来的都是羊毛党&#xff0c;导致商家…

WIN7里使用msg命令发送消息的方法

由于WIN7,WIN8系统安全加强,所以Net Send命令和Messenger服务被取消了. 在WIN7里可以使用msg命令,但是msg命令被严格限制,以防止被病毒利用 使用方法如下&#xff1a; 想使用msg这个命令&#xff0c;首先要修改注册表。 1. 打算接收命令的WIN7,WIN8,WIN2008机器必须修改注册表 …

chatgpt赋能python:Python关键词统计

Python关键词统计 Python是一种高级编程语言&#xff0c;为开发人员提供了许多功能和库。对于SEO来说&#xff0c;Python具有统计网站上的关键词和分析数据的重要功能。在本文中&#xff0c;我们将探讨Python关键词统计和如何在SEO中使用它。 什么是Python关键词统计 Python…

ChatGPT专业应用:自动生成长尾关键词

正文共 368 字&#xff0c;阅读大约需要 2 分钟 品牌运营/SEO投放必备技巧&#xff0c;您将在2分钟后获得以下超能力&#xff1a; 生成长尾关键词 Beezy评级 &#xff1a;B级 *经过简单的寻找&#xff0c; 大部分人能立刻掌握。主要节省时间。 推荐人 | Kim 编辑者 | Linda ●…