李飞飞高徒教你从0到1构建GPT,马斯克点赞

詹士 发自 凹非寺
量子位 | 公众号 QbitAI

“从0到1手搓GPT”教程来了!

视频1个多小时,从原理到代码都一一呈现,训练微调也涵盖在内,手把手带着你搞定。

f877e8ef0720196b8ae9540735c2d1b2.jpeg

该内容刚发出来,在Twitter已吸引400万关注量,HackerNews上Points也破了900。

连马斯克也下场支持。

595bcd698b9f77d1e0ef8ce5a7ccfc76.jpeg

评论区更是一片锣鼓喧天鞭炮齐鸣,网友们纷纷马住。

cb3791896074989fbfc8fd18a27c907d.jpeg

有人评价,Andrej确实是一位出色的“事物解释者”,也热心于回答大家的问题。

edaed16071fdc8c91348b1af3941d3b7.jpeg

还有网友更夸张,称该教程简直是来“救命”。

eff4898d7c61c2f7f940eb273c267533.jpeg

那么,这位活菩萨是谁?

正是前特斯拉AI总监,李飞飞高徒——Andrej Karpathy

3736a6c8744e522add59b3e4627ac261.jpeg

教程具体说了什么?

这就来展开讲讲。

从零构建GPT,总共几步?

视频教程先从理论讲起。

第一部分主要关于建立基准语言模型(二元)以及Transformer核心注意力机制,以及该机制内节点之间的信息传递,自注意力机制理论也有涉及。

该part内容长度超过1小时,不仅有概念解释,还教你如何使用矩阵乘法、添加softmax归一化,可谓“夯实基础”式讲解。

232d354d4d95ccb3b8ec966687f23f0b.jpeg

接着讲述构建Transformer。

这当中涉及了多头注意力(包括如何插入自注意力构建块)、多层感知机(MLP)、残差连接、归一化方法LayerNorm以及如何在Transformer中添加Dropout Notes…….

然后,作者会带大家训练一个模型,当中会用到一个名为nanoGPT的库,可调用GPT-2参数,快速完成GPT模型的训练。

教程中,作者还将所得模型与Open AI的GPT-3比较。两者规模差距达1万-100万倍,但神经网络是相同的。另一个将拿来比较的是人尽皆知的ChatGPT,当然,我们目前所得只是预训练模型。

2f441804a3c9ab5321eb33ea0add8df8.jpeg

在上述内容引导下,我们已得一个10M参数规模的模型,在一个GPU上训练15分钟,喂给1MB大小的莎士比亚文本数据集,它就能像莎士比亚一样输出。

比如下面两张图,你能分辨哪个是真人莎士比亚写的吗?

b4c0634c1508480ab75f9b79527f0c61.png

评论区有人好奇选什么GPU资源。作者也分享了下——自己用的是Lambda的云上GPU,这是他目前接触按需计费GPU中,最简单的渠道。

光说不练不行,作者还给出一些课后练习,总共四道题,包括:

  • N维张量掌握挑战;

  • 在自己选择的数据集上训练GPT;

  • 找一个非常大的数据集,基于它训练Transformer,然后初始化再基于莎士比亚数据集微调,看能否通过预训练获得更低的验证损失?

  • 参考Transformer相关论文,看看之前研究中哪些操作能进一步提升性能;

神器nanoGPT也刚发布

前文提及,作者之所以能快速完成训练GPT,有赖于一个名nanoGPT的库。

这也是本教程作者前几天刚发布的利器,由2年前的minGPT升级而来,只是换了个更“标题党”的名字,自称纳米级(nano)。目前,其在GitHub所获star已超8k,网友连连点赞。

1573308ab954748964986742fa815e23.png

据作者介绍,该库里面包含一个约300行的GPT模型定义(文件名:model.py),可以从OpenAI加载GPT-2权重。

还有一个训练模型PyTorch样板(文件名:train.py),同样也是300多行。

对想上手的AI玩家来说,无论是从头开始训练新模型,还是基于预训练进行微调(目前可用的最大模型为1.3B参数的GPT-2),各路需求均能满足。

d8a9ba38141b6787ed73910350d06dfb.png
 一个训练实例展示

据作者目前自己的测试,他在1 个 A100 40GB GPU 上训练一晚,损失约为 3.74。如果是在4个GPU上训练损失约为3.60。

如果在8个A100 40GB节点上进行约50万次迭代,时长约为1天,atim的训练降至约3.1,init随机概率是10.82,已将结果带到了baseline范围。

dd72194284c29b515befc2412ec8e856.png

对macbook或一些“力量”不足的小破本,靠nanoGPT也能开训。

不过,作者建议使用莎士比亚(shakespeare)数据集,该数据集前文已提及,大小约1MB,然后在一个很小的网络上运行。

据他自己亲身示范,创建了一个小得多的Transformer(4层,4个head,64嵌入大小),在作者自己的苹果AIR M1本上,每次迭代大约需要400毫秒。

(GitHub上nanoGPT链接附在文末,有需要的朋友自取)

One More Thing

此番教程作者Karpathy Andrej在圈内早已颇有名气,他在斯坦福时,师从华人AI大牛李飞飞,后又曾工作于Open AI。

此前,Karpathy就在致力于让更多人接触了解神经网络和相关数据集。2020年8月,他就曾发布nanoGPT前一代,MinGPT,同样旨在让GPT做到小巧、简洁、可解释,同样主打——300行代码解决问题。

Karpathy另一个身份是前特斯拉AI核心人物。

在马斯克麾下,他历任特斯拉高级AI主管、特斯拉自动驾驶AutoPilot负责人、特斯拉超算Dojo负责人、特斯拉擎天柱人形机器人负责人…

2022年7月,Karpathy Andrej离职,在业内引发不小讨论。当时他就表示,未来将花更多时间在AI、开源技术教育上。

这回发布的从0开始构建GPT课程,正是他教学计划的一部分。

  • 课程视频:

https://www.youtube.com/watch?v=kCc8FmEb1nY

  • nanoGPT GitHub链接:

https://github.com/karpathy/nanoGPT

参考链接:
[1]https://twitter.com/karpathy/status/1615398117683388417?s=46&t=69hVy8CNcEBXBYmQHXhdxA
[2]https://news.ycombinator.com/item?id=34414716

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~

25defb5627ca1715d0bf06080c50de7f.jpeg

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/68351.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

马斯克、米哈游轮番注资,AI医疗会是下一个风口吗?

图片来源:由无界AI生成 医疗健康一直都是老生常谈的话题,如今这个领域正面临着诸多挑战,如成本不断攀升或是全球性流行病等,而脑机接口等AI技术的出现有望为医疗领域提供新的解决方案。 如果你是科幻迷,你可能对脑机接…

《战略品牌管理》思维导图,教你如何对品牌进行管理

品牌一直在我们的生活中扮演了很重要的作用,它影响了我们的决策,甚至让我们痴迷。可是很少有人真正理解它的本质以及它是怎么建立并成长的,而战略品牌管理知识便是这样管理品牌的一本书,它能帮我们解释我们生活中的很多现象&#…

薅羊毛我愿称Python为最强,Python 自动化带你轻松赚钱

ps:本文仅限用于技术交流,请勿用于其他用途。 准 备 工 作 在编写代码之前,需要做如下准备工作: 1、配置好 Android ADB 开发环境 2、Python 虚拟环境内安装 pocoui 依赖库 3、操作剪切板的应用 APK 编 写 代 码 我们分 7 …

薅羊毛算副业吗?薅羊毛到底是怎么赚钱的?

薅羊毛算副业吗?薅羊毛到底是怎么赚钱的? 薅羊毛当然也算是一种副业! 薅羊毛拿佣金的起初,我的原因应该跟大部分人事一样的,“挣钱”。 我是先在知乎上,小红书大概了解的“薅羊毛”的运作方式,然后加入一个羊毛裙看了一下别人是怎么操作的,当时觉得也是很简单的,每…

羊毛大军杀入币圈,有人月入过万,有人惨遭反薅,沦为韭菜

文 | 棘轮 比萨 空投糖果、“月入过万”、“躺赚”……羊毛党大军,早已杀入币圈。 羊毛党圈流传的“史上最贵羊毛”——ONT空投,就出自币圈。甚至有职业羊毛党因此购入保时捷。 相较于互联网圈“羊毛”,币圈“羊毛”往往不需注册、实名验证。…

知乎带货月入过万的赚钱路子,前期操作后期可躺赚

如果说网络上有哪些值得投入并真正当做一个优质副业项目来操作的话,知乎好物推荐应该算一个,今天就跟大家聊聊知乎好物这个网络赚钱项目。 目前已经有很多小伙伴以此为副业,并且取得了很好的成绩,做到了睡后收入。 知乎好物&…

技术创造价值,手把手教你薅羊毛篇

距离上一篇年终总结的文章已经过了3个多月了,在年终总结中写到了利用脚本自动薅羊毛的话题,评论里有不少小伙伴比较感兴趣。so,今天就来给大家详细介绍一下如何让技术创造价值(得给薅羊毛上升一个层次)。本文没有什么技…

CSDN是如何让我副业月入过万的?

始 我跟 CSDN 的缘分要从 2011 年说起,当时我正上高二,当时好像是在搞鼓 MFC。当时家里有了第一台电脑,我也再也不用去黑网吧去敲代码了,在家搜索资料的时候出现在我眼帘之中,并且对我有帮助的基本上都是 CSDN 上的内…

薅羊毛 | Python 自动化带你轻松赚钱

作者:星安果 来源:AirPython 阅读文本大概需要 10 分钟。 1 目 标 场 景 最近,有一个朋友告诉我,她在某平台上购买了一部手机,收到货之后发现商品质量挺好的,价格也不贵。 临了随手给了个好评,商…

来来来,教你如何智慧薅羊毛!

提到边缘计算,熟悉ToB技术的朋友,首先可能想到的就是运营商的5G MEC(移动边缘计算),以及云计算中的融合边缘系统理念。 的确,作为全球公认的创新技术趋势,边缘计算如今已经被广泛用于云计算、5G…

互联网薅羊毛指南

点击上方“程序猿杂货铺”,“星标或置顶公众号” 第一时间获取价值内容 阅读本文大概需要 9 分钟 本文经授权转载于公众号 | Python爱好者社区 作者 | 王大伟 微软最有价值专家(MVP) 薅羊毛,一种参与各种优惠活动的新型说法&#…

CSDN给你一个薅羊毛的机会!你真的不要吗?

抢红包、集福卡、转锦鲤等等,每年过年过节,各种价值几十亿的瓜分活动,对于网络冲浪选手来说,眼花缭乱但也乐趣满满。 可现实是:你抢了5毛8,人家抢了好几万! 甚至前段时间,字节跳动安…

go-cqhttp QQ机器人入门

有关go-cqhttp QQ机器人的一些小问题 基础介绍介绍一些名词***2022-04-07更新***小问题汇总: 基础介绍 go-cqhttp机器人是基于onebot协议的一个应用,官网:https://docs.go-cqhttp.org/可以制作QQ机器人。娱乐性还是蛮强的。之前研究的时候发现网上的教程…

【Re:从零开始的QQ机器人搭建】——基于go-cqhttp和python

【Re:从零开始的QQ机器人搭建】—— 基于go-cqhttp 警告:小心智械危机( 前言 之前酷Q用的好好的,谁知道刚打完工会战不到2天tx就封了大部分机器人。所幸小部分有生力量保留了下来,必可活用于下次机器人搭建。 一、…

使用NoneBot2可视化平台搭建QQ聊天机器人:本地和云部署教程

NoneBot是一个基于Python 3.8的异步、开源和可扩展的框架,用于构建和运行聊天机器人,支持各种聊天平台,如Telegram,Discord和WeChat。它是基于nonebot库构建的,提供了一个易于使用的界面,用于创建聊天机器人…

教你使用python搭建QQ机器人

注:本文中Linux系统指令均为Ubuntu使用,centos等请根据指令按系统情况改动。 目录 一、环境配置 二、配置go-cqhttp 三、安装nonebot 四、运行机器人 五、插件 六、最后 一、环境配置 1、python版本>3.8.0。如果版本不对请更新版本&#xff0c…

中级 PHP 程序员应该掌握的面试题

PHP 不仅是世界上最好的语言,还是世界上最奇特的语言,奇特之处是很多难以理解的语法,还有一眼看不出运行结果的程序。下面我整理了几道中级水平的面试题,大家可以看看: 请选择以下代码运行的结果: 程序解释…

“二向箔”其实并不存在丨《三体》里的数学问题

《三体》电视剧的播出,还原了很多原著小说中的“名场面”,引发了公众和书迷的广泛关注和讨论。对于等不及电视剧更新去翻书的人,亦或是“原著党”的脑海里,“名场面”一定少不了《三体3:死神永生》中,“歌者…

疫情期间再读三体(2)——程心为啥这么讨人厌

最近疫情期间看完我的三体这部三体改编的神级动画后,又把三体的小说找出来读了一遍,最近把第三部看完了,其中程心是这一部的主要角色,其中很多的剧情都是靠这个人物进行推动的。这个剧情人物也展开大家大量的讨论,下面…

最近爆火的“元宇宙”概念,是在“割韭菜”吗?

来源:物联网智库好像一夜之间,元宇宙火出了圈。其概念不仅引发投资界和科技圈的关注,就连近日上映的科幻电影《失控玩家》也贴上了“元宇宙”的标签,为这一概念推波助澜。 科技巨头们都争先恐后地想往自己身上贴上“元宇宙”的标签…