本次演讲,我们将介绍一种称之为从人类反馈中强化学习 (RLHF, Reinforcement Learning from Human Feedback) 的基础知识,以及如何使用 RLHF 驱动实现 ChatGPT 这样的工具。我们将为大家介绍相关联的机器学习模型,涵盖自然语言处理 (NLP) 和强化学习,以带领读者了解如何在大型语言模型上使用 RLHF。我们也欢迎你在 YouTube 直播间向我们提出任何关于 RLHF 相关的问题。
演讲嘉宾
Nathan Lambert 是一名在 Hugging Face 工作的研究科学家,他获得了加州大学伯克利分校的博士学位,研究机器学习和机器人的交叉领域。他的导师是 Berkeley Autonomous Microsystems Lab 的 Kristofer Pister 教授和 Meta AI Research 的 Roberto Calandra,并于博士期间在 Meta AI 和 DeepMind 团队实习。Nathan 曾获得加州大学伯克利分校电子工程与计算机科学系的 Demetri Angelakos 利他主义纪念成就奖,以表彰他为改善社区规范所作的努力。
直播时间
2022 年 12 月 14 日 凌晨 0:30 (今晚),时长预期不会超过 1 个小时
参与直播
条件允许的情况下,我们 强烈建议 你直接到全球社区参与:
https://www.youtube.com/watch?v=2MBJOuVq380
活动转播
哔哩哔哩平台:
https://live.bilibili.com/26543157
微信视频号平台活动预告:
活动转播免责声明
我们会尽最大努力为社区成员们提供良好的转播体验,同时请参会者务必谅解,如果发生任何问题导致活动转播取消或无法进行,我们将不另行发文通知。请到上方的 YouTube 链接直接参与,会后我们会在一周内上传回放录像,敬请关注。
你也可以分享我们的活动海报到朋友圈帮助我们宣传:
交流 / 等回放群
群聊免责声明
请只讨论与群聊主题相关的内容,勿讨论任何违反法律和 Hugging Face 社区规定的内容
我们会非常积极的清理发送垃圾信息和违规内容的群成员,如果您认为自己被误伤,请向群主和管理员提出异议
请勿在群内无故批量添加好友,一经发现,我们将永久禁止你参与任何我们的活动,如果你发现自己的隐私被侵犯,请直接拨打 110 报警
本次活动完成之后,本群主题将变为深度强化学习课程讨论
如果群满,请加小助手 chenglu169 拉你进群,备注 HF 1214 活动
参加 Hugging Face 深度强化学习课程
我们在公众号成立的 首推文章 里介绍过,12 月 5 日我们将开启一个完全免费的在线课程:深度强化学习课程 v2.0,这个课程由 8 个单元组成,每单元都有理论、实践和挑战部分,学员们可以通过这个课程研究深度强化学习,以及在 SnowballFight, Huggy the Doggo 🐶, MineRL (Minecraft ⛏️), VizDoom (Doom) 和经典环境 (如 Space Invaders 和 PyBullet) 中训练 Agents。如果完成并通过了 80% 的作业,还可以获得课程证书。
这个课程的第一单元已经发布,其他单元的内容正在持续更新中,未来也将加入更多从人类反馈中强化学习 (RLHF) 的内容,我们也录制了一个针对本课程的介绍,请关注今日推送的次条查看视频。
注册课程:
http://eepurl.com/ic5ZUD课程大纲:
https://simoninithomas.github.io/deep-rl-course/第一单元内容:
https://hf.co/deep-rl-course/unit1/introduction
感谢社区成员「茶叶蛋蛋」为本次活动设计的的各种图像资源!