揭秘RLHF;可商用开源LLM列表;领域编译器的前世今生

037befb0ca13fb76fbb9848608f6c70f.jpeg

1. GPT创造者:第二次改变AI浪潮的方向

那么,从推动这一系列变革的科学家角度,他究竟如何看待当先ChatGPT、GPT-4模型的发展?他对AI的思考和坚定信念从何而来?OpenAI下一步研究方向是什么?他又如何看待AI对社会的影响?

链接:

https://mp.weixin.qq.com/s/rZBEDlxFVsVXoL5YUVU3XQ

2. 科普:人类反馈的强化学习(RLHF)

ChatGPT中的RLHF究竟是如何运作的?它为什么有效?

链接:

https://huyenchip.com/2023/05/02/rlhf.html

3. ChatGPT作者John Schulman:通往TruthGPT之路

大型语言模型(LLM)有一个众所周知的“硬伤”——它们经常会一本正经编造貌似真实的内容。作为ChatGPT项目的主要负责人以及OpenAI强化学习团队的领导者,John Schulman在最近的Berkeley EECS会议上系统性地分享了OpenAI在人类反馈的强化学习(RLHF)方面所做的工作,以及语言模型的幻觉等亟待解决的问题,同时也介绍了解决这些挑战的潜在思路。

链接:

https://mp.weixin.qq.com/s/snS2ty4x7gJ9QoMxWU0_Lw

4. 为什么ChatGPT用强化学习而非监督学习?

随着ChatGPT等大型语言模型的发布,人们对“RLHF训练(即基于人类反馈的强化学习训练)”的重要性进行了诸多讨论。在训练语言模型方面,我一度困惑于为什么强化学习比从演示中学习(也称为监督学习)更好,难道从演示中学习(或根据语言模型术语中的“指令微调”,学习模仿人类写的回答)还不够?

链接:

https://mp.weixin.qq.com/s/4USDakdomupWuwwhex6fMg

5. 谷歌研究科学家:ChatGPT秘密武器的演进与局限

此前,ChatGPT负责人John Schulman介绍了RLHF想法的起源,关键在于他们在语言模型中应用强化学习,使用人类反馈去定义奖励函数。此外,OpenAI的RLHF所使用的诸多技术也是基于前人研究基础上组合而成的成果,其中就包括Natasha Jaques的工作。

链接:

https://mp.weixin.qq.com/s/HsJmaL3acV2yZJGd2npcLg

6. Constitution AI:训练大型语言模型的最佳方法?

语言模型如何决定它会处理哪些问题以及它认为不合适的问题?为什么它会鼓励某些行为而阻止其他行为?语言模型可能具有哪些“价值观(values)”?

这些都是人们努力解决的问题。Anthropic最近发表的关于“Constitution AI”的研究认为,这种方法为语言模型提供了显式的价值观,而不是通过大规模人类反馈隐式确定的价值观。这不是一个完美的方法,但它确实使人工智能系统的价值更容易理解,也更容易根据需要进行调整。Claude模型就使用Constitution AI进行训练,从而让其更安全。Anthropic认为,这种方法优于用于训练ChatGPT等系统的其他方法。

链接:

1. https://www.anthropic.com/index/claudes-constitution;

2. https://arxiv.org/abs/2212.08073

7. 向量嵌入:AutoGPT的幻觉解法?

此前,OpenAI首席科学家Ilya Sutskever谈到,他希望通过改进强化学习反馈步骤来阻止神经网络产生“幻觉”。不过,向量嵌入(vector embeddings)看上去是解决这一挑战的更为简单有效的方法,它可以为LLM创建一个长期记忆的数据库。通过将权威、可信的信息转换为向量,并将它们加载到向量数据库中,数据库能为LLM提供可靠的信息源,从而减少模型产生幻觉的可能性。

链接:

https://mp.weixin.qq.com/s/Hx52fL9hN5eLA13qJv-VCQ

8. 大语言模型(LLM)微调技术笔记 

在预训练后,大模型可以获得解决各种任务的通用能力。然而,越来越多的研究表明,大语言模型的能力可以根据特定目标进一步调整。这就是微调技术,目前主要有两种微调大模型的方法指令微调、对齐微调,OpenAI发布的ChatGPT主要应用了微调技术,从而获得了惊艳全世界的效果。

链接:

https://github.com/ninehills/ninehills.github.io/issues/92

9. 大型语言模型综述

在这篇综述中,研究者们介绍了大型语言模型的背景、主要研究方向、主流技术以及最新进展。他们特别关注LLM的四个主要方面,即预训练、适应性精调、应用和能力评估。此外,他们还总结了LLM的现有资源,并讨论了未来发展方向等问题。

链接:

https://arxiv.org/abs/2303.18223

10. 那些开源的LLM和数据集、研究洞见

开源的力量正在源源不断地影响着整个 AI 社区,无论是 LLM 还是数据集。本文作者 Sebastian Raschka 对相关资源进行了汇总,并分享了自己的洞见。

链接:

https://mp.weixin.qq.com/s/VleZkQT6Vga7vqZP8pvgQQ

11. Open LLMs:可供商业使用的开源大型语言模型列表

本文列出的 LLM 均已获得商业用途许可(基于 Apache 2.0、MIT、OpenRAIL-M)。

链接:

https://github.com/eugeneyan/open-llms

12. 羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

总的来说,该测试得出的结论是:MPT 还没有准备好在现实世界中使用,而 Vicuna 对于许多任务来说是 ChatGPT (3.5) 的可行替代品。

链接:

https://mp.weixin.qq.com/s/Gg-zbhzJcqmU0guSSvWpXg

13. 大型语言模型的推理演算

本文详细阐述了大型语言模型推理性能的几个基本原理,不含任何实验数据或复杂的数学公式,旨在加深读者对相关原理的理解。此外,作者还提出了一种极其简单的推理时延模型,该模型与实证结果拟合度高,可更好地预测和解释Transformer模型的推理过程。

链接:

https://mp.weixin.qq.com/s/2wfUQNsH4IRuJEF39mebUQ

14. Transformer模型的基础演算

Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是,这些计算公式在自然语言处理(NLP)社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式,并介绍这些公式的来源和重要性。

链接:

https://mp.weixin.qq.com/s/0Er0UOk6Wdky-0gzeQxK0g

15. 机器学习系统的九种设计模式

设计模式是针对软件工程中常见问题的可重复使用、经过时间考验的解决方案。他们将最佳实践和过去的知识进行提炼,成为从业者的实用建议,并提供共享词汇表,以便有效协作。本文作者分享了在机器学习系统中的主要设计模式。

链接:

https://eugeneyan.com/writing/more-patterns/

16. 编译器大佬Chris Lattner全新编程语言「Mojo」:兼容Python核心功能

Mojo结合了Python的可用性与C的性能,释放了AI硬件无与伦比的可编程性和AI模型的可扩展性」—— 它与Python一样易于使用,但具有C++和Rust的性能。此外,Mojo提供了利用整个Python库生态系统的能力。

链接:

https://mp.weixin.qq.com/s/EguqTuzJwehfWm7UqMtbdw

17. 领域编译器发展的前世今生

近年来,随着GPU和DSA架构在不同领域的广泛应用,特别是AI系统相关技术的飞速发展,对于编译器的需求越来越强烈。编译器已经从一个相对小众的研究领域,变为学界和业界都高度关注并大量投入的方向。与此同时,编译器的开发人员也从芯片研发团队开始延伸到更上层的软件层面。在很多领域的软件系统中,都开始引入编译技术来实现提升开发效率或运行效率等目标。本文从领域编译器的角色着眼,来讨论领域编译器发展的前世今生。

链接:

1. https://mp.weixin.qq.com/s/eiQ6dRgDxAR7zkuWCBPfqg

2. https://mp.weixin.qq.com/s/Z6qiwPDevG6mF29TWjOb4g

18. OneFlow源码解析:Eager模式下的设备管理与并发执行

通过这篇笔记,希望能初步了解 OneFlow 在 Eager 模式下对设备的管理方式、设备执行计算的过程以及如何充分利用设备计算能力。这里的设备主要指类似 CUDA 这样的并行计算加速设备。

链接:

https://mp.weixin.qq.com/s/RMF38IlkRcxza6A8W6fG-w

其他人都在看

  • 大型语言模型的推理演算

  • 向量嵌入:AutoGPT的幻觉解法?

  • John Schulman:通往TruthGPT之路

  • 《分布式人工智能系统》讲习班开始报名

  • 为什么ChatGPT用强化学习而非监督学习

  • OneEmbedding:单卡训练TB级推荐模型不是梦

  • GLM训练加速:性能最高提升3倍,显存节省1/3

欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/icon-default.png?t=N4P3http://github.com/Oneflow-Inc/oneflow/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16895.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

物理学又不存在了?ChatGPT:室温超导是物理学的一个梦想

大家好,我是小彭。 就在前天,一组微信聊天记录突然开始在各大群中流传: 随后,这一新闻直接引爆各大社交媒体,物理学又双叒叕不存在了吗? 到底是什么重磅消息呢? 原来在美国物理学会的三月会议…

赣货通全球桥接江西制造全球开花,贸易强国供应链出海江西在奋进

“赣货通全球”平台是什么? “赣货通全球”平台是江西制造进入全球供应链的数字贸易平台,平台免费为江西制造打造永不落幕线上国际化“赣品展”。核心的后台功能为企业用户提供大数据获客及营销功能,同时为企业提供贸易全流程的第三方外贸综合服务&…

从ChatGPT谈AI发展方向:全力助推乡村振兴事业快速发展

随着人工智能技术的不断发展,以ChatGPT为代表的颠覆性AI应用破圈,标志着人工智能领域的重大突破,引发全球共振。不少人将ChatGPT的问世比喻为“蒸汽机”,人工智能就此走向“工业时代”。 ChatGPT相较于之前市面上的所有同类产品&a…

催眠入門指導手冊

作者 迪兰摩根 介绍 第一章 言语能引发妳心中的图像 第二章 关掉肌肉系统 第三章 想象的探索 第四章 引导并控制想象 第五章 探索「诱导」 第六章 催眠后暗示 第七章 抗拒及亲和感 第八章 统合 这本书有如书名所言,主要针对初学者─也就是想要学习如何…

中国版chatGPT【文心一言】

文心一言是一款基于人工智能技术的中文自然语言处理工具,它可以用于文本生成、情感分析、关键词提取等多种应用场景。相比于GPT等其他自然语言处理模型,文心一言有着更多的优势。 首先,文心一言具有更高的准确率和可靠性。它采用了最新的深度…

chatgpt赋能python:Python操作SEO:从抓取网页到数据分析

Python操作SEO:从抓取网页到数据分析 在当今数字化时代,搜索引擎优化已经成为了每家企业的必修课。然而,SEO涉及到众多技术,其中爬虫抓取和数据处理是其中关键环节。而Python语言正是在这两个方面表现出了非常强大的优势。 1. P…

合工大Python爬虫实验——按关键词爬取新闻网站

时隔一年,笔者又拿着实验报告来写篇博客。 实验原理 爬虫实验使用了Python中的requests、beautifulsoup、json和pandas库,requests用于发送HTTP请求,beautifulsoup用于处理并解析响应的HTML文档,json用于解析json数据&#xff…

chatgpt赋能python:爬虫收集数据:提高SEO的重要工具

爬虫收集数据:提高SEO的重要工具 在数字化时代,数据仅仅是一种宝贵的资源,而且是Google的排名算法的关键组件之一。因此,SEO专家需要在确定目标市场时,采用不同的收集数据的工具和技术以获得必要的洞见,并…

Scrapy: 一个强大的 Python 爬虫框架--介绍--下载--启动!!

目录 Scrapy 影响力 介绍 主要特点 架构 运行流程 基本使用 安装 创建 Scrapy 项目 创建爬虫 爬虫包含的内容 运行爬虫 Scrapy 影响力 作为目前爬虫主流框架之一,Scrapy的影响力和应用范围非常广泛: 根据GitHub上的数据,Scrapy是一…

chatgpt赋能python:Python爬虫与炒股

Python爬虫与炒股 Python是一种非常流行的编程语言,在各方面都有着广泛的应用。其中之一就是利用Python爬虫技术进行炒股分析。 什么是Python爬虫 简单说,Python爬虫是一种通过编写程序,从互联网上抓取数据的技术。其核心在于模拟浏览器行…

python爬虫爬取今日头条_python 简单爬取今日头条热点新闻(一)

今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的; 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式network下很快能找到一个‘?category=new_hot...’字样的文件,查看该文件发…

基于python的数据爬虫学习与体会

文章目录 一、从Python编程基础中简述爬虫应用都会用到哪些pip模块以及对应的功能。pip install reqeustspip install bs4pip install pandaspip install seleniumpip install sqlalchemypip install pymongopip install gerapy_auto_extractorpip install gerapypip install s…

采用ChatGPT对强化学习A2C源代码添加注释说明

强化学习中的Actor-Critic算法是一种普遍经常用到的经典算法,Actor-Critic 翻译成“演员—评论家”方法。策略网络 π(a|s;θ) 相当于演员,它基于状态 s 做出动作 a。价值网络 q(s,a;w) 相当于评论家,它给演员的表现打分,量化在状…

【哈士奇赠书活动 - 25期】-〖Python自动化办公应用大全(ChatGPT版) 〗

文章目录 ⭐️ 赠书 - 《Python自动化办公应用大全(ChatGPT版)》⭐️ 内容简介⭐️ 作者简介⭐️ 编辑推荐⭐️ 赠书活动 → 获奖名单 ⭐️ 赠书 - 《Python自动化办公应用大全(ChatGPT版)》 ⭐️ 内容简介 本书全面系统地介绍了P…

ChatGPT常用的指令(prompts)系列八-写作、UI设计、招聘、网路安全

系列文章目录 内容翻译自:https://github.com/f/awesome-chatgpt-prompts,并加入自己的实践内容 1、 ChatGPT常用的提示语(prompts)系列一 2、 ChatGPT常用的提示语(prompts)系列二 3、 ChatGPT常用的提示语…

史上AI最高分!谷歌大模型创美国医师执照试题新纪录,科学常识水平媲美人类医生...

杨净 羿阁 发自 凹非寺量子位 | 公众号 QbitAI 史上AI最高分,谷歌新模型刚刚通过美国医师执照试题验证! 而且在科学常识、理解、检索和推理能力等任务中,直接与人类医生水平相匹敌。在一些临床问答表现中,最高超原SOTA模型17%以上…

首位华人女数学家获拉马努金奖!北大数院校友,陶哲轩恽之玮曾得过此奖

白交 发自 凹非寺量子位 | 公众号 QbitAI 又一位北大数院校友——唐云清,斩获拉马努金奖。 此前,00级校友张伟、恽神恽之玮,03级校友、浙大教授刘一峰曾获此奖。 △图源:George BergmanUC伯克利 除此之外,还有像陶哲轩…

chatgpt赋能Python-python_hanoi

Python Hanoi - 轻松解决汉诺塔问题 如果你是一位对算法有一定了解的程序员,那么你一定听说过汉诺塔问题。这个问题是计算机科学中最常见和最有趣的问题之一。这个问题听起来似乎很简单,但实际上很多程序员也会在这个问题上遇到困难。在这篇文章中&…

吴恩达的2022年终盘点:生成式AI、ViT、大模型

Datawhale干货 作者:吴恩达,斯坦福大学,编辑:智源社区 近日,吴恩达在圣诞节的《The Batch》特刊上发布了一年一度的年终盘点。在过去的一年,生成式AI迎来爆发式增长,由人工智能生成的图片在社交…

讯飞星火认知大模型 VS CHATGPT3.5

2023年5月6日,科大讯飞(002230.SZ)宣布将于当日举行“讯飞星火认知大模型”成果发布会。 与其他厂商的大模型发布相比,本次发布会具有三个特点:1.全程真机互动,现场实测、现场体验;2.技术先进性不是笼统表达&#xff…