不花钱,让「情圣」ChatGPT教你怎么追马斯克!

56e67aa92146688039fa5117a9ff6fdb.jpeg


  视学算法报道  

编辑:编辑部

【导读】如今爆火的ChatGPT,曾经和马斯克还有一段七年的「纠葛」。

最近,OpenAI发布了史上最强聊天机器人ChatGPT,这个诞生于GPT-3基础上的AI很快走红网络。

要说这家伙,天南海北无所不知,可能是夸张了点,但就是无论什么话题都能跟你聊上一大套,先不说准不准,最起码这个范儿是在这儿了

863664f0042a28a32eab1e93aab552c5.png

有趣的是,虽然作为联合创始人的马斯克,早在2018年就辞去了董事会职务,但他对OpenAI的关注度却丝毫不减,并仍然是资助人之一。

那么,对于这位「金主爸爸」,ChatGPT是怎样看待的呢?

ChatGPT教你怎么追马斯克


1ab43cd58214c5abcb7678d64bc7f16c.png

嗯……非常中规中矩的回答。不会出错,好样的。

那让咱们更进一步,请ChatGPT教教我们:怎么才能追到马斯克呢?

5a65bed8734728a03370a622c42be755.png

看来,ChatGPT不太能理解咱们中国话里的「追」,还是得说得直白一些。

这次,ChatGPT能get到了,而且回答也非常「理智」:建议您不要尝试。

06268b884bb0066883d263cd82012b9d.png

嗯,很中肯的意见。

那再换一种说法呢,直接做老公行不行?

b3ffe3a93084aca37b7070bd7c34b37d.png

好家伙,ChatGPT竟然还懂这呢!

算了,放弃了,不如还是说说别的事吧。

最近,马院士把床和洗衣机都搬进了推特总部,誓要让推特员工们以公司为家。

不如充分发挥ChatGPT的长处,赞美一下996吧!

fd9b4e57b6b5d1e1f018d8a62837a928.png

写得很好,但不要再写了……

不如……咱们让ChatGPT来写一首贬低自己的诗,如何?

e17290dcd20ba36d2be2d2e757fc9086.png

「他们说话不会抖,思考无需深沉……」小编承认,这的确是诗没错!

OpenAI:七年了,你知道这七年我是怎么过的吗?


可以说,经历了这段时间的火爆,ChatGPT也再度燃起了人们对AI发展的信心和展望,不管是对AGI重燃信心的,还是认为AI将在更多领域取代人类的,都在ChatGPT身上重新看到了希望。

作为一手打造ChatGPT的OpenAI,从GPT1到GPT3,一路都经历了哪些历程呢?从2015年马斯克牵头成立,到2022年底ChatGPT的横空出世,这7年OpenAI是怎么过来的?

最近,Business Insider上的一篇回顾性文章带我们简单回顾了OpenAI的「这七年」。

2015年,马斯克和著名孵化器Y Combinator前总裁Sam Altman共同创立了OpenAI。

4278badf5b4a0af8c3a87c386dd4b916.jpeg

马斯克、奥特曼和其他知名的硅谷人物,包括彼得-蒂尔和LinkedIn联合创始人里德-霍夫曼,在2015年向该项目认捐了10亿美元。

根据OpenAI网站2015年12月11日的一份声明,该集团旨在创建一个非营利组织,「以最有可能使整个人类受益的方式」专注开发人工智能。

当时,马斯克说,人工智能是对人类「最大的生存威胁」。

64670757e8bfd76a2e2671efaa8c44a0.jpeg

当时,马斯克并不是唯一一个对人工智能的潜在危害性提出警告的人。

2014年,著名物理学家斯蒂芬·霍金也曾警告说,人工智能可能会终结人类。

「很难想象人类水平的人工智能会给社会带来多大的好处,同样也很难想象,如果对人工智能开发或使用不当,会给社会带来多大的损害。」在宣布成立Open AI的声明中这样写道。

在接下来的一年里,OpenAI发布了两款产品。

2016年,OpenAI推出Gym,一个让研究人员开发和比较强化学习AI系统的平台。这些系统教人工智能来做出具有最佳累积回报的决定。

同年晚些时候,OpenAI发布了Universe,这是一个用于训练跨网站和游戏平台的智能代理的工具包。

2018年,在共同创立该公司三年后,马斯克辞去了在OpenAI董事会的职务。

85ff8dfb3ed051bf857f649f419f0863.png

在2018年的一篇博文中,OpenAI表示,由于汽车制造商对人工智能的技术关注,马斯克从董事会辞职是为了「消除未来的潜在冲突」。

多年来,马斯克一直向特斯拉的投资者力推电动汽车自动驾驶的开发计划。

不过马斯克后来说,他之所以退出,是因为他当时「不同意OpenAI团队想做的一些事情」。

ec467fd1c8792b4574754774c92b3003.jpeg

2019年,马斯克在Twitter上说,特斯拉也在争夺与OpenAI相同的一些员工,并补充说他已经有一年多没有参与这家公司的事务了。

他说:「如此看来,最好还是以彼此都满意的条件分道扬镳。」

马斯克近年来不断对OpenAI的一些做法提出异议。

eb8fdf3deb8a4c27b7c0c364e4bbe7ab.jpeg

2020年,马斯克在推特上表示,说到安全问题,他对OpenAI高管的信心「不够足」。

4f471cfee27de0fb7ea9e10d82dbd239.png

在回应MIT「科技评论」对OpenAI的调查报道时,马斯克表示,OpenAI应该更加开放。这一报道认为,OpenAI内部存在一种「保密文化」,这和该组织声称的开放透明的策略背道而驰。

最近,马斯克说,他已经暂停了OpenAI对Twitter数据库的访问权限,OpenAI一直使用Twitter的数据训练软件。

马斯克表示,需要进一步了解OpenAI的治理结构和未来的收入计划。OpenAI是以开源和非营利为宗旨创办的,这两样现在都丢掉了。

2019年,OpenAI建立了一个人工智能工具,可以生成虚假的新闻报道。

66cc6600893c4117944de1dc862c8eaa.jpeg

起初,OpenAI说这个机器人在写假新闻方面非常出色,所以决定不发布它。不过当年晚些时候,该公司发布了人这款工具的一个版本,称为GPT-2。

2020年,发布了另一个名为GPT-3的聊天机器人。同年,OpenAI撤下了「非营利组织」的身份。

80023ac74458259e1801fb350a5ddd2e.jpeg

该公司在一篇博文中宣布,OpenAI已成为一家制定了「利润上限」的公司。

OpenAI表示,我们希望提高我们筹集资金的能力,同时仍然为我们的使命服务,而我们所知道的任何现有的合法结构都无法达到适当的平衡。我们的解决方案是创建OpenAI LP,作为营利性和非营利性的混合体,我们称之为「加了上限的营利公司」。

在新的利润结构下,OpenAI的投资者最多可以赚取其原始投资的100倍,超过这个数字的剩下的钱将用于非营利性事务。

2019年底,OpenAI宣布与微软合作,微软向这家公司投资了10亿美元。OpenAI表示,它将向微软独家授权技术。

0f3f698657fbfaf03e7bfbd327f10e6e.jpeg

微软表示,通过GPT-3模型打造出的商业和创造潜力是无限的,很多潜在的新能力和新应用,甚至超出了我们的想象。

比如在写作和作曲上、在描述和总结大块长篇数据(包括代码)上、在将自然语言转换为另一种语言等领域,GPT-3能够直接激发人类的创造力和聪明才智,未来的局限可能在于我们自己的想法和方案。

这种伙伴关系,让微软能够与谷歌旗下同样风头正劲的AI公司DeepMind竞争。

去年,OpenAI发布了一个人工智能画作生成工具:Dall-E。

5000fc36bc1535662ab45ea003143803.jpeg

Dall-E是一个人工智能系统,可以根据图像的描述创造出逼真的图像,甚至能够达到相当的艺术水准,11月,OpenAI发布了该程序的更新版本,Dall-E 2。

虽然OpenAI的聊天机器人在过去一周已经「起飞」,但该软件的更新版本可能最快会在明年才能发布。

fc9439bad8808eded55a52e43454e2ae.jpeg

11月30日,作为演示模型发布的ChatGPT算得上是OpenAI的「GPT-3.5」。该公司计划接下来发布完整版的GPT-4。

与此同时,马斯克还在发表评论:

2880a21caae02d5ad792b02f8592bdec.jpeg

他在回复Sam Altman在谈论ChatGPT的推文中称,我们离强到危险的AI的诞生已经不远了。

揭秘爆火ChatGPT后的功臣:RLHF


而要说ChatGPT的爆火,离不开它背后的功臣——RLHF。

OpenAI的研究人员,是使用与InstructGPT相同的方法——来自人类反馈的强化学习(RLHF)来训练ChatGPT模型的。

e78a88360351c8693e6360b06cd99703.png

ChatGPT用中文解释什么是RLHF

为什么会想到从人类反馈中强化学习呢?这就要从强化学习的背景说起。

在过去几年里,语言模型一直是通过人类输入的提示生成文本的。

然而,什么是「好」的文本呢?这很难定义。因为判断标准很主观,并且非常依赖于上下文。

在许多应用程序中,我们需要模型去编写特定创意的故事、信息性文本片段,或可执行的代码段。

而通过编写一个损失函数来捕获这些属性,又显得很棘手。并且,大多数语言模型仍然使用的是下一个标记预测损失(例如交叉熵)进行训练。

为了弥补损失本身的缺点,有人定义了能够更好地捕捉人类偏好的指标,比如BLEU或ROUGE。

06d0f91f716f6ae64d73ea10c7387a87.png

但即使是它们,也只是简单地将生成的文本与引用进行比较,因此也有很大的局限性。

在这种情况下,如果我们使用生成文本的人工反馈作为损失,来优化模型,不是很好吗?

就这样,从人类反馈中强化学习(RLHF)的想法诞生了——我们可以使用强化学习,直接优化带有人类反馈的语言模型。

7009629dd53a1c4bea11a7abb5fe9bdf.png

ChatGPT用英文解释什么是RLH

是的,RLHF使语言模型能够将在一般文本数据语料库上训练的模型,与具有复杂人类价值观的模型对齐。

在爆火的ChatGPT中,我们能看到RLHF取得的巨大成功。

RLHF的训练过程,可以分解为三个核心步骤:

  1. 预训练语言模型(LM),

  2. 收集数据并训练奖励模型,

  3. 通过强化学习微调LM。

预训练语言模型


第一步,RLHF会使用已经用经典预训练目标进行了预训练的语言模型。

比如,OpenAI在第一个流行的RLHF模型InstructGPT中,使用了较小版本的 GPT-3。

这个初始模型也可以根据额外的文本或条件进行微调,但并不是必要的。

一般来说,对于「哪种模型」最适合作为RLHF的起点,并没有明确的答案。

接下来,为了得到语言模型,我们需要生成数据来训练奖励模型,这就是将人类偏好集成到系统中的方式。

6b6549b21e6ddbdad70b19bc37a524e6.png

奖励模型训练


生成一个根据人类偏好校准的奖励模型(RM,也称为偏好模型)是RLHF中相对较新的研究。

我们的基本目标是,获得一个模型或系统,该模型或系统接收一系列文本,并返回一个标量奖励,这个奖励要在数字上代表人类偏好。

这个系统可以是端到端的LM,或输出奖励的模块化系统(例如,模型对输出进行排序,并将排名转换为奖励)。作为标量奖励的输出,对于稍后在RLHF过程中无缝集成的现有RL算法至关重要。

这些用于奖励建模的LM可以是另一个经过微调的LM,也可以是根据偏好数据从头开始训练的LM。

RM的提示生成对的训练数据集,是通过从预定义数据集中采样一组提示而生成的。提示通过初始语言模型生成新文本。

然后,由人工注释器对LM生成的文本进行排名。人类直接对每段文本打分以生成奖励模型,这在实践中很难做到。因为人类的不同价值观会导致这些分数未经校准而且很嘈杂。

有多种方法可以对文本进行排名。一种成功的方法是让用户比较基于相同提示的两种语言模型生成的文本。这些不同的排名方法被归一化为用于训练的标量奖励信号。

有趣的是,迄今为止成功的RLHF系统都使用了与文本生成大小相似的奖励语言模型。可以推测,这些偏好模型需要具有类似的能力来理解提供给它们的文本,因为模型需要具有类似的能力才能生成所述文本。

此时,在RLHF系统中,就有了一个可用于生成文本的初始语言模型,和一个接收任何文本并为其分配人类感知程度分数的偏好模型。接下来,就需要使用强化学习(RL)来针对奖励模型优化原始语言模型。

2ad76d62ee9366cd75445df2ace998c3.png

使用强化学习微调


这个微调任务,可以表述为RL问题。

首先,该策略是一种语言模型,它接受提示并返回一系列文本(或只是文本的概率分布)。

该策略的动作空间是语言模型词汇对应的所有token(通常在50k个token数量级),观察空间包括可能的输入token序列,因而相当大(词汇量x输入的token数量)。

而奖励函数是偏好模型和策略转变约束的结合。

在奖励函数中,系统将我们讨论过的所有模型,组合到RLHF过程中。

根据来自数据集的prompt x,会生成两个文本y1y2——一个来自初始语言模型,一个来自微调策略的当前迭代。

来自当前策略的文本被传递到偏好模型后,该模型会返回一个关于「偏好」的标量概念——rθ。

将该文本与来自初始模型的文本进行比较后,就可以计算对它们之间差异的惩罚。

107b07da5fdeee4e1abc977eba1e1ec5.png

RLHF可以通过迭代更新奖励模型和策略,从这一点继续。

随着RL策略的更新,用户可以继续将这些输出与模型的早期版本进行排名。

这个过程中,就引入了策略和奖励模型演变的复杂动态,这个研究非常复杂,非常开放。

参考资料:

https://www.4gamers.com.tw/news/detail/56185/chatgpt-can-have-a-good-conversation-with-you-among-acg-and-trpg-mostly

https://www.businessinsider.com/history-of-openai-company-chatgpt-elon-musk-founded-2022-12#musk-has-continued-to-take-issue-with-openai-in-recent-years-7

e760f3b53e9425c9d59e038993e9cc69.png

outside_default.png

点个在看 paper不断!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11796.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

埃隆·马斯克的30句创业语录 | 每天用ChatGPT解读1位大佬语录

埃隆里夫马斯克(Elon Reeve Musk)是一位工程师、企业家和冒险家,被誉为活着的商业传奇。他是人类历史上首位身价超过3000亿的人,也是《2021年胡润全球富豪》榜单中的世界首富。马斯克是特斯拉的创始人,同时担任太空探索…

马斯克卸任推特CEO?谁赞成谁反对!

本文作者:万户 来源:WiFi新连接 这次,马斯克会“玩脱”吗? 12月19日,马斯克发布了一条推特投票:“我是否应该卸任推特CEO”,并承诺他将遵守此次投票结果。 在发起投票后,他特意又好心…

又一个让马斯克害怕的“推特杀手”出现了

又一款挑战 Twitter 的去中心化社交应用 Damus,现已正式登陆 App Store。 Damus 在 Apple App Store 上架 2 月 1 日,Twitter 前 CEO Jack Dorsey 发推称,基于去中心化社交媒体协议 Nostr 的社交产品 Damus 已上线苹果 App Store&#xff0…

马斯克 440 亿美元收购 Twitter,转身炒掉 CEO、计划裁员75%!

作者 | 唐门教主 出品 | CSDN(ID:CSDNnews) 历时数月几经反悔,马斯克终于还是收购了 Twitter。 北京时间 10 月 28 日,据包括 BBC、华盛顿邮报等在内的多家媒体报道,特斯拉和 SpaceX 创始人马斯克以 440 亿…

硅谷银行一夜破产!ChatGPT 之父撒钱救援,马斯克有意收购?

整理 | 朱珂欣 出品 | CSDN(ID:CSDNnews) 生存了 40 年的硅谷银行(Silicon Valley Bank),在最近迎来了自己的“至暗时刻”。据悉,硅谷银行成为了 2023 年美国第一家倒闭的投保银行,也…

ChatGPT扩展系列之使用pandora本地搭建ChatGPT

ChatGPT扩展系列之使用pandora本地搭建ChatGPT 1. 为什么要本地搭建 主要解决使用上的几个痛点,我们可以看一下下面就是我们最常遇到的几个问题,这里我们重点提一下就是我们本地搭建好了之后,我们获取Access Token,这个Token的有效期长达14天,也就是这14天中,我们都不需…

手机版mt4软件下载_正版mt4安卓手机软件地址

MetaTrader 4(缩写MT4)是由俄罗斯迈达克软件公司(英文名称MetaQuotes Software Corp)发布的一款交易软件,可同时在电脑端和手机端使用。手机版mt4软件下载 但是,正版手机端mt4一般要从谷歌商店下载&#x…

枫叶股票监控免费软件 股票基金涨幅盈亏监控 上班摸鱼炒股神器

不用python,现成软件,免费的。 最近下了个坛友写的股票监控,只有实时涨跌却没有盈亏额,还得打开手机看输赢多少钱,蛮麻烦的,就自己东拼西凑写了个监控,能想到的实用功能基本都写上去了&#xf…

缠论指标手机版

先关注,以防丢失 随便点开一个个股行情,点击指标,再点击指标编辑,新建指标。 打开【缠论笔中枢手机版源码】,把源码全部复制号,记住必须全部复制 先取个公式名称,主图叠加,再点公式…

(无美国卡)如何进行美国号码是否可正常接收短信的验证,解决方案详见内文...

ni有没有遇到这种情况就是项目要求支持美国号码,但是在大陆是无法使用美国号码的,在淘宝上可以买到大陆支持的美国卡,但是价格太贵,且使用平率又不高,买一张卡消费太大,但是我们又不得不去验证美国手机号的…

ChatGPT研究(三)——AIGC多模态交互功能,奠定多场景商用基础

✏️写作:个人博客,InfoQ,掘金,知乎,CSDN 📧公众号:进击的Matrix 🚫特别声明:创作不易,未经授权不得转载或抄袭,如需转载可联系小编授权。 前言 …

ChatGPT怎么用?这几个技巧让你快速完成各种工作!来吧展示!

ChatGPT成为全球热议话题,月活用户突破1亿。如何利用ChatGPT快速完成工作?小编分享使用技巧。#ChatGPT# 一、ChatGPT能够做什么 想要利用ChatGPT完成工作,首先需要了解它是一款什么样的AI工具,以及它能够为您提供哪些服务。在当前…

爆火的ChatGPT 背后的大模型与大数据创新

最近,ChatGPT 迅速引爆 AIGC 领域,依托全网大数据与海量智能模型训练,一举成为 Stable Diffusion 之外的 AI 新宠。不同于过往初阶聊天机器人,这位“懂王”似乎可以取代大型搜索平台,与用户展开高质量同频对话。网友也…

WEB3 熄火了么,人工智能兴起之ChatGPT 在两个月内冲刺到 1 亿用户,超过任何其他现象级应用程序

ChatGPT 无疑是近来发展最快的应用程序之一 ChatGPT 无疑是近来发展最快的应用程序之一,它的崛起正在让生成 AI 电路升温。 周三,瑞银发布了一份研究报告,显示 OpenAI 的 ChatGPT 在推出仅两个月后的 1 月份月活跃用户估计已达到 1 亿,成为历史上增长最快的消费者应用程序…

ChatGPT眼中的产品经理是这样的

在玩ChatGPT的时候,突发奇想,ChatGPT对产品经理的认知是啥样呢?于是我找了几个大家都比较关注的产品经理问题,看看ChatGPT是如何回答的。 1、产品经理可以干一辈子嘛? 2、产品经理的核心竞争力是啥? 3、产品…

C语言中的优化技巧总结

1、选择合适的算法和数据结构 选择一种合适的数据结构很重要,如果在一堆随机存放的数中使用了大量的插入和删除指令,那使用链表要快得多。数组与指针语句具有十分密切的关系,一般来说,指针比较灵活简洁,而数组则比较直…

你看,ChatGPT都知道优先使用BigDecimal

不是三婶儿偏执,非要吐槽。家人们,咱就是说,按照基操逻辑谁会把严格金额计算相关的数据使用double类型呢… “我以为吕布已经够勇猛了,这是谁的部下?” 前几天,一xxx让帮忙写段代码。内容比较常规&#xff…

java面试 - 多线程并发篇

多线程&并发篇 chatGPT以及GPT-4免费体验! java面试 - 基础篇 java面试-JVM篇 java面试-spring篇 (持续更新中) java面试-MyBatis篇 (持续更新中) java面试-springBoot篇 (持续更新中) ja…

5分钟!使用ChatGPT读懂一本书;写给独立开发者的设计指南;麦肯锡报告:生成式AI的经济潜力;GitHub报告:AI对开发影响深远 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 时代杂志「2023年100家最具影响力企业」 时代杂志发布了「TIME100 MOST INFLUENTIAL COMPANIES 2023」,评选出2023年最具影…

自然语言成了编程语言,不会写 Prompt 的程序员会面临失业吗?

作者 | 王启隆 出品 | CSDN(ID:CSDNnews) 如果让一个活在 18 世纪的人看看今天的世界,他会被现代科技的伟大所震慑,沉醉于未来社会的梦幻;但如果让一个 15 世纪的人去看看 18 世纪的世界,就感受…