ChatGPT强势爆红,背后的技术原理是?一文轻松搞懂!

什么是ChatGPT?


ChatGPT是由OpenAI团队开发和训练一个人工智能聊天机器人程序,换句话说就是专注于对话生成的大型语言模型。在2022年11月30 日OpenAI 的首席执行官Sam Altman在推特上写道:“今天我们推出了 ChatGPT,尝试在这里与它交谈”,然后是一个链接,任何人都可以注册一个帐户,开始免费与 OpenAI 的新聊天机器人交谈。

它有着通用人工智能的名义,我们人类可以和他谈日常琐事,还可以利用它来写年度总结,和程序员一样写代码,修改 bug,书写情诗,做表格,发论文,写作业,做翻译,甚至可以探讨哲学问题擎等……。人类历史上还没有出现过这么通用,"全知全能"的AI。

在ChatGPT发布后的五天内,就有超过100万的玩家,而Facebook花了 10 个月才达到这种程度。《纽约时报》称其为“有史以来向公众发布的最好的人工智能聊天机器人,比尔盖茨说 ChatGPT 出现的意义“不亚于互联网的诞生”,微软 CEO 纳德拉(Satya Nadella)说它堪比工业革命,也有人担忧其会取代大多数普通人的工作岗位

OpenAI


这我们就不得不提,ChatGPT的研发者OpenAI,OpenAI公司于2015年12月在美国旧金山成立,那时谷歌刚收购一家公司DeepMind,没错就是那个研制出接连击败世界围棋冠军李世石、柯洁的AlphaGo的公司

谷歌本世纪初就已经开始布局ai领域,拥有多年的技术积累,再收购DeepMind,垄断人工智能领域的野心路人皆知。为了阻止谷歌在人工智能领域的垄断,Altman带头提议组建一个与谷歌竞争的实验室,将作为一个非营利组织运营,通过与其他机构和研究者的“自由合作”,向公众开放专利和研究成果,促进先进人工智能的好处"民主化"。OpenAI的创立者不仅仅有Altman,还有Elon Musk、Greg Brockman、Ilya Sutskever、John Schulman等知名企业家财力支持,还拥有

各种技术大牛加入,如 Ilya Sutskever, Carlos Virella, James Greene, Wojciech Zaremb等。OpenAI团队麻雀虽小五脏俱全,但其能带来大量技术创新。

背后的原理和发展历程


如今ChatGPT取得令人惊艳的成就,但一切并不是一蹴而就的。ChatGPT是由OpenAI团队在2019年6月首次发布的,下图就是ChatGPT训练的主要3个阶段:

上图来自ChatGPT官网

第一步,首先收集演示数据并训练监督策略模型(SFT)

ChatGPT 模型本身是无法理解人类不同类型指令中蕴含的不同意图,这时候需要一个"老师"去教它,这个叫"训练"。

所以需要由人类事先标注好的高质量数据集进行训练。ChatGPT使用的数据集里面数据是海量的,所以我们不能忽视在背后默默标注数据的第三方外包人员的辛苦付出

为了训练ChatGPT,ChatGPT被美国《时代周刊》爆料初雇佣肯尼亚外包劳工进行数据标注,他们时薪不到2美元且内容对他们造成心理伤害。

接着我们就需要把这些整理好的数据来喂给ChatGPT进行半监督学习,在ChatGPT出现之前,NLP 模型(自然语言处理)主要是基于针对特定任务的大量标注数据进行训练,也就是“有答案”的数据集,这也叫"监督式学习"。自然语言处理是一个非常严密的推理过程,不仅要识别每个词,还要处理词语间的序列,因此诞生了循环神经网络(RNN)模型。但RNN只考虑单词或者上下文信息,常常导致全文句意前后不连贯,或者理解复杂句子时出错。这也就导致一些缺点:需要大量的高质量标注数据,高质量的标注数据往往很难获得,而且在实际标注中,有些标签并不存在明确的边界模型又仅限于所接受的训练,泛化能力不足

所以ChatGPT采用"半监督式学习",使用海量的无标注数据训练一个预训练模型,然后再根据特定任务进行微调,比如自然语言推理、问答和常识推理、语义相似度、文本分类。将无监督学习的结果用于左右有监督模型的预训练目标,也叫生成式预训练(Generative Pre-training),没错这就是ChatGPT的GPT3个字的来源

和谷歌一直换ai的策略不同的是,ChatGPT就很执着,ChatGPT-1刚出来的时候,被业内群嘲,但openai团队,并不气馁,不断扩大训练数据规模,属实是大力出奇迹的典范

  1. 2019年6月,ChatGPT-1,这是第一个基于自然语言处理的对话生成模型,拥有1.17亿参数;

  1. 2020年6月:发布了ChatGPT-2,该模型拥有1.17亿个参数的基础上进一步增加到了15亿个参数,成为当时最先进的自然语言处理模型之一。

  1. 2020年11月:OpenAI推出了GPT-3,这是一个拥有1750亿个参数的巨型语言模型,可以生成高质量的自然语言文本。它的出现引起了广泛的关注和讨论,并被认为是人工智能领域的一项重大成就。

  1. 2022年3月,OpenAI新推出13亿参数的InstructGPT。从人工评测效果上看,相比1750亿参数的GPT3,人们更喜欢13亿参数的InstructGPT生成的回复。可见,并不是训练数据规模越大越好。更低的参数,也就意味着更低的成本

  1. 2022年11月,推测约20亿参数的ChatGPT-3.5被推出,具体数据暂未公开,轰动全球

到这里,就训练成了SFT模型(Supervised Fine-Tuning Model),此时ChatGPT已经能初步能够理解人类的真实意图,算是"学有小成"了

第二步:训练奖励模型(RM)

由于现有的回答是多种多样的,界限是模糊的,无法直接通过标注直接划分。那么如何让AI的回答符合人类的意图?

根据论文Scalable agent alignment via reward modeling: a research direction的理论, 这个时候我们需要给ChatGPT的随机抽取一批新问题,每个问题都设置一个奖励目标,让ChatGPT生成多个回答,接着人类根据回答的质量,打分,进而依据分数排名,让高质量回答的分数高于低质量回答,以符合人类意图的方式解决复杂的现实世界问题。

到这里,就形成了奖励模型(Reward Model),再次通过大量的训练,这个模型会让ChatGPT越来越能懂人类真是意图,不断打分,ChatGPT就会不断地进化。

第三步:采用近端策略优化PPO强化学习来优化策略

到了这一阶段,由于人类的精力是有限的,哪怕是雇佣更多的人,但对于互联网网上海量的数据,还是沧海一粟。这个时候,就需要让 ChatGPT 开启"自学"模式,不断学习,自我进化。

给ChatGPT更多全新的数据,通过PPO强化学习算法生成回答,并利用上一阶段训练好的奖励模型,来靠奖励打分排序来调整模型参数。然后不断重复第二和第三阶段的过程,也就是自己给自己出题,再自己对答案,然后微调模型参数,进行海量次数的迭代,这样直至训练出最终符合预期的模型,实现"最终进化"

在 ChatGPT 基础的 InstructGPT 的论文中,Actor 和监督微调模型都使用了 1750 亿参数的 GPT-3 系列模型,Critic 和奖励模型则使用了 60 亿参数的 GPT-3 系列模型。
更详细的移步论文: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

带来的争议和挑战


然后新事物的诞生并不仅仅只有美好的一面,ChatGPT也带来许多潜在的问题。2023年1月,国际机器学习大会禁止在提交的论文中使用ChatGPT或其他大型语言模型来生成任何文本。大量学生用ChatGPT来写作业,导致纽约市公立学校禁止师生在校园网路及装置上使用ChatGPT。

数据集的获取是否符合版权问题一直是ChatGPT绕不开的问题,无法保证个人信息安全,可能导致信息泄露。由于ChatGPT目前是基于2021年及其之前所拥有的数据集进行回答的整合,问它2022,2023或者最近国际上发生的事,它是不知晓的。这就不可避免地保证数据集接触到负面的,暴力的,充满恶意的信息。如何最大限度地并长久地隔离这些负面信息?如果是人工去隔离,是非常困难且痛苦的,类似于内容审核员,鉴黄师...

除此之外,用户对ChatGPT的恶意利用也会带来很多数据安全问题。比如利用自然语言编写的能力,编写恶意软件,从而逃避防病毒软件的检测;利用ChatGPT的编写功能,生成钓鱼电子邮件;利用对话功能,冒充真实的人或者组织骗取他人信息等。

现在尴尬的是当我们知晓答案的正确与否时,我们可以向ChatGPT求教,但当咨询我们不熟悉的领域,ChatGPT目前无法保证它的答案是正确的,需要再和专业的人确认。因为其技术上将海量的数据结合表达能力很强的Transformer模型结合,从而对自然语言进行了一个非常深度的建模。它本质上只是通过概率最大化不断生成符合预期的回答,而不是通过逻辑推理来生成正确的回答

2022年12月,程序员非常熟悉的Stack Overflow禁止用户发布使用ChatGPT生成的答案,理由是ChatGPT的答案 虽看似可用,实际上却有很高的错误率,一本正经地胡说八道

尾语


从 IBM 的“深蓝”,到 Google 的 AlphaGo,再到 OpenAI 的 ChatGPT,AI的突破都是循序渐进、从小到大地一步步实现,只有脚踏实地深耕基础领域,才能有质的飞越。盲目地造新概念,一窝蜂去摘果实,割韭菜会制约整个行业的发展

随着时间和技术的发展,AI的崛起,是大势所趋。大量机械的、重复的,没有思考价值的工作,会逐渐消失,但也会将给世界带来新的产业革命。

ChatGPT可以用更接近人类的思考方式参与用户的查询过程,可以根据上下文和语境,提供恰当的回答,并模拟多种人类情绪和语气,甚至可以主动承认自身错误,吸取教训并优化答案。如果你长时间和它交流,你会有时感觉它在"讨好你"。

ChatGPT的出现给所有人都敲想了警钟,时代的轮盘已经悄悄转动,要想不被抛弃,我们人类只有不断地学习,思考,进步

参考论文&资料:

  1. Illustrating Reinforcement Learning from Human Feedback (RLHF) Illustrating Reinforcement Learning from Human Feedback (RLHF)

  1. Optimizing Language Models for Dialogue ChatGPT: Optimizing Language Models for Dialogue

  1. Scalable agent alignment via reward modeling: a research direction

  1. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

  1. wikipedia.chatgpt

  1. https://ishare.ifeng.com/c/s/v002SAoIcZHgoIRNibxJaZUF5GX--9krUn32boGRnKTCEXk4__

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5356.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我与chatGPT的谈话从三个问题开始

chatGPT是什么?xhatGPT为什么那么火爆?chatGPT对我的影响? 首先,chatGPT是什么?以下是它给我提供的答案: 回答的语句通顺,右边还有个反馈按钮,果断给个赞。于是我让他讲述以下自己…

AI 入侵前端,哪类工程师最危险?

整理 | 何苗 出品 | CSDN(ID:CSDNnews) 当 GPT-4 向大家展示了如何用十秒把一个网站的手绘草图变成功能齐全的网站,包括一些炫酷的js链接按钮,技惊四座。不可避免地,前端工程师们也被 AI 风暴卷到了…

最容易被优秀程序员看不起的三件事……

【CSDN 编者按】开发人员们似乎患上了“银弹综合症”,面对技术难关,把太多的期望寄托在所谓的新技术中,却常常低估了一些最基本或许也是最有效的方法。 原文链接:https://nvnh.io/index.php/2022/11/28/3-underrated-things-great…

Chrome 推出全新性能模式,彻底告别“内存杀手”!

整理 | 王启隆 对于许多人来说,每天在电脑上运行着打开大量标签页的 Chrome 进程,可能比运行 3A 游戏大作更加吃力。Chrome 这个“内存杀手”的名号早已是耳熟能详,而谷歌明显也是注意到了这点,开始积极改善这款浏览器的性能。近日…

“AI春晚”北京召开:发布国产开源可商用大模型,OpenAI CEO做主题演讲,LeCun、Hinton都来了...

金磊 梦晨 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT的热度还没减,一场大会又将AI、大模型的注意力推向了新高度。 因为在国内,还从没有哪个活动能如此“高密度”地汇集众多传说中的AI大佬们—— 四位图灵奖得主:Geoffery Hinton、Yann LeC…

大模型扎堆「赶考」,语文还是国产AI行,文言文能力超过95%考生

量子位 | 公众号 QbitAI ChatGPT诞生后的第一场全国高考,考生忙,大模型们也很忙。 这不,高考还没结束,AI挑战高考题就成了刷屏热搜话题,各家大模型都被拉出来写起了高考作文,甚至是参与整场考试。 &#…

任正非:过去3年,华为已完成1.3万个美国制裁器件的国产替代!(附:最新讲话实录)...

华为做为5G网络重要供应商,一直以来都是美国几轮出口管制目标,制裁也让华为无法从美国公司获取芯片,也不能利用美国设备来生产、设计自家芯片,拜登政府2022年还禁止在美国销售新的华为设备。 不过,近日,上海…

【观察】星环科技:布局行业大模型赛道,加速国产化替代进程

以ChatGPT和GPT所代表的大模型,已经在国内形成了“海啸效应”,几乎所有的科技公司都在想方设法进入大模型的赛道。背后的核心驱动力,就在于大模型的最大价值在于普遍提升个人生产力,而各行各业的公司都在积极寻找应用大模型和生成…

ChatGLM2-6B发布,C-Eval超GPT4,支持32k上下文!

自清华大学数据挖掘实验室(THUDM)3月开源ChatGLM-6B已经过去了3个多月,最近他们又带来了性能全面提升的“船新”版本-ChatGLM2-6B。别看名字变化小,其实更新的模型性能是又有量又实用。不了解ChatGLM的小伙伴可以看我这篇文章&…

苹果测试Siri自然语言生成功能;腾讯基于语言模型的短文本对话专利获授权;ChatGPT Plus订阅现已在印度推出丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 ChatGPT Plus 订阅现已在印度推出:支持最新 GPT-4 3月17日,据OpenAI官方推特消息,用于访问OpenAI文本生成人工智能的订阅服务ChatGPT Plus已经在印度推出。 OpenAI还继续在其…

OpenAI还在烧钱,但开发者已经利用GPT和Stable Diffusion挣钱了

衡宇 发自 凹非寺量子位 | 公众号 QbitAI Text-to-Video文生视频,继作文、绘画之后AI杀入的又一领域,有越来越多产品涌现。根据读者爆料,一款主打AI生成视频的产品,已经在小圈子内被频频提及,还是国产的。 量子位迫不及…

头部企业走入无人区,国产数智化厂商挑大梁

本文转自数智前线 文|石兆 编|游勇 央国企数智化与信创化双重需求叠加,国产厂商挑大梁,助力企业升级数智化底座,实现价值化国产替代。 4月,在北京用友产业园的数智剧院里,近千位来自30个行业…

基于Mathematica的机器人仿真环境(机械臂篇)

目的   本文手把手教你在 Mathematica 科学计算软件中搭建机器人的仿真环境,具体包括以下内容:    1 导入机械臂的三维模型    2 正\逆运动学仿真    3 碰撞检测    4 轨迹规划    5 正\逆动力学仿真    6 运动控制   文中的所有代码和模型文件都在此处…

ChatGPT向癌症开了一枪

出品 | 虎嗅医疗组作者 | 陈广晶编辑 | 陈伊凡头图 |《绝命毒师》剧照 经典靶点的奠基人到中国创业,会带来哪些改变? 前不久,一家名为赛得康的生物技术公司获得种子轮投资的消息,在医药行业媒体来了一轮“轰炸”。除了创业者之一宾…

MindNLP-基于Mindspore2.0的GPT2预训练模型迁移教程

前言 动机 大家好,我是Super_WZB,最近MindSpore快要上线2.0版本了,由于之前主要是参与MindSpore的开发工作,一直想找机会多用一用。而自春节开始也是参与到了一项基于MindSpore的迁移工作,积攒了一些经验&#xff0c…

做副业的我很迷茫,但ChatGPT却治好了我——AI从业者被AI模型治愈的故事

迷茫,无非就是不知道自己要做什么,没有目标,没有方向。 当有一个明确的目标时,往往干劲十足。但做副业过程中,最大的问题往往就是 不知道自己该干什么。 干什么?怎么干?干到什么程度&#xff1f…

国内外人工智能AI工具网站大全(一键收藏,应有尽有)

本文由 大侠(AhcaoZhu)原创,转载请声明。 链接: https://blog.csdn.net/Ahcao2008 国内外人工智能AI工具网站大全(一键收藏,应有尽有) 摘要一、AI写作工具二、AI图像工具2.1、常用AI图像工具2.2、AI图片插画生成2.3、AI图片背景移…

替代notepad++,notepad--介绍及插件cmake编译

Notepad 是一个文本编辑器小软件,用来替代windows自带的记事本。然而Notepad软件的作者太霸道,如果你不赞同他的观点,Notepad将会在你的源码里面插入随机字符。推荐一款国产的开源跨平台软件NDD(notepad--),功能一点儿不弱,体积小…

【LLM大模型】模型和指令微调方法

note Hugging Face 的 PEFT是一个库(LoRA 是其支持的技术之一,除此之外还有Prefix Tuning、P-Tuning、Prompt Tuning),可以让你使用各种基于 Transformer 结构的语言模型进行高效微调。AIpaca羊驼:让 OpenAI 的 text-…