ChatGpt发展历程

  • ChatGPT(英文全称:Chat Generative Pre-trained Transformer,聊天生成预训练转换器)是人工智能研究实验室OpenAI(开放人工智能研究中心)在2022年发布的聊天机器人模型。
  • ChatGPT基于GPT-3.5系列,并使用强化学习算法来训练。它以对话的方式与用户进行交互,通过模仿从互联网整理的庞大文本数据库中的语言统计模式来生成回答。2023年1月末,ChatGPT已经拥有1亿月活跃用户,成为迄今为止增长速度最快的消费级应用。
  • 2023年2月7日,微软宣布支持ChatGPT的技术整合到最新版本的必应搜索引擎和Edge浏览器中。3月,OpenAI宣布推出插件功能,赋予ChatGPT使用工具、联网、运行计算的能力。

 《发展历史》

  • OpenAI公司由山姆·阿尔特曼(Sam Altman)等人在2015年成立于旧金山,该公司致力于开发人工智能和自然语言工具,在2019年获得微软投资10亿美元。2020年6月,OpenAI推出了其首个NLP语言模型GPT-3 (Generative Pre-Trained Transformer 3),并在其网站上以API(应用程序编程接口)的形式提供模型供外部使用。[13]同年,OpenAI推出了微调版本GPT-3.5,2022年1月又推出了GPT-3.5的预微调版本InstructGPT,但并未向公众发布。[14]
  • 2022年11月30日,OpenAI发布了基于GPT-3.5的聊天机器人模型ChatGPT,这款聊天机器人的智能化水平远超同类产品。仅在上线5天后,ChatGPT便吸引了超过100万的用户数量。[2][6][15]
  • 2023年1月末,ChatGPT已经拥有1亿月活跃用户,成为迄今为止增长速度最快的消费级应用。[9][10] 随后在2月初,由于满负荷运行,ChatGPT官网宣布暂时无法为所有用户提供访问服务。[16] 2023年2月7日,微软宣布将ChatGPT技术整合到最新版本的必应搜索引擎和Edge浏览器中。[11]
  • 2023年3月,英伟达推出全新的GPU推理平台,为ChatGPT提供了10倍的加速性能。[17] 3月14日,OpenAI发布了GPT-4模型,并将其整合到ChatGPT Plus高级服务中。[18] 高级服务的用户可以享受到更快的响应速度、优先访问新功能以及在高峰时段的访问权。[19] 每月20美元的ChatGPT Plus服务让用户可以体验到基于GPT-4的ChatGPT版本。[20]
  • 此外,OpenAI还于2023年3月为软件开发人员提供了ChatGPT和Whisper模型API,使得开发人员可以为自己的应用程序添加AI语言处理和语音识别功能。[21] ChatGPT API的价格为每1000个代币(约750个单词)0.002美元,比GPT-3模型便宜10倍。[22]
  • 在安全方面,2023年3月,一个漏洞导致部分用户可以看到其他用户的对话标题,但OpenAI CEO Sam Altman表示用户无法看到对话内容。[23][24] 在问题解决后,用户无法查看到自己的对话历史记录。[25] 随后的报道显示,漏洞比最初认为的要严重得多,导致泄露了用户的姓名、邮箱地址、支付地址、信用卡号的后四位和信用卡的过期日期等信息。[26][27]
  • 2023年5月,人工智能开发机构OpenAI在美国发布了适用于iPhone的免费ChatGPT应用程序,其中包括通过其Whisper AI语音识别模型提供的语音输入支持,App还可以与网页版AI助手同步聊天记录。这是ChatGPT首次推出官方移动客户端应用程序。

 

《实现原理》

  • ChatGPT是InstructGPT的兄弟版本[29],与它的前代模型GPT-3相比,ChatGPT将基于人类反馈的强化学习(RLHF)纳入到训练过程之中,以便让模型输出更好地贴近用户提问的意图[29]。人类反馈强化学习是ChatGPT和InstructGPT实现与人类意图对齐,即按照人类指令尽可能生成无负面影响结果的重要技术[30]。
  • GPT-3是一个由OpenAI开发的数学模型,也是ChatGPT得以发展起来的基础[31],其基本原理与GPT-1和GPT-2类似,都是通过预测下一个词的训练方式进行特定的大量训练,模型可以从句子的前面的一个词来预测下一个词。但GPT-3使用了远大于GPT-1和GPT-2的训练数据量以及模型参数量来增强模型效果,GPT-3具有96层Transformer Decoder Layer,每一层有96个128维的注意力头,单词嵌入的维度达到了12288,使用到的数据集规模达到了45TB。[30]训练后GPT-3可以根据训练结果对于给定的词语进行自动填充,选择概率最高的词输出,或者对下一个词采样输出。当向GPT-3提问时,其可以根据提问词选择最有可能的下一个词,并将其附加到输入结果中,反复迭代,直到答案生成完毕。[30]
  • GPT-3只能对问题作出看似合理的回答,不能理解问题语义以及针对用户问题生成符合用户需求的答案,偶尔会产生无用或者错误的输出[31]。在训练InstructGPT和GPT-3.5时,OpenAI为了解决这个问题,选择人工撰写一定数量的问答对,由标注人员自己写问题和答案,同时人工回答外部用户的问题,进行有监督微调(SFT),来训练原始的GPT-3,使其生成更好的答案。但是受到人工撰写成本高昂的影响,于是OpenAI选择让模型一次生成多个答案,由人类按照有用程度进行排名,总共使用了33000多个问题及其答案,设定了一定的奖励机制,训练了一个新的奖励模型,为每个问题及答案组合进行打分,人类不参与创造答案,只参与排名,同时收集了31000多个外部用户提问,使用奖励模型评分,进一步对模型进行有监督微调,并反复迭代,即“人类反馈强化学习”。[32]
  • ChatGPT便是从经过人类反馈强化学习训练后的GPT-3.5的一个版本微调而来,在InstructGPT训练的基础上,采用对话形式进行进一步强化训练,由标注人员继续进行排名,利用奖励模型不断微调,最终得到比InstructGPT更强的模型。[29]
  • 到了GPT-4,输入形式更进一步,不限于文本,输入可以是图片、表格等不同形式的内容,输出可以实现以图编程,据图写作等应用。通过文本和图像之间的比对学习,建立文本到图片的特殊映射关系。同时,支持了长文本输入,单词量比ChatGPT扩展了8倍。[33]ChatGPT 4完成并通过了前代ChatGPT 3.5没能过关的四大会计行业执业资格考试,包括注册会计师(CPA)、注册管理会计师(CMA)、注册内部审计师(CIA)和注册税务师(EA),平均得分85.1。

《功能与现状》

  • ChatGPT的功能比较简单,采用一问一答的方式。由用户提出问题,ChatGPT给出答案。[7]ChatGPT的学习能力比以往的人工智能产品更强,能够回答人类提出的各种高难度、复杂的问题。[1]ChatGPT参加了美国高校的入学资格考试(SAT)并取得中等学生水平的成绩,使用《老友记》主角的口吻创作了剧本对白,给出了消除经济不平等的六点计划,[1]甚至还为以色列总统艾萨克·赫尔佐格(Isaac Herzog)撰写了部分公开演讲内容。[35]
  • OpenAI宣称ChatGPT的局限主要体现在以下几个方面:
  • ChatGPT有时会写出听起来有道理但不正确或无意义的回答。解决这个问题仍具有挑战性,因为:在强化学习训练期间,目前缺乏正确信息的来源;为了将模型训练得更谨慎,它会拒绝回答本可以正确回答的问题;监督训练会误导模型,因为理想的答案取决于模型所知道的信息,而不是人类所知道的信息。[29]
  • ChatGPT对输入措辞的微调或多次尝试同一提问非常敏感。例如,使用一种措辞给出一个问题,模型可能会声称不知道答案,但轻微修改表述后,模型就能正确回答。[29]
  • 模型常常会过度过度使用某些短语,导致语句冗长,例如反复重申它是由OpenAI训练的语言模型。这些问题源于训练数据中的偏见(训练者认为长答案看起来更详尽)和过度优化问题。[29]
  • 理想情况下,当用户提供模棱两可的查询时,模型会询问用户,澄清问题。然而现有模型常常会猜测用户的意图。[29]
  • 虽然OpenAI期望让模型拒绝不当请求,但它有时会响应有害的指令或表现出偏见。OpenAI使用Moderation API来警告或阻止某些类型的不安全内容,但仍会有一些假阳性和假阴性。[29]
  • 另据媒体报道,截至2023年2月,ChatGPT难以进行高级逻辑处理,在完成“多准快全”的基本资料梳理和内容整合后,并不能提供综合判断、修改调整、逻辑完善等“画龙点睛”之笔。在时效性方面,用于ChatGPT语言模型训练的数据为2021年9月前的数据,因此在一些最新的数据和事件方面可能会存在滞后,这也可能造成ChatGPT在内容准确性和知识性上存在一定短板。[36]2023年3月OpenAI推出插件功能后,ChatGPT获得联网能力,解决了时效性问题。

《影响与争议》

  • ChatGPT在人工智能领域产生了轰动性效应,一度催使AIGC[a]概念股猛涨,[6][8]投资机构普遍看好ChatGPT和AIGC赛道的商业前景。[9]与此同时,它还对教育和学术领域的传统模式提出了挑战。[8]为了防止学术欺诈和剽窃,巴黎政治学院、香港大学等高校宣布禁止师生在教学活动中使用ChatGPT等基于AI的工具,[37][38]《科学》《自然》《肿瘤学》等多家科学期刊亦发表声明称,不接受论文将ChatGPT列为“合著者”。[8]
  • 此外,ChatGPT未经授权获取总计约320TB文字信息的预训练方式已引发争议和不满,推特(Twitter)首席执行官埃隆·马斯克就公开宣布,叫停ChatGPT访问Twitter数据库来获取训练数据,声称“需要更多了解OpenAI的治理结构和未来收入计划”。[36]欧盟负责内部市场的委员蒂埃里·布雷东也于2023年2月公开发表评论称,ChatGPT一类的人工智能技术可能为商业和民生带来巨大的机遇,但同时也伴随着风险,因此欧盟考虑设立规章制度,以规范其使用,确保向用户提供高质量、有价值的信息和数据。[5]当地时间2023年3月24日,OpenAI发布声明,向用户和整个ChatGPT社区道歉,表示将重建信任。声明表示,当周早些时候,该公司将ChatGPT下线,原因是开源库中存在一个漏洞,致使一些用户可以看到另一用户的聊天记录标题。该漏洞已被修复。[39]3月31日,意大利数据保护机构对OpenAI公司非法收集用户信息展开调查,并宣布,即日起禁止使用聊天机器人ChatGPT,并限制开发这一平台的美国人工智能公司OpenAI处理意大利用户信息。[40]意大利采取措施后,欧洲数据保护委员会宣布成立专门工作组,以促进该调查在欧洲地区的合作事宜。随后,法国国家信息自由委员会和西班牙国家数据保护局针对ChatGPT可能的违反法律行为启动调查程序。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/3666.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中创沙龙预告 | 以ChatGPT的视角探索人工智能的未来

以ChatGPT的视角探索人工智能的未来 中创沙龙定期举行 ChatGPT:聊天机器人的新时代 开启智能对话新纪元。 ChatGPT推出截止目前两个多月的时间,月活用户已经突破1亿人,创增长最快纪录。毋庸置疑,ChatGPT是一个具有开创性的产品,但…

《降临》作者特德·姜:ChatGPT 是互联网的有损压缩

❝ 本文转自澎湃新闻,原文:https://www.thepaper.cn/newsDetail_forward_21877769,版权归原作者所有。欢迎投稿,投稿请添加微信好友:cloud-native-yang 2 月 9 日,美籍华裔科幻作家特德姜(Ted …

chatgpt赋能python:Python爬虫:如何取出网页标签a里的ID?

Python爬虫:如何取出网页标签a里的ID? 在SEO的领域中,网页的数据提取和分析是一项重要的任务。这也就是为什么Python编程语言成为了许多SEO工程师的首选语言之一。Python以其简单性和灵活性而受到了广泛赞誉,并包含了可靠的数据提…

chatgpt赋能python:Python反扒解决方案:打破“网页抓取难”的困境

Python反扒解决方案:打破“网页抓取难”的困境 作为一种强大的编程语言,Python的应用场景日益扩大,成为越来越多公司的首选工具。然而,在爬取网站数据、分析竞争对手数据等方面,Python也常常受到阻碍——那就是扒取过…

chatgpt赋能Python-pycharm爬虫电影代码

PyCharm爬虫电影代码详解 作为一位有着10年python编程经验的工程师,我想分享一下关于PyCharm爬虫电影代码的详细介绍和使用方法。 PyCharm简介 PyCharm是由JetBrains开发的一款Python IDE,它为Python开发者提供了一站式的开发环境,包括代码…

我找到了用ChatGPT+爬虫搞钱的新模式!

这几个月真是太科幻了,各路令人赞叹的AI产品接连问世,感觉幻想过的未来已在眼前。就与多年前移动互联网的普及一样,我们正处于AI改变世界的前夜。 在众多优秀的人工智能模型中,以ChatGPT最为火爆!其在上月推出的插件功…

chatgpt赋能python:Python绕过登录爬虫:实现快速爬取网站数据

Python绕过登录爬虫:实现快速爬取网站数据 在进行网站数据爬取时,有些网站会要求用户先进行登录操作,才能够获取到需要的数据。这对于爬虫来说是一个挑战,因为传统的爬虫方法无法绕过登录部分的限制获取数据。然而,通…

chatgpt赋能python:Python爬虫解密:如何快速抓取网站数据

Python爬虫解密:如何快速抓取网站数据 在当今信息时代,人们越来越依赖互联网获取信息。不同的网站提供了大量数据,但是手动去抓取这些数据十分困难,效率也很低。Python爬虫技术是解决这一问题的有效工具之一,它可以帮…

谁能拒绝用ChatGPT+爬虫搞钱的新路子呢?

重磅,ChatGPT再次迎来里程碑式更新! ChatGPT在上月推出了令人瞩目的插件功能,如果把ChatGPT看做是智能手机,那插件就相当于应用商店。现在的ChatGPT像一个“万能”的超级工具,善用它可以带来很多好处。 就与多年前移…

chatgpt赋能python:Python爬虫:抓取数据的实用技巧

Python爬虫:抓取数据的实用技巧 如果您是一名数字营销从业者,那么您一定知道SEO的重要性。SEO是一项复杂的工作,但是其中包含了一个非常关键的步骤,就是通过爬虫从网站中抓取数据。Python是一个非常强大的工具,可以帮…

利用爬虫逆向外网ChatGPT平台教程,新手可上手!!!

大家好,我是阿爬!这里是讲述阿爬和阿三爬虫故事的爬友圈 阿爬今天发现自己的ChatGPT,被官网封了 有点无奈,阿三平时对它可温柔了 找了很多免费的平台,发现内网的和外网的面对同样的问题,回答的内容还是有区…

小白用chatgpt编写python 爬虫程序代码 抓取网页数据(js动态生成网页元素)

jS动态生成,由于呈现在网页上的内容是由JS生成而来,我们能够在浏览器上看得到,但是在HTML源码中却发现不了 一、注意:代码加入了常规的防爬技术 如果不加,如果网站有防爬技术,比如频繁访问,后面…

用ChatGPT+爬虫搞钱,赚了!

这几个月真是太科幻了,各路令人赞叹的AI产品接连问世,感觉幻想过的未来已在眼前。就与多年前移动互联网的普及一样,我们正处于AI改变世界的前夜。 在众多优秀的人工智能模型中,以ChatGPT最为火爆!其在3月推出的插件功能…

微软new bing chatgpt 逆向爬虫实战

gospider 介绍 gospider 是一个golang 爬虫神器,它内置了多种反爬虫模块,是golang 爬虫必备的工具包 安装 go get -u gitee.com/baixudong/gospidergitee地址 https://gitee.com/baixudong/gospidergithub地址 https://github.com/baixudong007/gospider开始ne…

用ChatGPT+Python爬虫变现,你学会了吗?

今年真是太科幻了,各路令人赞叹的AI产品接连问世,感觉幻想过的未来已在眼前。就与多年前移动互联网的普及一样,我们正处于AI改变世界的前夜。 在众多优秀的人工智能产品中,以ChatGPT最为火爆!在OpenAI为其推出了GPT-4…

chatgpt帮你写爬虫程序

场景: chatgpt帮你写爬虫程序,轻松获取工作需要的数据 方法 安装python环境import requests from bs4 import BeautifulSoup import pandas as pd# 设置请求头部,模拟浏览器访问 headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64…

ChatGPT编程秀:做一个简单爬虫程序

随着ChatGPT的大火,越来越多的人习惯于用ChatGPT搞一些有趣的事。对于一个资深的爬虫程序来说,体验下ChatGPT做爬虫程序也是很有意思的事情。 首先想想我们的问题域,我想到几个问题: 不能用HTTP请求去爬,如果我直接用…

ChatGPT 帮我自动编写 Python 爬虫脚本

都知道最近ChatGPT聊天机器人爆火,我也想方设法注册了账号,据说后面要收费了。 ChatGPT是一种基于大语言模型的生成式AI,换句话说它可以自动生成类似人类语言的文本,把梳理好的有逻辑的答案呈现在你面前,这完全不同于…

ChatGPT 和爬虫有什么区别

目录 ChatGPT的概念和功能 爬虫的概念和功能 ChatGPT和爬虫的区别 ChatGPT的概念和功能 ChatGPT是一个基于自然语言处理和机器学习的智能对话模型,具有以下功能: 1. 问题回答:ChatGPT可以回答用户提出的各种问题。不论是有关常识、历史、科…

ChatGPT做爬虫的第一步

做爬虫就是搞数据, 专业的人做专业的事, ChatGPT阅虫无数, 搞个小爬虫, So Easy! 我知道可以百度到下载图片的代码, 但是我不想百度了, 一切交给ChatGPT 你只需要问他: 怎么用Nodejs下载图片? 其中,url是图片的地址,filePath是保存图片的本地路径。使…