ChatGPT 简介

目录

  • 1 背景与发展历程
    • 1.1 背景
    • 1.2 发展历程
  • 2 技术原理
    • 2.1 第一阶段:训练监督策略模型
    • 2.2 第二阶段:训练奖励模型
    • 2.3 第三阶段:采用强化学习来增强模型的能力。
  • 3 国内使用情况及应用的领域
  • 4 面临的数据安全挑战与建议
    • 4.1 ChatGPT获取数据产生的问题
      • 4.1.1 数据泄露问题
      • 4.1.2 删除权问题
      • 4.1.3 语料库获取合规问题
    • 4.2 ChatGPT恶意利用产生的问题
  • 5 结语
  • 6 参考


团队博客: CSDN AI小组


相关阅读

  • 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型
  • 关于 ChatGPT 必看的 10 篇论文
  • ChatGPT 中的人类反馈强化学习 (RLHF) 实战

1 背景与发展历程

1.1 背景

ChatGPT是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT3.5架构的大型语言模型并通过强化学习进行训练。

ChatGPT以文字方式互动,除了可以透过人类自然对话方式进行交互,还可以用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本,在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还具有编写和调试计算机程序的能力。

ChatGPT因其在许多知识领域给出详细的回答和清晰的答案而迅速获得关注,但其事实准确性参差不齐被认为是一重大缺陷。ChatGPT于2022年11月发布后,OpenAI估值已涨至290亿美元。上线两个月后,用户数量达到1亿。

ChatGPT主要包含以下特点:

  • (1) OpenAI使用 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)技术对 ChatGPT 进行了训练,且加入了更多人工监督进行微调。
  • (2) 可以主动承认自身错误。若用户指出其错误,模型会听取意见并优化答案。
  • (3) ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果。
  • (4) ChatGPT 可以承认自身的无知,承认对专业技术的不了解。
  • (5) 支持连续多轮对话。
  • (6) ChatGPT可以通过分析语料库中的模式和敏感词或句子来识别敏感话题(种族,政治,人身攻击等)。它将会自动识别可能触发敏感问题的输入,并且可以自动过滤掉敏感内容,最大程度地确保用户的安全。此外,它也可以帮助用户识别出可能触发敏感问题的话题,从而避免他们无意中使用不当的语言破坏聊天气氛。

在这里插入图片描述

图1 示例:ChatGPT 写自我介绍

在这里插入图片描述

图2 示例:ChatGPT 改代码 Bug

在这里插入图片描述

图3 示例:ChatGPT 写代码

1.2 发展历程

在过去几年中,Google一直是NLP领域大规模预训练模型的引领者,而2022年11月ChatGPT的发布,其效果惊艳了众多专业以及非专业人士,虽然Google也紧接着发布了类似的Bard模型,但已经错失了先机。下图是这场旷日持久的AI暗战之下的关键技术时间线。
在这里插入图片描述

图4 Google与OpenAI在LLM领域的发展时间线

2 技术原理

在这里插入图片描述

图5 ChatGPT 模型的训练过程

在整体技术路线上,ChatGPT在效果强大的GPT 3.5大规模语言模型(LLM,Large Language Model)基础上,引入“人工标注数据+强化学习”(RLHF,Reinforcement Learning from Human Feedback)来不断微调(Fine-tune)预训练语言模型,主要目的是让LLM模型学会理解人类的命令指令的含义(比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令),以及让LLM学会判断对于用户给定的问题(也称prompt),什么样的答案是优质的(富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准)。

具体而言,ChatGPT的训练过程分为三个阶段:

2.1 第一阶段:训练监督策略模型

GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由专业的人类标注人员,给出每个问题(prompt)的高质量答案,形成<prompt,answer>问答对,然后用这些人工标注好的数据来微调 GPT-3.5模型(获得SFT模型, Supervised Fine-Tuning)。

经过这个过程,可以认为SFT初步具备了理解人类问题中所包含意图,并根据这个意图给出相对高质量回答的能力,但是很明显,仅仅这样做是不够的,因为其回答不一定符合人类偏好。

2.2 第二阶段:训练奖励模型

这个阶段主要是通过人工标注训练数据,来训练奖励模型(Reward Mode)。在数据集中随机抽取问题,使用第一阶段训练得到的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑(例如:相关性、富含信息性、有害信息等诸多标准)给出排名顺序。这一过程类似于教练或老师辅导。

接下来,使用这个排序结果数据来训练奖励模型。对多个排序结果,两两组合,形成多个训练数据对。奖励模型接受一个输入,给出评价回答质量的分数。这样,对于一对训练数据,调节参数使得高质量回答的打分比低质量的打分要高。

2.3 第三阶段:采用强化学习来增强模型的能力。

PPO(Proximal Policy Optimization,近端策略优化)强化学习模型的核心思路在于将Policy Gradient中On-policy的训练过程转化为Off-policy,即将在线学习转化为离线学习,这个转化过程被称之为Importance Sampling。PPO由第一阶段的监督策略模型来初始化模型的参数,这一阶段利用第二阶段训练好的奖励模型,靠奖励打分来更新预训练模型参数。具体而言,在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的奖励模型给出质量分数。把奖励分数依次传递,由此产生策略梯度,通过强化学习的方式以更新PPO模型参数。

如果我们不断重复第二和第三阶段,通过迭代,会训练出更高质量的ChatGPT模型。

从上述原理可以看出,ChatGPT具有以下几个优势:(1) ChatGPT 的基模型GPT3.5使用了千亿级的数据进行了预训练,模型可谓是“见多识广”;(2) ChatGPT 在强化学习的框架下,可以不断学习和优化。

3 国内使用情况及应用的领域

ChatGPT 目前仍然处于体验和试用阶段,且未在国内进行开放注册,所以国内暂时还没有实际性的应用。不过在ChatGPT发布之后,国内开始出现平替产品,例如近期国内正式发布的首个功能对话大模型ChatYuan。

ChatGPT 由美国OpenAI公司于2022年11月发布,官网暂未对国内进行开放,但有其他方法可以使用,教程详见这里。

ChatYuan由中国初创公司元语智能2022年12月发布,在线体验网址为:www.clueai.cn/chat。

4 面临的数据安全挑战与建议

ChatGPT存在一些数据安全问题,这些问题分为两类,一类是ChatGPT获取数据产生的问题,一类是ChatGPT恶意利用产生的问题。

4.1 ChatGPT获取数据产生的问题

4.1.1 数据泄露问题

用户在使用ChatGPT时会输入信息,由于ChatGPT强大的功能,一些员工使用ChatGPT辅助其工作,这引起了公司对于商业秘密泄露的担忧。因为输入的信息可能会被用作ChatGPT进一步迭代的训练数据。

建议:ChatGPT可提升工作生产力,不建议完全禁用,公司可以制定相应的规则制度,并且开发相应的机密信息检测工具,指导并辅助员工更安全地使用ChatGPT。

4.1.2 删除权问题

ChatGPT用户必须同意公司可以使用用户和ChatGPT产生的所有输入和输出,同时承诺ChatGPT会从其使用的记录中删除所有个人身份信息。然而ChatGPT未说明其如何删除信息,而且由于被收集的数据将用于ChatGPT不断的学习中,很难保证完全擦除个人信息痕迹。

建议:要求ChatGPT给出明确的删除信息的流程,与使用的公司达成协议。

4.1.3 语料库获取合规问题

如果ChatGPT通过抓取互联网上的信息获得其训练数据,可能并不合法。网站上的隐私政策条款本身表明数据不能被第三方收集,ChatGPT抓取数据会涉及违反合同。在许多司法管辖区,合理使用原则在某些情况下允许未经所有者同意或版权使用信息,包括研究、引用、新闻报道、教学讽刺或批评目的。但是ChatGPT并不适用该原则,因为合理使用原则只允许访问有限信息,而不是获取整个网站的信息。在个人层面,ChatGPT需要解决未经用户同意大量数据抓取是否涉及侵犯个人信息的问题。

建议:要求ChatGPT公布数据的使用明细与脱敏流程,对于不符合规范的行为,要求其进行删除。在使用的过程中,如果发现有侵犯隐私信息的情况,也可以要求其进行改进。

4.2 ChatGPT恶意利用产生的问题

用户对ChatGPT的恶意利用也会带来很多数据安全问题,如:(1) 撞库:生成大量可用于对在线帐户进行自动攻击的潜在用户名和密码组合,进行撞库攻击;(2) 生成恶意软件:利用自然语言编写的能力,编写恶意软件,从而逃避防病毒软件的检测;(3) 诱骗信息:利用ChatGPT的编写功能,生成钓鱼电子邮件;利用对话功能,冒充真实的人或者组织骗取他人信息。

建议:对于使用ChatGPT的用户,需要要求其明确指出内容是使用ChatGPT生成的。也可以使用技术手段,自动检测ChatGPT生成的内容(例如近期斯坦福大学推出DetectGPT,以应对学生通过ChatGPT生成论文),并进行进一步的干预。

5 结语

ChatGPT 现在还处于测试阶段,可以看出在未来它可以极大地提升人类的生产力。但由于这是一个新鲜事物,还没有完善的法规和政策对它进行约束和规范,所以可能会存在一些数据安全等问题。要想实现ChatGPT以及类似产品在国内的落地与商业化,还有很长的路要走。

6 参考

[1] ChatGPT官网
[2] ChatGPT会取代搜索引擎吗
[3] ChatGPT发展历程、原理、技术架构详解和产业未来
[4] ChatGPT面临的数据安全挑战
[5] ChatGPT维基百科
[6] AI 真要成精了?ChatGPT 上手体验
[7] OpenAI 何以掀翻 Google 布局多年的AI大棋?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT调研

ChatGPT调研 背景&#xff1a;ChatGPT简单介绍FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERSFine-Tuning Language Models from Human PreferencesLearning to Summarize with Human FeedbackTraining language models to follow instructions with human feedbackChatGPT…

chatGPT

目录 前言一、chatGPT是什么&#xff1f;二、chatGPT存在对现社会各方面的影响1.学生2.公司3.名人 三、意义四、缺点五、态度六、总结 前言 近些天来&#xff0c;相信大家都被charGPT刷屏了&#xff0c;那么接下来我想就个人的观点讨论一下其影响与意义所在&#xff0c;并且对…

国内几款强大的语言模型

写在前面 Hello大家好&#xff0c; 我是【麟-小白】&#xff0c;一位软件工程专业的学生&#xff0c;喜好计算机知识。希望大家能够一起学习进步呀&#xff01;本人是一名在读大学生&#xff0c;专业水平有限&#xff0c;如发现错误或不足之处&#xff0c;请多多指正&#xff0…

ChatGPT简单介绍:

目录 ChatGPT介绍:一、ChatGPT是什么?二、ChatGPT发展:三、ChatGPT 优点:五、结语: ChatGPT介绍: 一、ChatGPT是什么? ChatGPT 是一个基于语言模型 GPT-3.5 的聊天机器人&#xff0c;ChatGPT模型是Instruct GPT的姊妹模型&#xff08;siblingmodel&#xff09;&#xff0c;使…

一文读懂ChatGPT(全文由ChatGPT撰写)

最近ChatGPT爆火&#xff0c;相信大家或多或少都听说过ChatGPT。到底ChatGPT是什么&#xff1f;有什么优缺点呢&#xff1f; 今天就由ChatGPT自己来给大家答疑解惑~ 全文文案来自ChatGPT&#xff01; 01 ChatGPT是什么 ChatGPT是一种基于人工智能技术的自然语言处理系统&…

铲特-姬劈蹄的N种用法(持续更新中。。。)

目录 前言一、语法更正二、文本翻译三、语言转换3-1、Python-->JAVA 四、代码解释-1五、代码解释-2六、修复代码错误七、作为百科全书八、信息提取九、好友聊天十、创意生成器10-1、VR和密室结合10-2、再结合AR 十一、采访问题11-1、采访问题清单11-2、采访问题清单并给出相…

ChatGPT百科全书(全网最全面)

引言 ChatGPT是什么&#xff1f; ChatGPT是一款先进的自然语言处理&#xff08;NLP&#xff09;模型&#xff0c;由OpenAI开发和维护。它基于OpenAI的第四代生成预训练Transformer&#xff08;GPT-4&#xff09;架构&#xff0c;旨在通过深度学习技术理解和生成人类语言。Chat…

几款强大的工具

&#x1f4ac; 如果文章对你有帮助&#xff0c;欢迎关注、点赞、收藏和订阅专栏哦 为使用人工智能编程而构建的编辑器&#xff0c;一款人工智能编程软件、智能Ai代码生成工具。提高客户服务水平&#xff1a;它可以通过自然语言处理技术&#xff0c;快速、准确地回答客户的问题…

SpringCloud(五)Gateway 路由网关

一、路由网关 官网地址&#xff1a;https://docs.spring.io/spring-cloud-gateway/docs/current/reference/html/ 我们需要连接互联网&#xff0c;那么就需要将手机或是电脑连接到家里的路由器才可以&#xff0c;而路由器则连接光猫&#xff0c;光猫再通过光纤连接到互联网&a…

基于C语言设计的足球信息查询系统

完整资料进入【数字空间】查看——baidu搜索"writebug" 需求分析与概要设计 2.1 项目说明 我们小组的选题主要是面向足球爱好者&#xff0c;在普通社交软件的基础之上&#xff0c;围绕足球的主题展开设计&#xff0c;以便于他们能够更好的交流相关的话题&#xff…

python selenium.webdriver 爬取政策文件

文章目录 获取文章链接批量爬取政策文件应用selenium爬取文件信息数据处理导出为excel 获取文章链接 获取中央人民政府网站链接&#xff0c;进入国务院政策文件库&#xff0c;分为国务院文件和部门文件&#xff08;发改委、工信部、交通运输部、市场监督局、商务部等&#xff…

C语言-排序,初识指针

目录 【1】冒泡排序&#xff08;从小到大&#xff09; 【2】选择排序 【3】二维数组 【4】指针 【5】指针修饰 【6】大小端 【7】初见二级指针 练习&#xff1a; 【1】冒泡排序&#xff08;从小到大&#xff09; #include <stdio.h> //数组哪里的\0?自己和字符串…

异步任务——CompletabelFuture

本专栏学习内容又是来自尚硅谷周阳老师的视频 有兴趣的小伙伴可以点击视频地址观看 在学习CompletableFuture之前&#xff0c;必须要先了解一下Future Future 概念 Future接口&#xff08;FutureTask实现类&#xff09;定义了操作异步任务执行的一些方法&#xff0c;如获取异…

Android应用启动全流程分析(源码深度剖析)

作者&#xff1a;努比亚技术团队 源码来源&#xff1a;努比亚技术团队 1.前言 从用户手指点击桌面上的应用图标到屏幕上显示出应用主Activity界面而完成应用启动&#xff0c;快的话往往都不需要一秒钟&#xff0c;但是这整个过程却是十分复杂的&#xff0c;其中涉及了Android系…

【java】【基础2】程序流程控制

目录 一、最经典的三种执行顺序 二、分支结构 2.1 if 2.2 switch 2.3 if与switch区别 三、循环结构 3.1 for循环 3.2 while循环 3.3 do-while循环 3.4 三种循环区别 3.5 补充知识&#xff1a;死循环 3.6 补充知识&#xff1a;循环嵌套 四、跳转关键字&#xff1a;br…

自建DNSlog服务器

DNSlog简介 在某些情况下&#xff0c;无法利用漏洞获得回显。但是&#xff0c;如果目标可以发送DNS请求&#xff0c;则可以通过DNS log方式将想获得的数据外带出来。 DNS log常用于以下情况&#xff1a; SQL盲注无回显的命令执行无回显的SSRF 网上公开提供dnslog服务有很多…

MySQL 主从复制与读写分离

概念 主从复制与读写分离的意义 企业中的业务通常数据量都比较大&#xff0c;而单台数据库在数据存储、安全性和高并发方面都无法满足实际的需求&#xff0c;所以需要配置多台主从数据服务器&#xff0c;以实现主从复制&#xff0c;增加数据可靠性&#xff0c;读写分离&#x…