ChatGPT  一本正经的胡说八道 那也看看原理吧

最近,ChatGPT横空出世。这款被马斯克形容为“强大到危险”的AI,不但能够与人聊天互动,还能写文章、改代码。于是,人们纷纷想让AI替自己做些什么,有人通过两分钟的提问便得到了一篇完美的论文,有人希望它能帮自己写情书、完成工作

我觉得Musk担心的应该是‘信息茧房’中的‘思考劫持’

大家可以查一下传播学中的这两个概念

几个测试案例

小学白念了,这是哪家不正经的小学教这个

你把柳传志往哪放...

这.....

总结,就这人工智障,还图灵测试...

但我们还是看一下原理,看看主要的问题出在了哪个算法上...

ChatGPT基本原理

第一步 收集数据,训练有监督的策略模型

第二步 收集对比数据,训练回报模型

第三步 使用强化学习,增强回报模型优化策略

SFT:生成模型GPT的有监督精调 (supervised fine-tuning)

RM:奖励模型的训练(reward model training)

PPO:近端策略优化模型( reinforcement learning via proximal policy optimization)

相对于之前的GPT家族,在第一步和第二步多出了人工干预

找了一堆外包,可以看出人的干预有多重要

补充知识

prompt

Prompting指的是在文本上附加额外的提示(Prompt)信息作为输入,将下游的预测等任务转化为语言模型(Language Model)任务,并将语言模型的预测结果转化为原本下游任务的预测结果

对于传统的Fine-tuning范式,以BERT为例,我们会使用PLM提取[CLS]位置的特征,将其作为句子的特征,并对情感分类任务训练一个分类器,使用特征进行分类

对于Prompting,它的流程分为三步

  1. 在句子上添加Prompt。一般来说,Prompt分为两种形式,分别是完形填空(用于BERT等自编码PLM)与前缀(用于GPT等自回归PLM)

例如  

I love this movie. It is a [MASK] movie. (完形填空模式)

I love this movie. The movie is (前缀模式)

2.根据Prompt的形式,在[MASK]位置或Prompt前缀的后面进行预测单词

3. 根据预先定义的Verbalizer(标签词映射)将单词转化为预测结果,若预测单词’Good’则情感倾向为正向,若预测结果为单词’Bad’则情感倾向为负向

SFT

GPT模型通过有监督的Prompt数据进行精调,其实就是做next token prediction任务。然后用精调后的模型对每个输入的[文本+prompt]进行generate,生成4~9个输出,并且进行解码操作

数据举例

raw_data = "我们去成都旅游,必须要去的地方是大熊猫繁殖基地。"
prompt = "大熊猫是"
labels = ["一种有黑白斑纹的动物。","中国特有种,主要栖息地是中国四川、陕西和甘肃的山区。",
"已在地球上生存了至少800万年,被誉为“活化石”和“中国国宝”即国兽,世界自然基金会的形象大使,是世界生物多样性保护的旗舰物种。",
"属于熊科、大熊猫属的哺乳动物。仅有二个亚种。雄性个体稍大于雌性。体型肥硕似熊、丰腴富态,头圆尾短,头躯长1.2-1.8米,尾长10-12厘米。"]
combine_data = [raw_data+prompt+label for label in labels]

RM

RM模型的作用是对生成的文本进行打分排序,让模型生成的结果更加符合人类的日常理解习惯,更加符合人们想要的答案

RM模型主要分为两个部分:训练数据获取、模型训练

在原论文中使用GPT的架构做了一个reward model,这里需要注意的是要将模型的输出映射成维度为1的打分向量,也就是增加一个linear结构

RM模型的主要点还是在于人工参与的训练数据构建部分,将训练好的SFT模型输入Prompt进行生成任务,每个Prompt生成4~9个文本,然后人为的对这些文本进行排序

将每个Prompt生成的文本构建为排序序列的形式进行训练,得到打分模型,以此模型用来评估SFT模型生成的文本是否符合人类的思维习惯

这里尝试两种方法,这两种方法为direct score和rank score:

Direct score:一个是直接对输出的文本进行打分,通过与自定义的label score计算loss,以此来更新模型参数;

Rank score:二是使用排序的方法,对每个Prompt输出的n个句子进行排序作为输入,通过计算排序在前面的句子与排序在后面的句子的差值累加作为最终loss。

Direct score方法

这个方法就是利用Bert模型对标注数据进行编码,用linear层映射到1维,然后利用Sigmoid函数输出每个句子的得分,与人工标记的得分进行loss计算,以此来更新模型参数

Rank score方法

这种方法与前一种方法的区别在于loss函数的设计

首先需要明白的是为什么在InstructGPT中不采用上面的方法,主要的原因在于给生成句子在打分时,不同标注人员的标准是不一样的,而且这个标准是很难进行统一的,这样会导致标注的数据评判标准不一样

即使每个标注人员的理解是一样的,但对于同一条文本给的分数也不一样的,因此在进行标注时需要把这个定量的问题转为一种更为简单的处理方法,采用排序来方法来进行数据标注可以在一定程度上解决这个问题

两种方法区别

明显的看出标注员在使用直接打分(Direct Score)时,会由于主观意识的不同,对同一个文本出现不同的分值;而使用等级排序(Rank Level)来进行数据标注时,可以统一标注结果

Rank Loss

PPO算法

邻近策略优化(Proximal Policy Optimization,PPO)算法的网络结构有两个。PPO算法解决的问题是 离散动作空间和连续动作空间 的强化学习问题,是 on-policy 的强化学习算法。

论文原文《Proximal Policy Optimization Algorithms》

涉及到强化学习的概念太多,就不在这里展开了

Reference

https://www.sohu.com/a/644391012_121124715

https://blog.csdn.net/Ntech2099/article/details/128263611

https://zhuanlan.zhihu.com/p/461825791

https://zhuanlan.zhihu.com/p/609795142

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10466.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Stable Diffusion偷代码建起10亿美元帝国?Stability AI创始人骗局被扒皮

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【目标检测和Transformer】交流群 转载自:新智元 | 编辑:编辑部 【导读】「借用」他人代码,建起10亿美元帝国? Stablity AI创始…

AI安全,我们应该讨论什么?

“10分钟被骗430万”“9秒钟被骗走245万”“杨幂走进小商家直播间”“互联网大佬虚拟人真假难辨”。 大模型火爆了3个月之后,比之更火爆的,是动辄百万的诈骗金额、虚假“明星脸”、真假难辨的AI生成内容、多次抵抗AI觉醒的联名上书,连续一周的…

6月份读书学习好文记录

看看CHATGPT在最近几个月的发展趋势 https://blog.csdn.net/csdnnews/article/details/130878125?spm1000.2115.3001.5927 这是属于 AI 开发者的好时代,有什么理由不多去做一些尝试呢。 北大教授陈钟谈 AI 未来:逼近 AGI、融进元宇宙,开源…

10 分钟被骗 430 万背后,AI 换脸 + 换声泛滥。视频语音未必可信,需深入询问、加暗号验证。。...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在 ChatGPT 的“点火”下,这趟名为 AI 的列车已逐渐从幕后驶向台前,吸引了不少人的关注和“搭乘”——而科技,向来是一把双刃剑。 俗语有言,“耳听为虚…

OpenAI CEO要求政府监管AI,美议员:没见过这么主动的!

来源:量子位 Sam Altman,作为OpenAI的CEO你赚了很多钱吧? 我没有OpenAI的股权,我的薪酬刚刚够健康保险……我做这个是出于热爱。 就在昨晚,这段对话发生在美国华盛顿一场听证会。 Sam Altman与IBM副总裁Christina Mont…

北大教授陈钟谈 AI 未来:逼近 AGI、融进元宇宙,开源是重中之重!

受访者 | 陈钟 采访者 | 唐小引 作者 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 去年 11 月底 ChatGPT 横空出世时,可能谁也没想到,一场规模庞大的变革将由此开启。 凭借其强大的语言理解和生成能力,ChatGPT 上…

必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?

视学算法报道 编辑:编辑部 【导读】大语言模型在祛魅,媒体忽然开始追捧起了LeCun,而马库斯跳出来说,他的观点我都有了好几年了。 马库斯和LeCun忽然就握手言和、统一战线了? 这可奇了,两人过去一向是死对…

抖音回应全国上线外卖:仍在试点中;微软发布 ChatGPT 版搜索引擎;中国计算机图形学巨匠齐东旭教授逝世|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

一文快速回顾ChatGPT OpenAI Azure OpenAI

theme: orange 本文正在参加「金石计划」 伴随着GPT-4即将登基,Bing 月活过亿,微软最近真的是喜事连连,而在2月份仓促上线应战,首秀翻车闹出笑话的Google的 Bard,令人唏嘘不已! 去年12月,OpenAI发布了ChatG…

常见大模型对比[ChatGPT(智能聊天机器人)、Newbing(必应)、Bard(巴德)、讯飞星火认知大模型(SparkDesk)、ChatGLM-6B]

目录 1 引言 2 选取常见的大模型作为对比项 2.1什么是大模型 2.2 常见大模型 3 相关的大模型介绍和功能 3.1 ChatGPT 3.1.1 ChatGPT的介绍 3.1.2 ChatGPT的原理 3.1.3 ChatGPT的特点 3.2 Newbing 3.2.1 Newbing的介绍 3.2.2 GPT-4的原理 3.2.3 Newbing的特点 3.3…

微软AI宇宙日益完善!ChatGPT默认用必应搜索,Windows Copilot登场!

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 本文章仅用于学术分享,如有侵权请联系删除 作者丨机器之心编辑部 来源丨机器之心 今年的微软 Build 大会,高度聚焦生成式 AI,联手OpenAI打造一个大宇宙。 微软在5…

“搜索大战”正式打响,微软发布ChatGPT版搜索引擎和浏览器

微软公司宣布推出由ChatGPT支持的最新版本Bing(必应)搜索引擎和Edge浏览器,今天上线,免费使用! 自去年开始,Stable Diffusion、ChatGPT 等 AI 工具的横空出世,貌似在告诉人们“AI 正在准备重塑整…

Windows Copilot登场,ChatGPT默认用必应搜索,微软联手OpenAI的大宇宙来了

机器之心报道 机器之心编辑部 今年的微软 Build 大会,高度聚焦生成式 AI,联手OpenAI打造一个大宇宙。 最近几个月,微软一直忙于在自身的许多产品和服务中构建生成式 AI,包括搜索引擎 Bing、浏览器 Edge、GitHub 和 Office 生产力套…

学生利用“提示符注入”方法,攻破ChatGPT版必应搜索

聚焦源代码安全,网罗国内外最新资讯! 编译:代码卫士 微软上线必应 (Bing) 新版Chat 搜索后,人们开始试图让改机器人吐露更多不允许说的内容。在斯坦福大学就读计算机科学专业的学生 Kevin Liu获得成功。 去年9月,数据科…

temu、亚马逊、速卖通卖家测评为什么要自学养号?

相信对于做亚马逊,速卖通,阿里国际,美客多,shopee,Lazada,ebay,Temu等跨境电商平台的卖家来说,测评是一个很常见的话题,都知道测评可以快速提高产品的排名、权重和销量 …

自养号测评对亚马逊、Lazada、速卖通卖家的重要性

对各跨境电商卖家来说,测评是一个常见的话题。亚马逊、Lazada、速卖通、测评的作用可以让用户更加明确、便捷地了解产品,以及产品如何使用,以达到快速上手使用产品的目的,买家对产品进行测评,也可以帮助厂商和卖家&…

亚马逊 广告接口对接 amazon advertising

Amazon Advertising API 最终目标效果 1. 授权 (加入亚马逊开发者白名单) 官方文档 https://advertising.amazon.com/API/docs/en-us/setting-up/account-setup 相对来说 授权还是比较麻烦的, 由于公司业务原因,我们注册的是第…

Lazada、Allegro、速卖通测评自养号技术(方法解析)

无论是亚马逊、拼多多Temu、shopee、Lazada、wish、速卖通、煤炉、敦煌、雅虎、eBay、TikTok、Newegg、乐天、美客多、阿里国际、沃尔玛、OZON、Joom、Facebook、Coupang、独立站、Cdiscount、Kaufland、DARTY、Allegro、MANO等平台测评自养号对于卖家来说算是一种低成本、高回…

亚马逊、速卖通、temu、Cdiscount通过自养号给自己店铺测评补单需要哪些技巧?

亚马逊卖家通过测评平台,获取亚马逊买家的真实服务点评,即亚马逊测评。它既可以让买家更加快速、有效地了解产品,也可以让卖家有机会通过买家的评论去优化产品,以获得更多买家的喜爱。因此,亚马逊测评之于卖家&#xf…

亚马逊、temu、速卖通、国际站卖家如何利用好测评补单这张王牌?

大家好我是亚马逊测评珑哥。 现在越来越多的跨境电商平台入局,目前跨境电商平台亚马逊、TEMU、ozon、ebay、wish、lazada、敦煌、shopee、速卖通、poshmark、阿里国际站、沃尔玛、newegg、美客多等跨境平台的卖家都在递增,大家都知道,随着各…