ChatGPT中 top_p 和 temperature 的作用机制

1. temperature 的作用机制

GPT 中的 temperature 参数调整模型输出的随机性。随机性大可以理解为多次询问的回答多样性、回答更有创意、回答更有可能没有事实依据。随机性小可以理解为多次询问更有可能遇到重复的回答、回答更接近事实(更接近训练数据)。

Temperature 参数通常用于调整 softmax 函数的输出,用于增加或减少模型对不同类别的置信度。具体来说,softmax 函数将模型对每个类别的预测转换为概率分布。Temperature 参数可以看作是一个缩放因子,它可以增加或减少 softmax 函数输出中每个类别的置信度。

下面从模型的计算逻辑上来看 temperature 的作用机制。

当模型在根据上文计算下一个 token 时,他会先得到一组候选 token 及每一个 token 的概率 (原始概率,原始概率取决于训练方法、训练采用的数据和 prompt)。然后使用数学方法 softmax调整候选项的概率分布。这时 temperature 就会起作用。

忽略 softmax 的内部算法,直接看影响。

假设我们有这几个单词和他们出现在下一个位置的概率:
the: 0.5
a: 0.25
an: 0.15
some: 0.08
this: 0.02

当应用 temperature 时,他们的概率会被改变。下图表示在不同 temperature 下 softmax 对概率的影响
在这里插入图片描述
可以看到,当 temperature 更大时,模型的选择更加随机(每个 token 的概率更加接近), 给予原本低概率的 token 更大的选择机会,从而产生更多样化和创意的输出。大的更大,小的更小

相反, temperature 更小使模型的选择更加确定,给予原本高概率的 token 更大的选择机 会,从而产生更集中和一致的输出。大的更小,小的更大。

当 temperature = 0 =0 =0 时,模型在每次选择 token时只选择概率最大的那一个,于是我们每次询 问 (同样的prompt) 都会得到完全相同的回答。

2. top_p 的作用机制

Top P 参数是指在生成文本等任务中,选择可能性最高的前 P 个词的概率累加和。这个参数被称为 Top P,也称为 Nucleus Sampling。

top_ p 对回答的影响时机,是在 temperature 调整完 token 概率之后。但是官方建议不要同 时使用这两个参数。

top_p 弃数接受的是一个累积概率, top_p 的大小影响到候选 token 的数量

我们还是假设有这几个单词可供选择
the: 0.5
a: 0.25
an: 0.15
some: 0.08
this: 0.02

假设我们设定 top_p = 0.7 =0.7 =0.7 ,模型使用以下逻辑选择部分单词加入备选集合

1、对所有单词按照概率从大到小进行排序

2、将富选集合中的概率逐个相加,当超过 0.7 时停止处理后面的单词

考虑 the,将它加入备选集合。他的概率(前面的概率之和是 0 ) 小于 0.7 ,于是继续考虑下一 个羊词。

考虑 a$,他的概率是 0.25 ,加上前面的所有概率得到 0.75 。这时已经超过了 0.7 的阈值。a 会被加入家选集合,但是不再处理后面的单词。

现在集合中有 the 和 a 两个单词,模型会根据概率进行选择(the 还是更容易选中)

为什么不建议同时使用

这一部分暂时还没想明白,也欢迎知道细节的小伙伴一起讨论。
从资料上看,如果同时使用top_p 和 temperature 会导致模型的输出更不可控,可能导致意 外的输出。

如何选择

使用 temperature 比 top_p 更容易控制创造性的回答。当需要获得更有创意、更多样性 的回答时,可以把 temperature 设置为2。当需要多次询问且获得一致性的回答时,可以 把 temperature 设置为 0 。

top_p 比 temperature 更容易控制输出的质量。top_p 可以把较低概率的单词滤掉,避免得到低质量的回答, 也避免得到不常见的单词。

有些研究中表明,top_p 越高,输出的内容会越长。但是这种现象在 ChatGPT 中并不明 显, 可能是因为 ChatGPT 的训练数据集已经有比较高的质量,避免了低概率单词的输出。

在之前 Hugging Face 上的 prompt 比赛中,为了保证所有选手的 prompt 能够有统一 的评价标准,也为了保证每次询问 prompt 都得到完全一样的回答,评判系统会同时设置 temperature =0, top_ p=0 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9154.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023最新商业版ChatGPT网站源码4.8.0+功能强大/新增一键安装

正文: 安装教程: 一台VPS 搭建宝塔 解析域名 上传程序至根目录 访问首页在线安装配置数据库 PHP版本选择:7.3 安装完成后访问网站首页即可! 配置APIKEY,登录网站后台自定义配置,不然网站无法使用! 网站后台地址/admin 默…

ChatGPT商业源码授权

ChatGPT商业源码是由OpenAI公司开发并拥有版权的,未经授权擅自使用、复制、分发或修改可能涉及侵犯知识产权等法律问题,并可能会受到相应的法律惩罚。 如果您需要使用ChatGPT商业版,可以考虑通过OpenAI官方渠道进行授权购买。此外&#x…

商业版ChatGPT(C端+管理后台)

简介 本项目是一个商用版服务平台,基于Java语言实现服务端功能,前端使用React框架,底层使用官方的ChatGPT API。用户可以通过一键部署方便地使用本平台。除了支持chat对话模型外,还支持openai官方所有api,包括余额查询…

【ChatGPT前世今生】前置知识Seq2Seq入门理解

【ChatGPT前世今生】前置知识Seq2Seq入门理解 1、环境准备与依赖包安装2、数据集准备3、数据集预处理与读取4、定义Seq2Seq模型的基础类5、预处理训练数据集6、定义训练过程7、定义验证过程8、执行训练与验证过程9、展示模型的结果,进行进一步分析 最近一段时间&…

数据分析 × 人文社科:高校交叉学科教学经验分享

随着新一轮科技革命与产业变革的加速演进,学科间的交叉融合不断升级,由数据驱动的系列交叉学科备受瞩目,然而,在实际教学与学科建设的过程中,对于数据科学引入至相关学科,高校教师还是普遍面临着比较多的问…

华为又招了一名天才少年,他背后的故事堪称传奇!

上一篇:ChatGPT的工作原理(纯干货,万字长文) 2019年6月,华为创始人任正非发起华为“天才少年”项目,用顶级挑战和顶级薪酬去吸引顶尖人才的项目。并表示,华为将从全世界招进20-30名天才少年&…

华为又招了一名天才少年!

2019年6月,华为创始人任正非发起华为“天才少年”项目,用顶级挑战和顶级薪酬去吸引顶尖人才的项目。并表示,华为将从全世界招进20-30名天才少年,2020年还计划从世界范围招进200-300名天才少年。 这不就在上个月,华为最…

打造人工智能创新之源,共建昇思开源新生态

3月31日,由昇思MindSpore开源社区主办的昇思开源三周年生日会如期举行。本次生日会对即将发布的昇思MindSpore 2.0正式版本进行预告、发布了最新版的昇思大模型平台,同时还发布了昇思大模型技术公开课程。生日会给开发者展示了三年来昇思在人才培养、开源…

如何顺势而为,让ChatGPT为教育所用?

恐惧和回避无法阻挡科技的浪潮,教育与AI的深度融合时代已经到来,如何把AI当做工具,把其成为教育的机会而非威胁,是教育体系未来不得不得面对的新变化。 接受ChatGPT作为一种教学辅助工具,成为教师的朋友或者帮手&…

干货 | 如何才能让ChatGPT帮我做科研?

Hello,大家好! 这里是壹脑云科研圈,我是喵君姐姐~ ChatGPT是OpenAI于2022年11月开发的聊天机器人。ChatGPT由于能够帮助回答许多学术问题而迅速受到学生欢迎。那如何在学习中使用ChatGPT呢? 人工智能技术对未来写作…

ChatGPT:给教育创新带来风险与挑战

在教育界,当前对ChatGPT的关注固然有一部分原因是它所能带来的教育创新,但更多的原因是ChatGPT同时也在冲击着教师的角色定位,推动着人才培养目标的转型,逼迫着学生和教师走出舒适区。况且,ChatGPT还不断诱发教育中的技…

华为最新「天才少年」:博士四年21篇论文,却自称是个「低能儿」

金磊 发自 凹非寺量子位 | 公众号 QbitAI 华为最新“天才少年”,新鲜出炉。 他叫宁博宇,26岁,来自电子科技大学,是通信抗干扰技术国家级重点实验室的2019级博士研究生。 △图源:电子科技大学官方网站 而此次他被华为pi…

华为最新「天才少年」:26岁年薪百万,博士四年21篇论文

来源:量子位 华为最新“天才少年”,新鲜出炉。 他叫宁博宇,26岁,来自电子科技大学,是通信抗干扰技术国家级重点实验室的2019级博士研究生。 △图源:电子科技大学官方网站 而此次他被华为pick后,…

华为最新天才少年曝光!博士四年21篇论文

点击下方卡片,关注“CVer”公众号 AI/CV重磅干货,第一时间送达 点击进入—>【计算机视觉】微信技术交流群 金磊 发自 凹非寺转载自:量子位(QbitAI) 华为最新“天才少年”,新鲜出炉。 他叫宁博宇&#xf…

Android QQ、微信、Facebook和推特第三方登录

在Android 很多的APP应用中,都需要利用第三方登录来实现APP 自己本身应用的快速登录。这里的第三方平台,一般是已经有大量用户的平台,比如说国内的QQ,微信,国外的Facebook和Twitter 等,而本篇博客主要实现了这四个平台…

把 ChatGPT 加到你自己的程序里,简单到只需要一样东西

那就是: 钱 零基础python入门教程:python666.cn 大家好,欢迎来到 Crossin的编程教室。 这两天 ChatGPT 疯狂刷屏,可能有人都看烦了。也有很多人会有个疑问,这东西跟我有啥关系呢?我甚至连注册都注册不了啊……

ChatGPT 有什么功能?AI技术的发展在国内有啥体现?

最近,ChatGPT逐渐被大家所关注到,其实在去年年底ChatGPT 这个AI聊天机器人问世之后,在国外已经非常火爆。近日,很多小伙伴儿玩儿 ChatGPT 不亦乐乎,无法自拔....,感觉各行各业可能要发生大变化。 1:什么是C…

ChatGPT应用技巧五:如何实现一个垂直领域的AI问答机器人

原文:ChatGPT应用技巧五:如何实现一个垂直领域的AI问答机器人|向量|ai|知识库|上下文|插件功能_网易订阅 “由于ChatGPT的数据更新目前只截止到2021年9月,并且它也不一定有特定垂直领域的数据。如何将这些领域的最新数据“喂”给ChatGPT&…

ChatGPT:开放AI平台的最新进展和功能

第一章:引言 在过去的几年中,人工智能技术取得了长足的发展,其在各个领域的应用也日益广泛。而在AI技术中,自然语言处理(NLP)一直是备受关注的领域之一。ChatGPT作为OpenAI的开放AI平台上的一项重要技术&am…

对话 ChatGPT:现象级 AI 应用,将如何阐释「研发效能管理」?

ChatGPT 已然是 2023 开年至今,互联网上最热的话题没有之一。从去年的 AI 图片生成,到 ChatGPT,再到现在各种基于大模型的应用如雨后春笋般出现……在人们探讨技术无限可能的同时,另一个更深刻的命题也不可回避地浮现出来&#xf…