什么是 tokens,ChatGPT里面的Tokens如何计数?

什么是 tokens,ChatGPT里面的Tokens如何计数?

什么是 tokens?

Tokens 可以被认为是词语的片段。在 API 处理提示之前,输入会被分解成 tokens。这些 tokens 并不会精确地在单词的开始或结束处切分 - tokens 可以包含尾随的空格甚至子词。以下是一些帮助理解 tokens 长度的经验法则:

1 token ~= 英文中的4个字符

1 token ~= ¾个单词

100 tokens ~= 75个单词

或者

1-2个句子 ~= 30个tokens

1段落 ~= 100个tokens

1,500个单词 ~= 2048个tokens

为了获取更多关于tokens如何叠加的上下文,可以考虑以下例子:

  • 韦恩·格雷茨基的名言 “You miss 100% of the shots you don’t take” 包含11个tokens。

单词如何被分割成 tokens 也取决于语言。例如,‘Cómo estás’(西班牙语中的’你好吗’)包含5个 tokens(对应10个字符)。较高的 token 到字符比率可能使得对英语以外的语言实现 API 更加昂贵

  • 我名字拼音+空格+wetchat+我的微信号"liyuechun wetchat liyc1215" 包含13个tokens。

飞书、钉钉、企微GPT能力嫁接和AIGC企业培训,联系我:liyc1215

  • ”黎跃春“三个字包含8个tokens

  • "付金亮"三个字包含6个tokens

如果你想进一步探索分词,你可以使用我们的交互式 Tokenizer 工具,它可以让你计算 token 的数量,并查看文本如何被分割成 tokens。或者,如果你想通过编程方式进行分词,可以使用 Tiktoken,这是一个专为 OpenAI 模型设计的快速 BPE 分词器。你也可以尝试探索其他库,例如 Python 的 transformers 包,或者 node.js 的 gpt-3-encoder 包。

Token 限制

根据使用的模型不同,请求中的prompt和completion之间最多可以使用4097个tokens。如果你的prompt是4000个tokens,那么你的completion最多可以是97个tokens。

这个限制目前是一个技术限制,但通常有许多创新的方法可以在这个限制内解决问题,例如压缩你的prompt,将文本分解成较小的部分等。

Token 定价

API 提供多种不同价格点的模型类型。每种模型都有一系列的能力,其中davinci是最强大的,ada是最快的。对这些不同模型的请求定价不同。你可以在这里找到关于token定价的详细信息。

探索 tokens

API会根据语料库数据中的上下文来处理单词。GPT-3接受prompt,将输入转换成一系列的tokens,处理prompt,并将预测的tokens转换回我们在响应中看到的单词。

在我们看来可能是两个相同的单词,可能会根据它们在文本中的结构生成不同的tokens。考虑一下API如何根据文本中的上下文为单词’red’生成token值:

在上面的第一个例子中,‘ red’的token "2266"包含一个尾随的空格。

带有前导空格并以大写字母开头的‘ Red’的token "2297"与以小写字母开头的‘ red’的token "2266"不同。

当 ‘Red’ 在句子开头时,生成的token不包含前导空格。token "7738"与前两个单词的例子不同。

观察:

token越可能/频繁,分配给它的token号就越低:

  • 在所有3个句子中为句号生成的token是相同的(“13”)。这是因为,在语境上,句号在语料库数据中的使用相当类似。

  • 根据’red’在句子中的位置,生成的token会有所不同:

    • 在句子中间的小写:‘ red’ - (token: “2266”)

    • 在句子中间的大写:‘ Red’ - (token: “2297”)

    • 在句子开头的大写:‘Red’ - (token: “7738”)

既然我们知道tokens可以包含尾随的空格字符,那么记住以空格字符结束的prompts可能会导致输出质量较低是有帮助的。这是因为API已经在它的tokens字典中包含了尾随的空格。

使用 logit_bias 参数

可以在 logit_bias 参数中为特定的 tokens 设置偏差,以修改指定 tokens 出现在补全中的可能性。比如,我们正在构建一个对用户鸡蛋过敏问题敏感的 AI 烘焙助手。

当我们使用提示 ‘The ingredients for banana bread are’ 运行 API 时,回应将以26.8%的概率将 ‘eggs’ 包含为第二种原料。

注意:要在 Playground 中查看补全概率,请从 Show Probabilities 下拉菜单中选择 Full Spectrum。

由于我们的 AI 烘焙助手对鸡蛋过敏问题很敏感,我们可以利用我们对 tokens 的了解,在 logit_bias 参数中设置偏差,以阻止模型生成包含任何 ‘egg’ 变体的响应。

首先,使用这个分词器工具来确定我们需要为哪些 tokens 设置偏差。

Tokens:

  • 尾随空格的单数形式:‘ egg’ - “5935”

  • 尾随空格的复数形式:‘ eggs’ - “9653”

  • 为‘Egg’或‘Eggs’生成的子词token - ‘gg’:“1130”

logit_bias 参数接受的偏差值范围是 -100 到 +100,极值结果导致相关 token 的禁止(-100)或独占选择(100)。

将 logit 偏差加到 prompt 中将修改 ‘egg’(及其变体)包含在我们的香蕉面包提示的响应中的可能性。上述提示生成了一个不包含任何鸡蛋的响应!

虽然我们不能保证它会生成最好的无鸡蛋香蕉面包配方,但 AI 烘焙助手满足了对用户鸡蛋过敏问题的考虑需求。

总结

  1. 使用英文对话比较划算,其他语言包括中文计算Token时比较昂贵
  2. 英文字母大概四个字母平均下来等于一个token
  3. 中文汉字,大概一个汉字平均下来两个token
  4. 我昨天用GPT写了7篇高考作文,总字数为10397,Tokens 为21,008个。

计算了一下:如果使用GPT3.5的API访问的话,整个输入和输出总共:21,008 个token,GPT3.5 的单价为$0.002/1000tokens,那么这7篇作文的整个对话花费折算成人民币的价格为:21008/1000*(0.002*7) = 0.294112元人民币,GPT4是GPT3.5的60倍价格,如果使用GPT4的话,此次消费为:0.294112 * 60 = 17.64672元。

最后总结: 目前使用GPT3.5的价格还是很亲民划算的,等待未来算力足够的时候,我相信GPT4.0也不会贵。

原文链接:https://blog.yredu.xyz/archives/5119

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2469.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

芯片工程师的ChatGPT初体验(上)

2022年11月30日一定是一个载入人类AI发展史的一天,这一天第一个版本的Chat GPT(全称:Chat Generative Pre-trained Transforme)发布了。毫不夸张地说,chatGPT的发布和用户体验,将整个AI话题推上了一个前作未…

解决微信公众号消息回复五秒限制最好方法

如题 很多朋友发现在消息回复处理业务的时候,可能时间不固定,甚至超过5s,亲测可用 我的办法是不用消息回复接口,全部改用客服消息接口 1.收到消息后,首先回复“处理中,请稍等” 2.直接上代码 ob_start(); h…

2023ChatGPT公众号去授权版源码、扩展+支持AI绘画/一键安装

正文: 2023最新ChatGPT公众号版本源码,该产品支持用户付费套餐,多Key轮询,AI绘画等功能,并且可以免费使用,同时附带详细的教程文档。 程序: wwgheo.lanzouw.com/imFU50uv6cyj 图片:

就挺无语的,这是有脾气的博客

文章目录 前言1. 背景2. 使用3. 公众号体验4. 结束语 前言 ChatGPT已经推出两个多月了,热度已经不减。ChatGPT由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的…

chatgpt赋能python:Python群发微信:快速高效的营销利器

Python 群发微信:快速高效的营销利器 在当今竞争激烈的商业环境中,如何快速地传递信息、推广商品、拓展用户和增加销售收益,成为了每个商家都需要关注的问题。而微信的广泛应用,是商家在进行推广和营销时不可忽视的工具。 但是&…

ChatGPT 之后,再玩玩 Stable-Diffusion

前些天体验的 ChatGPT 主要用来进行文本方面的处理,那么图片生成有没有这样的 AI 工具 呢?答案是肯定的。 例如:和菜头公众号的题图和文章中的插图大多都是使用 Stable-Diffusion 的 AI 图形生成工具创作的。顺着 Stable-Diffusion 搜索了下相…

AI接入微信公众号方法总结

AI挺好用的。但是想用时就得打开网页或者其他工具插件才行?太不方便了。记得有次要给媳妇演示下它的强大,竟没带电脑竟啥事干不成。索性把AI接入微信公众号,这样在公众号聊天窗口里发消息,AI自动给我回复内容,且可以分…

chatgpt赋能python:Python搜题公众号:让搜题更高效

Python搜题公众号:让搜题更高效 随着互联网时代的持续扩张,人们获取知识的方式也在不断变化。特别是在学习方面,人们更喜欢通过互联网进行搜索与学习。因此,搜题已经成为了学生最常用的学习方法之一。 Python搜题公众号应运而生…

微信公众号开发之妙解服务器5s限制

目录 框架选择 内网穿透 微信5s限制 客服回复? 公众平台web回复? msgId唯一! 总结 上年十二月份至今年三月份ChatGpt还是挺火的,很早就想做一个属于自己的微信问答机器人,但是觉得做了自己也不太用,所…

微信公众号支持语音消息向 ChatGPT提问啦!

最近我一直在开发微信公众号对接 ChatGPT ,并且已经实现了很多功能,也得到了 260余位大咖们帮我测试,以便于让它更加趋于完美。 而今天,公众号已经支持语音识别,大家可以通过我的公众号(javastarboy&#…

公众号ChatGPT历史对话记录查看升级完成啦

公众号【javastarboy】已支持 ChatGPT 3.5-turbo 模型, 进入公众号,输入文字消息即可聊天。 今天主要升级了三个内容: 支持“历史对话”查看(一小时内)解决了多人会话 session 隔离问题解决了一些 bug 几个说明&…

杀疯了!ChatGPT火爆全球

ChatGPT是什么? ChatGPT是一种由OpenAI训练的大型语言模型,其目的是能够以自然、人类化的方式与人类进行对话交互。ChatGPT基于深度学习技术,使用了数百万条来自互联网的文本数据进行训练,以便理解和生成自然语言。 ChatGPT可以…

ChatGPT爆火!它如何回答 Python 相关问题

近期OpenAI发布了全新的聊天机器人模型ChatGPT,没想到一经上线,就因其高质量的回答、高效获取信息的方式、以及上瘾式的交互体验而迅速出圈。 不少体验过的人都惊呼,ChatGPT可能一举消灭记者、程序员和搜索引擎。就连马斯克也忍不住发推表示&…

从CHATGPT爆火思考教育的未来

转眼在3月15号,更先进的GPT4就应运而生,通过与当前版本对话后的反馈来看,人工智能的进化速度着实恐怖,甚至让你愿意相信网络的另一端是一位博学的智者,很多问题的回答上已经跟人类无二...... 以ChatGPT为代表的人工智…

ChatGPT 爆火,咱们来聊聊负责任的生成式AI

ChatGPT的爆火让AI再次成为大众热议的焦点,作为英特尔所提出的搭建起从模拟时代到数字时代桥梁的五大“超级技术力量”之一,伴随着无处不在的智能化,AI可将无穷的数据转化为切实可行的洞察。 作为半导体行业的领先企业,在这一前沿…

从 ChatGPT 爆火回溯 NLP 技术

ChatGPT 火遍了全网,多个话题频频登上热搜。见证了自然语言处理(NLP)技术的重大突破,体验到通用技术的无限魅力。 GPT 模型是一种 NLP 模型,使用多层变换器(Transformer)来预测下一个单词的概率…

ChatGPT 爆火后,中国 AI 公司该如何应对,难点在哪儿?

ChatGPT 爆火之后,中国 AI 公司要应对的难点主要包括: (1) 技术能力:ChatGPT 是由 OpenAI 所研发,具备领先的自然语言处理技术能力,而国内 AI 公司需要拥有足够的技术实力来与之竞争。这需要企业在人才引进、研发投入…

ChatGPT爆火网络背后的故事?

文章目录 前言一、ChatGPT的诞生背景二、ChatGPT的技术原理三、ChatGPT的推广策略四、ChatGPT的未来展望五、橙子送书第2期 前言 ChatGPT是一款基于人工智能技术的聊天机器人,它的出现引起了广泛的关注和热议。在短短的时间内,ChatGPT就成为了全球范围内…

ChatGPT 爆火!真有那么神?设计师会失业吗?

人工智能来了,咱们是不是都要失业了呢? 一款AI产品,在科技市场和资本市场掀起了一阵风暴。 一切的源头,来自一个由美国人工智能公司OpenAI开发的一种大型语言模型ChatGPT。它采用了Transformer架构,可以执行生成文本、…

爆火出圈的ChatGPT,真的那么好用吗?

近期,ChatGPT在互联网行业爆火! 这个由人工智能研究和部署公司OpenAI开发的“交互机器人”,在今年1月其全球月活跃用户已达1亿,成为史上用户增长速度最快的消费级应用。 爆火的ChatGPT到底是什么? ChatGPT是一个原型人…