tiktoken (a fast BPE tokeniser for gpt4、chatgpt)

OpenAI在其官方GitHub上公开了一个最新的开源Python库:tiktoken,这个库主要是用做字节对编码(BPE)的。相比较HuggingFace的tokenizer,其速度提升了好几倍。
在这里插入图片描述
chatgpt 按token 数量收费,1000个token大约700个单词,可以用tiktoken统计token数量,自己估算费用或者做token数量限制!

安装

pip install tiktoken

gpt2 demo

import tiktoken
enc = tiktoken.get_encoding("gpt2")
# 字节对编码过程,我的输出是[31373, 995]
encoding_res = enc.encode("hello tiktoken, what's chatgpt going on?")
print(encoding_res)
# 字节对解码过程,解码结果:hello world
raw_text = enc.decode(encoding_res)
print(raw_text)

在这里插入图片描述

BPE简介

字节编码对(Byte Pair Encoder,BPE)是一种子词处理的方法。其主要的目的是为了压缩文本数据。主要是将数据中最常连续出现的字节(bytes)替换成数据中没有出现的字节的方法。
其它一些流行的子词标记化算法包括WordPiece、Unigram和SentencePiece。而BPE用于GPT-2、RoBERTa、XLM、FlauBERT、chatgpt、gpt4等语言模型中。这些模型中有几个使用空间标记化作为预标记化方法,而有几个使用Moses, spaCY, ftfy提供的更高级的预标记化方法。

参考

openai/tiktoken(github)
chatgpt api 调用服务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27256.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python下载安装教程

Python下载安装教程 Python是一种高级编程语言,具有简单易学、强大多样的特点,不仅可以用来开发网站、应用程序、游戏,还可以用于数据科学、机器学习、人工智能等领域,被广泛应用于各行各业。 本文将为您提供详细的Python下载安…

LLaMA模型系统解读

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

3月份读文+学习思考记录

基于GPT3.5搭建定制化知识库 https://mp.weixin.qq.com/s?__bizMzIyNDAzMzYxNQ&mid2652028778&idx1&sn985a386f915dea0d4dc97186af7c50b6&srcid0316LqkslRQXM1UyluqQFTxe 当然,还有一个问题:程序员怎么办?程序员会被替代吗…

大神李沐被曝离职亚马逊,投身大模型创业!网友:“AI 已成创业致富新思路?”...

整理 | 朱珂欣 出品 | AI科技大本营(ID:rgznai100) 横空出世的 ChatGPT 在火爆出圈之后,硅谷巨头、各大互联网大厂可谓是上演了一场群雄逐“ChatGPT”……在 AIGC 新风口之下,人才无疑成为这场“硬仗”的主力军。 近日…

别只关心315打老虎,来看看全年无休的AI打假

一年一度的“315”消费者权益日如期而至,这一天,全民最期待、各家公关最紧张的环节,应该是“打老虎”的高光时刻。 某些高高在上的巨头或大牌的“套路”被曝光,次日忙不迭道歉整改,让广受其害但维权困难的消费者们拍手…

如何成为某一领域的顶尖专家?—— 看看 ChatGPT、文心一眼、GPT-4 都怎么说的……

如何成为某一领域的顶尖专家? 目录 如何成为某一领域的顶尖专家? GPT-4

Midjourney, Dall-E, Stable Diffusion-人工智能艺术大师班

欢迎来到 Midjourney、Dall-E、Stable Diffusion:AI 摄影与艺术课程!该在线课程专门旨在为您提供使用尖端人工智能艺术工具所需的技能和知识,并将您的创作过程提升到一个新的水平。无论您是数字艺术家、摄影师、设计师,还是仅仅是…

ChatGPT:你真的了解网络安全吗?浅谈攻击防御进行时之网络安全新总结

ChatGPT:你真的了解网络安全吗?浅谈网络安全攻击防御进行时 网络安全新总结总结 ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序,是人工智能技术驱动…

【干货】如何写一篇还算凑活的博客文章

文章目录 前言🍊缘由一切源于热爱 🎯主要目标实现5大重点 🍩水图秀一波实体奖品 🍯猜你喜欢文章推荐 正文🏀写作前置问题1️⃣.为什么要写博客?1. 知识积累,自我总结型 🤣2. 技术大佬…

关于GPT-4的产品化狂想

如今打开互联网一看,会看到铺天盖地的“GPT-4好厉害”“太牛了”“科技革命到来了”“人类都要失业了”…… 但这么伟大的变革到底是怎么到来呢?答案好像比较含糊。只有ChatGPT基础的问答、代写能力,以及微软已经开始做的搜索、办公是目前比较…

十级NLPer才能笑出声的算法梗!

每天给你送来NLP技术干货! 文|付奶茶 来自 | 夕小瑶的卖萌屋 点击这里进群—>加入NLP交流群 近期小编整理出了一些非常好笑的梗图,与各位NLPer共赏,希望与大家一起评选出本期最好笑的梗图选手! 【1号选手&#xff1…

生产力 AI :用 GPT 做会议整理|Krisp

G2 Grid 语音识别产品概况。G2 Grid 为顶级语音识别软件产品提供评分。G2 根据用户社区的评论、在线来源和社交网络的数据进行评分。这些评分被绘制在我们专有的 G2 Grid 上,您可以使用它来比较产品、简化购买流程,并根据同行的经验快速确定最佳产品。 最…

AI赋能日常生活:讯飞语音转写在会议、采编、上课等场景中的应用

人工智能在日常生活中的应用已经非常广泛了。除了ChatGPT这种对话生成式AI,语音转文字技术也可以在很多场景中派上用场。比如,奔波于各种会议之间的打工人、经常采访的媒体从业者以及要上网课的学生们,每天都需要处理大量信息。但手速与语速不…

低代码技巧:甘特图制作步骤

甘特图是什么? 甘特图(Gantt chart)又称为横道图、条状图(Bar chart)。其通过条状图来显示项目、进度和其他时间相关的系统进展的内在关系随着时间进展的情况。以提出者亨利劳伦斯甘特(Henry Laurence Gantt)先生的名…

在线甘特图制作教程

在线甘特图制作教程 很多的甘特图工具都是需要下载到本地,并且做好了之后也不方便分享给别人。给大家分享一个在线的甘特图制作工具 不需要登录注册 知竹甘特图 https://www.yxsss.com/ 打开知竹甘特图 https://www.yxsss.com/gatt/3b7d1ecb7211b9473e7d1ecb72 …

几款免费在线甘特图工具

点击上方 蓝字关注我们! 在20世纪,有一位名叫甘特的管理者提出了崭新的科学管理方法,让工程项目变成可视化的图表,让管理者更容易掌握项目进程,世人把这种图表称为甘特图,也常被称为进度图、条状图或横道图…

甘特图详解

甘特图详解 一、介绍二、历史发展三、优缺点1、优点2、 缺点 四、应用范围1、项目管理2、其它领域 五、软件工具六、使用1、效果图示2、步骤3、资料 参考 一、介绍 甘特图是一种条形图,它说明了项目进度表。该图表列出了垂直轴上要执行的任务,以及水平轴…

如何用 Excel 做出专业的甘特图?详细来了!

如何用 Excel 做出专业的甘特图?详细来了! 甘特图,又称横道图,非常适合二次优化长期计划,将长期的目标切割成一个个可控性更强的短期计划,从而让计划落地,提高行动的效率。 看到这种甘特图&…

分享几个常做甘特图的软件

因为现在做的工作是项目运营,所以平时在部署活动的时候需要跟进活动的执行情况,那活动的执行进度就要活动相关的甘特图。如果没有一款合适的软件去做甘特图会特别麻烦,一方面要处理数据另一方面要保证图型的美观,所以找到一款合适…

C# 实现简单的甘特图控件

效果图 日期红色的可以设置假期 也可以设置星期六星期日是否为假期 例子 ProjectViewBox.ProjectNode _Node1 new ProjectViewBox.ProjectNode(DateTime.Parse("2009-08-01"), 2, "新任务1"); ProjectViewBox.ProjectNode _Node2 new Projec…