点击↑上方↑蓝色“编了个程”关注我~
这是Yasin的第 93 篇原创文章
官方的token解释
->Our models understand and process text by breaking it down into tokens. Tokens can be words or just chunks of characters. For example, the word “hamburger” gets broken up into the tokens “ham”, “bur” and “ger”, while a short and common word like “pear” is a single token. Many tokens start with a whitespace, for example “ hello” and “ bye”. The number of tokens processed in a given API request depends on the length of both your inputs and outputs. As a rough rule of thumb, 1 token is approximately 4 characters or 0.75 words for English text. One limitation to keep in mind is that your text prompt and generated completion combined must be no more than the model's maximum context length (for most models this is 2048 tokens, or about 1500 words). Check out our tokenizer tool to learn more about how text translates to tokens.
<-
翻译:
我们的模型通过将文本分解成标记来理解和处理文本。标记可以是单词或字符块。例如,“hamburger”这个单词被分解成“ham”、“bur”和“ger”三个标记,而像“pear”这样的短且常见的单词则是一个标记。许多标记以空格开头,例如“ hello”和“ bye”。
在给定的API请求中处理的标记数量取决于输入和输出的长度。作为一个粗略的经验法则,对于英语文本,1个标记大约等于4个字符或0.75个单词。需要记住的一个限制是,您的文本提示和生成的完成组合必须不超过模型的最大上下文长度(对于大多数模型,这是2048个标记,或约1500个单词)。请查看我们的分词器工具,以了解有关文本如何转换为标记的更多信息。
中文和英文token的对比
我们将上面两段话输入到官方的token解析器,发现英文只需要200个token:
而中文的需要565个token:
实际测了几段prompt,中文比英文要多2到3倍的token消耗。
中英文的理解能力对比
下面是我问Chat GPT的问题:
->chat gpt在理解中文或英文的prompt上有什么差异吗,是不是使用英文的prompt效果会更好?
<-
Chat GPT回答: 作为一个基于GPT-4架构的AI,ChatGPT在处理不同语言的文本时,理解能力和效果主要取决于训练数据。在训练过程中,大量的英文文本被用于训练,因此对于英文的理解和生成能力相对较强。虽然它也可以理解和回应中文,但可能相对于英文来说,效果稍逊一筹。
总的来说,使用英文prompt可能会得到更好的效果,因为ChatGPT在处理英文文本方面拥有更丰富的训练数据和更强的能力。然而,如果您需要使用中文与其交流,ChatGPT仍然可以提供相对可靠的回应,但可能不如英文那么精确。
相当于训练数据决定了,英文会有更强的理解能力。
结论
综合来看,prompt使用英文会占用更少的token,有更强的理解能力。那么假如我们使用英文的prompt,但用户输入的中文的,Chat GPT也能更好地理解吗?
我们来测试一下,首先是中文版本的:
然后是英文版本:
可以看到还是能正常理解的。哪怕是对话上下文中全是英文,只要用户输入的中文,Chat GPT仍然可以用中文来进行回答。
综合来看,使用英文的prompt会更好。
关于作者
我是Yasin,一个爱写博客的技术人
微信公众号:编了个程(blgcheng)
个人网站:https://yasinshaw.com
不用魔法和GPT账号的AI聊天机器人:
bot.aichatroom.cn
欢迎关注这个公众号