GPT-4并不是chatGPT的升级。
尽管 ChatGPT 最初被描述为 GPT-3.5(因此比 GPT-3 更进一步),但它本身并不是 OpenAI 大型语言模型的版本,而是一个基于其动力的基于聊天的接口。在过去几个月里爆炸性增长的 ChatGPT 是与 GPT-3.5 交互的一种方式,将来也会是与 GPT-4 交互的一种方式。
让我们来看看你所熟知和喜爱的聊天机器人与其新近增强的后继者之间的差异
多模态
GPT-4 能够看到和理解图像!这个多功能的机器学习系统最明显的变化是它是“多模式”的,这意味着它可以理解多种信息“模式”。ChatGPT 和 GPT-3 只限于文本:它们可以阅读和写作,但仅此而已(尽管对于许多应用程序来说已经足够)。
然而,GPT-4 可以处理图像以查找相关信息。当然,你可以简单地要求它描述图片中的内容,但更重要的是,它的理解超越了这个范围。OpenAI 提供的例子实际上让它解释了一个笑话中荒谬的超大型 iPhone 连接器的形象,但与 Be My Eyes 的合作更加显眼,这是一款供盲人和视力低下的人使用的应用程序,让志愿者描述他们的手机看到的内容。
在 Be My Eyes 的视频中,GPT-4 描述了裙子上的图案,识别了植物,解释了如何到健身房的某个机器,翻译了标签(并提供了一份食谱),阅读了地图,并执行了许多其他任务,表明它真正理解图像中的内容——如果它被问了正确的问题。它知道裙子的样子,但可能不知道它是否适合你的面试。、
更智能
相对于上一代,GPT-4更难被欺骗!
尽管当今的聊天机器人做得很好,但它们往往很容易被误导。一些诱导就足以使它们相信它们只是在解释“坏AI”会做什么,或者其他一些小小的虚构,让模型说出各种奇怪和令人毛骨悚然的话。人们甚至合作制定“越狱”提示,让ChatGPT和其他聊天机器人很快走出困境。
另一方面,GPT-4已经接受了大量的恶意提示训练 - 这些提示是用户在过去一两年中有用地提供给OpenAI的。有了这些提示,新模型在“事实性、可操纵性和拒绝超出警戒线”的方面比以前的模型好得多。
根据OpenAI的描述,GPT-3.5是新训练架构的“测试运行”,他们从中获得了教训,并应用到新版本中,这个版本是“前所未有地稳定”。他们也能更好地预测其能力,这减少了惊喜。
长了记性
GPT-4有更长的记忆力。这些大型语言模型是通过对数百万个网页、书籍和其他文本数据进行训练而生成的,但当它们与用户进行对话时,它们能够保留在“心中”的信息量是有限的(可以理解这一点)。GPT-3.5和旧版ChatGPT的这一限制是4,096个“标记”,大约相当于8,000个单词或大约四到五页书的长度。所以在超过这个长度的对话或文本生成中,它们有点失去了跟踪的能力。
GPT-4的最大标记数量为32,768个,如果您想知道这个数字为什么看起来很熟悉,那是因为它是2^15。这相当于大约64,000个单词或50页的文本,足够写一整部戏剧或短篇小说。
这意味着,在对话或生成文本时,它将能够记住约50页的内容。因此,它将记得您谈论过的20页聊天记录,或者在撰写故事或文章时,它可能会提到35页之前发生的事件。这只是关于注意机制和标记计数的大概描述,但总的来说,这是扩展记忆和相关能力的一个概括性的想法。
支持更多语言
不可否认的是,在人工智能世界里,英语占据主导地位,从数据到测试到研究论文都是用英语编写的。但大型语言模型的能力可以应用于任何书面语言,并且应该在这些语言中提供支持。
GPT-4通过展示其能够在26种语言中准确回答数千个选择题迈出了这方面的一步,从意大利语到乌克兰语到韩语。它在罗曼语和日耳曼语中表现最佳,但也能很好地适应其他语言。
这种语言能力的初步测试是令人鼓舞的,虽然还远远没有全面支持多语言能力;但它对非英语使用者可能更加友好。
具有不同的“个性”
GPT-4将可操控性更加自然地融合在内,用户将能够将“固定语言、语气和风格的经典ChatGPT个性”更改为更适合他们需求的内容。openAI团队很快指出,这在一定程度内是可行的,因为这是让模型脱离角色的最简单方法。
这可以通过提示聊天机器人发送信息来完成,例如“假装你是桌面角色扮演游戏中的某角色”或“回答好像你是被有线新闻采访的人”。但实际上,这只是向“默认”的GPT-3.5个性提出建议。现在,开发人员将能够从一开始就确定一种观点、对话风格、语气或交互方式。