GPT-4 VS ChatGPT：训练、性能、能力和限制的探索

GPT-4是一种改进，但是应该适当降低期望

当OpenAI在2022年末推出ChatGPT时，震惊了全世界。这个新的生成式语言模型预计将彻底改变包括媒体、教育、法律和技术在内的整个行业。简而言之，ChatGPT听起来可以颠复一切。甚至在我们没有时间真正设想一个ChatGPT后的世界之前，OpenAI又推出了GPT-4。

最近几个月，突破性的大型语言模型发布的速度令人惊叹。如果您仍然不了解ChatGPT与GPT-3，更不用说GPT-4之间的区别，听起来也很正常。

在本文中，我们将介绍ChatGPT和GPT-4之间的主要相似之处和差异，包括它们的训练方法、性能和能力，以及限制。

ChatGPT与GPT-4的训练方法的相似之处和差异

ChatGPT和GPT-4都站在巨人的肩膀上，建立在GPT模型的先前版本上，同时改进模型架构，采用更复杂的训练方法，并增加了训练参数的数量。

两个模型都基于 Transformer 架构。GPT-2和GPT-3使用 multi-headed self-attention 来决定要关注哪些文本输入。这些模型还使用 decoder-only 的架构，逐个 token 地生成输出序列，迭代地预测序列中的下一个 token。虽然ChatGPT和GPT-4的精确架构尚未发布，但我们可以假设它们仍然是 decoder-only 模型。

OpenAI的GPT-4技术报告提供了很少有关GPT-4模型架构和训练过程的信息，引用了“竞争环境和大规模模型的安全影响”。我们所知道的是，ChatGPT和GPT-4可能以类似的方式进行训练，这是与GPT-2和GPT-3使用的训练方法不同的。我们对ChatGPT的训练方法了解得比GPT-4多得多，所以我们从那里开始。

ChatGPT

首先，ChatGPT 是在聊天数据集上进行训练的，其中包括演示数据，即人类标注员提供特定提示的聊天机器人助手预期输出的演示。使用这些数据对 GPT3.5 进行有监督的微调，产生一个策略模型，该模型用于在给定提示时生成多个响应。然后，人类标注员对于给定提示生成的响应产生的最佳结果进行排名，用于训练奖励模型。然后使用奖励模型通过强化学习迭代地微调策略模型。

总的来说，ChatGPT是使用人类反馈的强化学习（RLHF）训练的，这是一种在训练过程中融入人类反馈以改善语言模型的方式。这使得模型的输出能够与用户要求的任务相一致，而不仅是基于通用训练数据集（例如GPT-3）预测句子中的下一个单词。

GPT-4

关于GPT-4的训练细节，OpenAI目前还未披露。他们的技术报告中没有包括有关架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法等的详细信息。我们所知道的是，GPT-4是一种基于转换器的生成多模态模型，使用公开可用的数据和经许可的第三方数据进行训练，然后使用RLHF进行微调。有趣的是，OpenAI分享了有关其升级的RLHF技术的细节，以使模型的响应更准确，并且不太可能偏离安全防护栏。

在训练策略模型后（与ChatGPT类似），RLHF在对抗性训练中使用，这个过程是训练模型对恶意示例进行欺骗，以便在未来保护模型免受此类示例的影响。在GPT-4的情况下，跨多个领域的人类领域专家对策略模型对抗性提示的响应进行评分。然后使用这些响应来训练额外的奖励模型，以逐步微调策略模型，从而得到一个更不可能提供危险、回避或不准确的响应的模型。