OpenAI最强多模态语言模型来了:GPT-4发布
OpenAI最新推出了深度学习中规模最大的多模态模型——GPT-4,它接受图像和文本输入,并生成文本输出。GPT-4虽然在许多实际场景中的能力不及人类,但在各种专业和学术基准测试中表现出了人类级别的性能。例如,它通过了模拟的律师资格考试,并获得了约排名前10%的分数,而GPT-3.5的分数约为排名倒数10%。经过6个月的迭代调整和ChatGPT的帮助,GPT-4在事实性、可操纵性和不越界方面取得了迄今为止最好的结果(尽管远非完美)。
1. GPT-4训练过程
GPT-4的训练过程是OpenAI与Azure合作,设计了一个超级计算机,并在过去两年中重建了整个深度学习栈。一年前,他们以GPT-3.5为“试跑”模型进行了训练,并修复了一些错误和提高了理论基础。因此,GPT-4的训练结果对于OpenAI来说是前所未有的稳定,是他们首个能够准确预测训练性能的大型模型。随着继续专注于可靠的扩展,他们的目标是磨练方法,以帮助他们更加提前预测和准备未来的能力——这对于安全至关重要。
GPT-4可以接受文本和图像输入,并生成文本输出。它比GPT-3.5更可靠、更具创造性,能够处理更多细微的指令。OpenAI测试了多种基准测试,包括模拟人类设计的考试。他们使用最新的公共测试(在奥林匹克和AP自由回答问题的情况下)或购买2022-2023年的练习考试进行测试。在这些考试中,他们没有进行特定的培训。虽然模型在训练过程中看到了少数考试问题,但OpenAI相信结果是有代表性的。他们还将GPT-4评估在传统的机器学习模型基准测试上。GPT-4相对于现有的大型语言模型以及包括基准特定工艺或额外训练协议的大多数最先进的模型(SOTA)表现出色。
GPT-4还可以接受并处理各种语言输入,包括低资源语言,如拉脱维亚语、威尔士语和斯瓦希里语等。
2. 评估结果
对于语言模型而言,评估指标包括了模型的生成能力、模型对于文本逻辑结构的把握能力、模型对于事实准确性的处理能力、模型的多样性等。根据OpenAI官方发布的信息,GPT-4在这些指标上都有着不俗的表现。例如,GPT-4在某些职业和学术测试上表现出了人类水平的能力,例如在模拟律师考试时,GPT-4的得分达到了全体测试者的前10%,而之前的GPT-3.5的得分仅在后10%。
此外,GPT-4还在多语言的测试中表现出了优异的能力,对于包括低资源语言在内的26种语言的测试中,GPT-4在24种语言中都超过了GPT-3.5等其它语言模型的表现。另外,GPT-4对于图像输入的处理能力也在不断优化中,目前已经能够接受文本和图像的混合输入,并生成自然语言、代码等文本输出。在图像输入测试中,虽然还处于研究阶段,但是OpenAI官方也已经公布了一些初步的测试结果,表明GPT-4在这一领域也有着不俗的表现。
3. 使用案例——地表最强
(1)理解图片中的笑点
(2)理解图表中的数据
(3)直接看图片做题
(4)理解图片中的不正常现象
(5)阅读论文并总结
(6)懂梗???(以后可以说脱口秀了)
(7)理解图片中的笑话
4. 局限性
虽然GPT-4在多个指标上都表现出了优异的能力,但是其仍然存在一些局限性。
-
首先,GPT-4目前仍然无法完全理解和应用人类语言中的一些文化背景和情感色彩等非语义信息。虽然在一些测试中,GPT-4表现出了令人惊讶的创造力和多样性,但是在一些情境下,其生成的文本仍然存在一些逻辑不清或与上下文不符的问题。
-
其次,GPT-4在处理一些非常具体的任务时,可能需要通过特定的预训练或针对性的微调才能够达到人类水平的表现。虽然GPT-4可以处理许多通用性任务,但是对于某些领域的专业知识,其表现仍然可能有所欠缺。
-
最后,GPT-4在训练过程中消耗了大量的计算资源,其计算量甚至高于之前的GPT-3.5。这也使得GPT-4的训练和应用成本都较高,且在当前技术和硬件水平下,GPT-4的规模和效率仍然存在一定的瓶颈。
5. 风险
在风险和缓解措施方面,GPT-4的风险包括产生有害建议、错误代码或不准确信息等问题,但其新增的能力也导致了新的风险表面。OpenAI通过与50多个领域专家合作,测试模型行为,收集反馈和数据,以改善模型的安全性。在减少对不允许的内容的响应和增加对敏感内容的响应等方面,OpenAI已经通过模型级干预来增加了GPT-4的安全性。
-
在训练过程方面,GPT-4的基本模型像以前的GPT模型一样,使用公开数据和已许可的数据进行预测下一个单词。通过强化学习和人类反馈,OpenAI调整了GPT-4的行为,使其在特定的范围内回答问题。
-
在可预测性的扩展方面,OpenAI建立了一个可以进行可预测的深度学习堆栈,以满足GPT-4这样的大规模训练的需求。通过开发基础架构和优化,OpenAI可以跨多个规模具有非常可预测的行为。
同时,OpenAI还发布了一个名为OpenAI Evals的软件框架,用于创建和运行评估模型的基准测试。这个框架可以帮助评估不同的人工智能语言模型的性能,以期进一步提高这些模型的质量。
参考文献
[1] GPT-4 https://openai.com/research/gpt-4
[2] GPT-4 Technical Report https://cdn.openai.com/papers/gpt-4.pdf