GPT-4来炸场：10秒输出一个网站，识图知意 so easy，为何如此丝滑

比被卷更可怕的莫过于自己卷自己，这点还得是OpenAI更胜一筹。

四个月前，ChatGPT 刚刚推出，并成为历史上增长最快的消费者应用程序。在ChatGpt大杀四方时，万众瞩目的大型多模态模型GPT-4也在今天凌晨正式发布。

据OpenAI官方介绍，GPT-4 实现了几个方面的飞跃式提升：强大的识图能力；回答准确性显著提高；能够生成歌词、创意文本，实现风格变化；文字输入限制提升至 2.5 万字。

Q ：手套掉下去会怎样？

A ：它会掉到木板上，且球会被弹飞。

Q ：这幅图有什么好笑的? 一点一点描述它。

A ：该图像显示了一个包含三个图片的“Lightning Cable”适配器。

图1: 一个智能手机与 VGA 连接器(一个大型，蓝色，15针连接器通常用于计算机显示器)插入其充电端口。

图2: “Lightning Cable”适配器的封装，上面有一个 VGA 连接器的图片。

图3: VGA 连接器的特写镜头，最后是一个小型Lightning连接器(用于为 iPhone 和其他苹果设备充电)。

这张图片中的幽默来自于将一个过时的大型 VGA 连接器插入一个小型的现代智能手机充电端口的荒谬。

允许用例如长形式的内容创建、扩展会话、文档搜索和分析等。

在简单对话中，ChatGPT与GPT-4可能看不出太大差距。但是，当任务的复杂性达到足够的阈值时，差异就会出现——GPT-4比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。

左边是ChatGPT，右边是GPT-4

为了解这两种模型之间的区别，OpenAI在各种基准测试中进行了测试，包括人类的模拟考试，比如GRE。OpenAI并没有针对这些考试进行专门培训，但GPT-4的排名依然名列前茅。例如，它通过模拟律师考试，分数在应试者的前10%左右；相比之下，GPT-3.5的得分在倒数10%左右。

虽然在许多现实场景中的能力不如人类，但在各种专业和学术基准上已经和人类表现持平。

GPT-4对代码的敏感度也极强，在发布会上，OpenAI 总裁及联合创始人 Greg Brockman 向大家展示了 GPT-4 的强大编程技能：在草稿本上画出一个草图，拍照告诉 GPT-4 要做一个网站，效果如图，让 GPT-4 生成网站代码。

10s左右，GPT-4就生成了网站的HTML代码：

这效率及成果也让很多开发者有了强烈的职场危机感，很难入睡，AI真的会取代程序员吗？

尽管 GPT-4 的功能已经非常强大，但它仍与早期的 GPT 模型具有相似的局限性。OpenAI 表示，GPT-4 仍然会产生幻觉、生成错误答案，并出现推理错误。目前，使用语言模型应谨慎审查输出内容，必要时使用与特定用例的需求相匹配的确切协议（例如人工审查、附加上下文或完全避免使用）。

相对于此前的模型，GPT-4 已经明显减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中，GPT-4 的得分比最新的 GPT-3.5 模型高 40%：

OpenAI 表示，研究团队一直在对 GPT-4 进行迭代，使其从训练开始就更加安全和一致，所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。与 GPT-3.5 相比，模型对不允许内容的请求的响应倾向降低了 82%，而 GPT-4 对敏感请求（如医疗建议和自我伤害）的响应符合政策的频率提高了 29%。