比被卷更可怕的莫过于自己卷自己,这点还得是OpenAI更胜一筹。
四个月前,ChatGPT 刚刚推出,并成为历史上增长最快的消费者应用程序。在ChatGpt大杀四方时,万众瞩目的大型多模态模型GPT-4也在今天凌晨正式发布。
据OpenAI官方介绍,GPT-4 实现了几个方面的飞跃式提升:强大的识图能力;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;文字输入限制提升至 2.5 万字。
Q :手套掉下去会怎样?
A :它会掉到木板上,且球会被弹飞。
Q :这幅图有什么好笑的? 一点一点描述它。
A :该图像显示了一个包含三个图片的“Lightning Cable”适配器。
图1: 一个智能手机与 VGA 连接器(一个大型,蓝色,15针连接器通常用于计算机显示器)插入其充电端口。
图2: “Lightning Cable”适配器的封装,上面有一个 VGA 连接器的图片。
图3: VGA 连接器的特写镜头,最后是一个小型Lightning连接器(用于为 iPhone 和其他苹果设备充电)。
这张图片中的幽默来自于将一个过时的大型 VGA 连接器插入一个小型的现代智能手机充电端口的荒谬。
允许用例如长形式的内容创建、扩展会话、文档搜索和分析等。
在简单对话中,ChatGPT与GPT-4可能看不出太大差距。但是,当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。
左边是ChatGPT,右边是GPT-4
为了解这两种模型之间的区别,OpenAI在各种基准测试中进行了测试,包括人类的模拟考试,比如GRE。OpenAI并没有针对这些考试进行专门培训,但GPT-4的排名依然名列前茅。例如,它通过模拟律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准上已经和人类表现持平。
GPT-4对代码的敏感度也极强,在发布会上,OpenAI 总裁及联合创始人 Greg Brockman 向大家展示了 GPT-4 的强大编程技能:在草稿本上画出一个草图,拍照告诉 GPT-4 要做一个网站,效果如图,让 GPT-4 生成网站代码。
10s左右,GPT-4就生成了网站的HTML代码:
这效率及成果也让很多开发者有了强烈的职场危机感,很难入睡,AI真的会取代程序员吗?
尽管 GPT-4 的功能已经非常强大,但它仍与早期的 GPT 模型具有相似的局限性。OpenAI 表示,GPT-4 仍然会产生幻觉、生成错误答案,并出现推理错误。目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。
相对于此前的模型,GPT-4 已经明显减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:
OpenAI 表示,研究团队一直在对 GPT-4 进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。与 GPT-3.5 相比,模型对不允许内容的请求的响应倾向降低了 82%,而 GPT-4 对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高了 29%。
作为声明的一部分,OpenAI 分享了几个已经测试过 GPT-4的公司的用例,包括 Duolingo,Stripe,Morgan Stanley 和冰岛政府。该公司还分享了一个 GPT-4 的研究博客,并强调“ GPT-4仍然有许多已知的限制,我们正在努力解决,如社会偏见,幻觉和对抗性提示。”
参考:https://openai.com/research/gpt-4