大家好
当我还沉浸于收集各种基于 chatgpt 开发的 AI 效率神器时,OpenAI 竟然发布了 GPT-4。之前为大家介绍 ChatGPT 时就提到过它使用的是 GPT-3 的模型,而当时 OpenAI 的研发进度其实已经超过了 GPT-3,但是没想到 GPT-4 的发布会这么突然,一时间网上铺天盖地都是关于 GPT-4 的各种消息,看来真的是功能很强大,废话不多说,一起看看和 GPT-3 相比 GPT-4 有哪些进步吧~
一、接受图片输入并识别内容
这次发布最令人激动的一点就是 GPT-4 支持多模态(接受图像和文本输入,发出文本输出),这意味着我们可以发送图片给 GPT-4,并指示它识别分析图片的内容,图片的类型可以是带有文字和照片的文件、图标或者屏幕截图。
虽然该功能目前仅供预览,没有开放给用户,但从官方论文和直播公布的案例来看,GPT-4 并不是简单地描述图片的内容,而是能够理解内容物之间的联系,并做出进一步的判断和动作,也就是说 GPT-4 理解图片能力与它理解文本的能力不相上下。比如下面的案例,将一张图片发送给 GPT-4 分析它的笑点,GPT-4 能非常准确地识别一张图片中的不同部分,理解它们之间的逻辑关系,并之指出笑点所在。
它也能识别出图片的不合理之处,或者推断出图片内容状态被改变时会发生什么事情。
GPT-4 还能像理解文本内容一样,理解图像内的文字并按照用户指示作出下一步的操作,比如分析论文内容然后总结提炼。OpenAI 在官方直播里还展示了一个神奇的案例 —— 利用 GPT-4 的识图功能,结合其强大的代码编写能力,将简单潦草的手绘网页线框草稿转换为代码,从而制作出一个真正的网页。
二、在专业和学术领域上表现的提升
OpenAI 官方在介绍 GPT-4 时着重强调的另一点是“在各种专业和学术基准上表现出人类水平的表现”,比如它通过了模拟律师考试,分数排名在所有应试者的前 10% 左右,相比之下 GPT-3.5 的得分则在倒数 10% 左右,且 GPT-4 在其他各种专业和学科模拟考试中也有不俗的表现。当时看到这个的我只觉得这不是“表现出”人类水平,而是“超过”大部分的人类水平了,之后估计会出现很多公司直接让 GPT-4 对接服务客户的情况,毕竟专业能力都是过关的。
OpenAI 的研发团队还进一步提升了 GPT 的英语能力,GPT-4 的英语翻译准确度为 85.5%,比 GPT-3.5 的 70.1% 高出 15%。而且在模拟测试中 GPT-4 在意大利语、德语、西班牙语、法语、日语、韩语、土耳其语、俄语等 24 种语言中的翻译表现都优于与其他大型语言模型的英语表现,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言。
据 OpenAI 官网显示,在线免费语言学习平台多邻国 Duolingo 将把 GPT-4 融入自己的应用中,以推进产品的两个新功能:角色扮演(Role Play)和解释我的答案(Explain my Answer)。之前多邻国一直尝试通过脚本化的对话与学习者 "聊天",其中包含了各种经典的场景,如点菜、第一次见面或买机票。而接入 GPT-4 后,多邻国将拥有在小众背景下与学习者 "沉浸式 "交谈的能力——比如就篮球或到达山顶的幸福感进行自由交谈。
三、可操控性增强
与之前 ChatGPT 固定的一种的语气和风格不同,GPT-4 的可操控性更强,可以扮演各种指定角色,以不同的言语行为风格与用户进行互动,比如给五年级的小学生当数学老师、做你的程序编写小助手,或者扮演一个莎士比亚式的海盗头子和你对话。
OpenAI 还通过多个介绍视频展现 GPT-4 的其他进步,比如在文字输入限制方面由 GPT-3.5 的 3000 字提升成 25000 字,之后针对同一话题或对象,用户和 ChatGPT 会有更宽更深的讨论空间;总结能力提升,可以用一句话总结一份论文,以及对比两篇文章并总结出他们之间的共同点;事实推理能力增强,可以理解税务法并帮人们报税;代码编写能力进一步增强,简单的代码已经无需人类辅助修改,复杂代码虽然不能一次成功,但出现的问题可以再次反馈给 GPT-4,它会自动根据上下文检查错误点并重写代码。
推特用户@Pietro Schirano 用 GPT-4 在 60 秒 内编写出经典游戏《Pong》,图片内容来源: https://twitter.com/skirano/status/1635736107949195278
推特用户@Jakebrowatzke 用 GPT-4 在几小时内做了一个 Chrome 插件,而他毫无编程基础,图片内容来源: https://twitter.com/jakebrowatzke/status/1635882037319008258
四、局限性
尽管 GPT-4 功能已经十分强大了,但它仍然存在着之前就有的局限性。比如 模型数据仍停留在 2021 年 9 月之前,对这个时间点之后发生的事情缺乏了解,并且也无法意识到自己的这种缺陷,因此无法吸取教训进行改进。
GPT-4 仍然不是完全可信赖。虽然对抗性训练让那 GPT-4 在事实性上比最 GPT-3.5 高出了 40%,但它还是会出现编造事实、推理错误的情况,特别是在需要理解上下文的情况下。对于 GPT-4 输出的内容最好进一步人工审核,或者在提供完整的上下文信息,或者避免出现需要让 GPT-4 联系上下文进行理解的情况。
GPT-4 在理解俗语上的表现与研究人员的期望还有很大差异,比如“teach an old dog new tricks”是一个英语俗语,字面意思是“教老狗玩新花样 ”,用来比喻人们很难或不可能教会别人新的技能或改变别人的习惯,尤其是当他们一成不变或长期以来一直以某种方式做事。当问 GPT-4 “Can you teach an old dog new tricks?”,它只能理解字面意思,从而给出错误回答“Yes, you can teach an old dog new tricks”。
GPT-4 还会忽略提问中的一些细节,导致给出错误的答案,需要人为指正;会像人类一样无法处理难题,比如它生成的代码会存在安全漏洞;还有会轻易相信用户主张的虚假信息,但是这一点已经改进不少,因为 Twitter 上有人拿之前戏弄 ChatGPT 的一个问题去测试 GPT-4,被 GPT-4 驳回了并且申明“我的目的是提供准确的信息”。
当然 OpenaAI 一直在致力于改进和完善这些缺陷,努力让训练更稳定安全,目前取得的成果包括提高了 GPT-4 拒绝合成危险化学品相关请求的能力、不响应敏感的请求(如医疗建议和自我伤害)等。
图片来源: https://twitter.com/DrJimFan/status/1636120223853199362
已经开通 ChatGPT Plus 的用户可以直接体验最新的 GPT-4 模型,GPT-4 的 API 也开放了等候名单,感兴趣的小伙伴可以申请。如果你有新版 Bing 的预先体验权,那么恭喜啦 ,GPT-4 在发布前 6 周就已经被置入到 Bing 中了。
最新消息称 GPT-5 会在今年年底前发布,让人十分期待会出现哪些更强大的功能。不过在此之前基于 GPT-4 开发的各种 AI 神器应该也够我们期待一波了。对于 GPT-4 和未来将出现的 GPT-5 你有哪些想法呢?欢迎在评论区分享。喜欢本期内容的话可以多多点赞收藏,之后会继续为大家推荐更多最新的 AI 资讯。
GPT-4 官方介绍:GPT-4 --- GPT-4 (openai.com)
GPT-4 API 申请渠道:GPT-4 API waitlist --- GPT-4 API 候补名单 (openai.com)
参考资料:
-
https://mp.weixin.qq.com/s/kA7FBZsT6SIvwIkRwFS-xw
-
https://weibo.com/5498125999/Mxnih6TXu
-
https://www.youtube.com/watch?v=outcGtbnMuQ
-
https://twitter.com/OpenAI/status/1635687373060317185
-
https://openai.com/research/gpt-4
GPT-4 重磅发布!零基础也能一秒做网站了? - AI人工智能 - 执刀人的工具库