去年, ChatGPT 横空出世,带着独特的大型预训练模型,掀起了 GPT 和 AIGC 的浪潮,一时之间关于 OpenAI 的话题不断,各互联网大厂都纷纷入局,想要加入这场“变革”的狂欢。但在 GPT 引发无数人追捧的同时,其生成信息不准确、重复性过高等弊端也被展现出来。
而近日, OpenAI 再次推出了 GPT-4 ,升级后的它有了更强的推理生成能力,还变得有“温度”了,再次成为了话题的中心,而对于大家反复提到的 GPT-3.5 的“OpenAI是否会代替人工”问题, GPT-4也给出了自己的答卷。
GPT-4 是什么
GPT-4 全称“生成式预训练转换器4”(generative pretrained transformer 4)。
和以往的 GPT 使用的大型语言模型(LLM,Large Language Model)不同,GPT-4 是一个多模态的大模型(large multimodal model),多模态就意味着和客观世界的关联性更高,也意味着输入-输出更丰富。
因此,GPT-4 不仅和 GPT-3.5 一样,可以和用户一起生成、编辑,完成创意的迭代和技术写作任务,还带有人类反馈的强化学习( RLHF ) 来微调模型的行为,使其模型的生成内容更接近用户真实答案。
除此之外,它的响应速度是 ChatGPT 的多倍,可处理最大环境上下文长度达到 25000 ,且回答准确性显著提高;能够生成歌词、创意文本,甚至可以识别图像,实现风格变化。
GPT-4 的能力
创作性升级
得益于强大的模型数据库和倍增的响应速度,GPT-4 比以往任何时候都更具创造性和协作性。
当我们使用 GPT-4 输入指令:用一个句子解释灰姑娘的情节,每个单词必须以字母表中从 A 到 Z 的下一个字母开头,而不重复任何字母。
虽然偶尔也会如同 GPT-3.5 一样出现一些 “拖鞋胜利”的小 bug ,但总体来看, GPT-4 的表现非常好,在极短的时间内就完成了我们的要求,这对于很多创作者来说,无疑是一个灵感天堂了。
增加视觉输入能力
拥有了多模态模型后,GPT-4 可以接受图像作为输入对象,并生成说明、分类和分析。简单来说,就是当用户输入一个图片后,GPT-4 可以识别出来并理解其中的含义,再生成你需要的内容。
这相当于机器拥有了视觉并且会思考了,在应用层面有非常广泛的空间。
图片识别
在 OpenAI 官方发布的视频中, GPT-4 通过识别上图中随便画出的草图,识别出了这是一个关于网站的草图,并且将其加工,完善了可以建成这个网页的 html 代码,然后...“顺手”帮你完成了一个网站的建设。
图片理解
除了信息的识别和补充之外,GPT-4 都能看得懂梗图了!
用户:这张图有什么好笑的?一个面板一个面板地描述它。
GPT-4:该图显示了带有三个面板的“Lightning Cable”适配器的包装。面板 1:带有 VGA 连接器(一种大的蓝色 15 针连接器,通常用于计算机显示器)的智能手机已插入其充电端口。面板 2:“Lightning Cable”适配器的包装,上面有 VGA 连接器的图片。面板 3:VGA 连接器特写,末端有一个小型闪电连接器(用于为 iPhone 和其他 Apple 设备充电)。
这张图片中的幽默来自将过时的大型 VGA 连接器插入小型现代智能手机充电端口的荒谬做法。
图片分析
GPT-4 对于图片的理解和分析还远不止此,在 OpenAI 放出来的演示中我们发现,GPT-4 还可以看懂图表并进行分析!
除此之外,OpenAI 还给出了更多使用范例,如说明图片的内容、分析图表、解答图片内的考题、找出图片不寻常的原因等,已经让人大开眼界。不过,GPT-4 现在只开放了文字输入的功能,相信在不久之后大家也可以体验到图片输入的功能。
答案更可靠
GPT-4 不仅仅增加了对视觉输入的能力,在对文本的处理上,也精进了很多。在更涉及到逻辑、更复杂的任务上,常常能够给出更可靠、也更有创造性的答案。
OpenAI 表示:在随意的交谈中,GPT-3.5 和 GPT-4 之间的区别可能是微妙的。当任务的复杂性达到足够的阈值时,差异就会出现。即 GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
除知识更渊博外,GPT-4 相较于老版本,还可以成为更好的导师。
如果你提出一个问题,老版本的 ChatGPT 会一股脑地回答,而 GPT-4 可以像一名真正的人类老师一样一步一步引导、鼓励你思考并获得答案。在 GPT-3.5 中常常会引起讨论的“ ChatGPT 让人思考能力退化 ”的担忧可能也不复存在了,甚至可能实现类似于虚拟导师和课堂助手来代替一部分的家教老师等工作,为教育领域拓展一些应用。
GPT-4 的局限性
尽管功能强大,但 GPT-4 仍和之前的 GPT 模型具有相似的局限性。比如:
仍不完全可靠:还是会大胆自信地编造事实,并且会出现推理错误;
常有社交偏见、虚幻信息和敌意输入;
无法实时更新其知识;
对英语以外的语言的掌握是有限的;
还无法分析音频或视频。
当然,除了功能表现方面,GPT-4 还有一个明显的不足:可能是由于 GPT-4 比以前的版本“更大”、运行起来也更加昂贵,OpenAI 表示这个新模型目前还不能免费公开测试。不过,如果成为 ChatGPT 的付费用户 ChatGPT Plus(每月20美元),就可以获得 GPT-4 的使用权,也将获得一部分的 API ,并可以付费将 API 集成到他们的应用程序中。
总结
虽然 OpenAI 公开表示表示随着模型的普及,会逐渐提升透明度,改善用户学习,推进更广泛的人工智能素养。”
但仍有也不少人开玩笑道“ OpenAI 不再 open。”而在这之前,OpenAI 就曾因“编造新闻”的功能和不够开源等问题,和其初始投资人马斯克产生摩擦。在一次又一次的热潮和声浪中,那个致力于研究“以最有可能造福人类的方式”推进数字智能,不受产生财务回报需求约束的公司为自己的翅膀系上黄金,也不再“自由翱翔”。
我们无法得知 OpenAI 最初走上商业化是否是因为训练大模型需要更多的资金,但 ChatGPT 一次又一次的话题性确实让很多公司都“坐不住”了:凭借 Windows 占领市场的微软深夜放大招,祭出了 Microsoft 365 Copilot ;百度不落其后地发布了文心大模型的新产品——文心一言。
我们可以看到,越多越多的企业在 AIGC 上做文章,更多地将 AI 技术运用到实际的工作、生活中,我们相信在未来,更多重复性的、冗杂的工作将被 AI 代替,而更多有创造性的、新兴的职业将会被创造;这无疑是又一场生产力的变革,而如何减少用户的精力、并将其运用在用户更感兴趣的地方就是革命的驱动力。
我们认为这种革新无疑是“破坏式”的,尤其是如今各产品都忙着丰富自己的功能以更好的占领市场、获取更多的用户;鼎道智联认为,精简繁杂的服务、为用户提供更舒适的操作体验,才是未来的发展趋势。因此我们认为,打破原有服务模式,将服务做粒度拆解,并提供服务的智能响应,实现真正的“按需所取”。当然,鼎道也一直在做更多的尝试和探索,如果你认可我们的想法,或者有自己的观点想和我们讨论,欢迎各位加入鼎道生态~