GPT-4 剑指多模态,前有谷歌 PaLM-E,AI 格局要变?

本文首发自 HyperAI超神经微信公众号~

美东时间 3 月 14 日,OpenAI 重磅推出大型多模态模型 GPT-4。GPT-4 是 ChatGPT 和 Bing AI 聊天机器人背后的技术基础。OpenAI 称,GPT-4 能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已表现出人类水平。

OpenAI 发布 GPT-4

GPT-4 突袭落地:三大特性吸睛

GPT-4 此次更新,主要有三个飞跃式提升的新特性:文字输入限制提升、具备识图能力以及更强的推理能力。

内容更长更丰富

据 OpenAI 说法,GPT-4 能够处理超过 25,000 个单词的文本。Medium 作家 Michael King 对此谈道,此特性允许创建长篇内容,例如文章和博客,能够为企业和个人节省时间和资源。

此外,GPT-4 对大量文本的处理使扩展对话成为可能,这意味着,在服务业等行业中,人工智能聊天机器人可以对客户的查询提供更详细、更具洞察力的响应。同时,此特性还能进行高效地文档搜索和分析,从而成为金融、法律和医疗保健等行业的有利工具。

GPT-4 处理文本能力优于 ChatGPT

更具推理能力

OpenAI 表示,GPT-4 生成的答案错误更少,正确性要比 GPT-3.5 高 40%。同时,GPT-3.5 与 GPT-4 在闲聊时差别不大,但若任务够复杂,GPT-4 要比 GPT-3.5 更可靠、更有创意且能处理更多微妙指令。据悉,GPT-4 参加了多种基准考试测试,其中在 Uniform Bar Exam、LSAT 等考试中,得分要高于 88% 的应试者。

「做题家」 GPT-4

亮眼新特性:多模态

除了答题能力更胜一筹之外,GPT-4 另一个亮眼的特性就是可以接受文本和图像形式的输入,图像类型可以是照片、图表以及屏幕截图等。比如以下例子:

问题:这幅图有什么好笑的? 逐条描述它。

GPT-4 回答:该图像显示了一个包含三个图片的 「 Lightning Cable 」 适配器。
图1:一个智能手机与 VGA 连接器(一个大型,蓝色,15 针连接器通常用于计算机显示器)插入其充电端口。
图2:「 Lightning Cable 」 适配器的封装,上面有一个 VGA 连接器的图片。
图3:VGA 连接器的特写镜头,最后是一个小型 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。
这张图片中的幽默来自于将一个过时的大型 VGA 连接器插入一个小型的现代智能手机充电端口的荒谬性。

GPT-4 分析梗图

需要注意的是,此特性还处于研究者预览版本,并没有对外开放,OpenAI 尚未透露开放时间。

「它并不完美」

在介绍 GPT-4 的新功能的同时,OpenAI 也坦言了它的一些局限性。与之前版本的 GPT 一样,GPT-4 仍然存在 social biases、hallucinations 以及 adversarial prompts 等问题。换句话说,目前来看 GPT-4 并不完美。但 OpenAI 也表示,这些都是他们正在努力解决的问题。

多模态模型:谷歌抢先上「前菜」

虽然多模态是 GPT-4 一大亮眼特性,但不得不说,GPT-4 并不是唯一的多模态模型。

微软 AI 技术专家 Holger Kenn 介绍所谓多模态模型,是其不仅可以将文本相应地翻译成图像,还可以翻译成音频和视频。而早在本月初,谷歌就已发布史上最大的视觉语言模型——PaLM-E (Pathways Language Model with Embodied),一个可用于机器人的嵌入式多模态语言模型。PalM-E 整合了 540B 的 PaLM 语言模型和 22B 的 ViT 视觉模型,因此具有 562B 参数。

研究人员在多个任务,包括机器人操作规则、视觉问答和图像字幕中等进行了端到端的训练,评估结果表明该模型能够能有效地解决各种推理任务,并在不同的观察模态和多个实体上表现出了「正向转移 (positive transfer)」,并且该模型除了接受机器人任务训练,还在视觉-语言任务上有出色的表现。
PaLM-E 将传感器与文本输入结合,建立语言和感知连结
展示示例中,当人类发出「把抽屉里的薯片拿给我」的指令时,PaLM-E 可以为一个装有机械臂的机器人生成一个行动命令并执行行动,其通过分析来自机器人摄像头的数据实现,而无需对场景进行预处理。
机器人完成了「 把抽屉里的薯片拿给我」的指令
除了赋予机器人以上能力,PaLM-E 本身也是视觉语言模型,可以看图说故事,或者依据图片内容回答问题。

多模态模型等同「iPhone 」发布?

如今看来,整个 AI 领域正在紧锣密鼓地开展军备赛。面对 ChatGPT 的爆火,谷歌紧急发布 Bard 步步紧逼,近日又再次反击,开放自家的大语言模型 API 「PaLM API」,同时还发布了一款帮助开发者快速构建 AI 程序的工具 MakerSuite。

虽然 OpenAI CEO Sam Altman 前不久在接受采访时,仍对 GPT-4 的发布时间保持神秘,宣称「我们要在发布时,确定它是安全且负责任的」,但 GPT-4 这一波突袭,难免让人猜测是否是由于面对谷歌等巨头不断地反击和围剿,迫使它的步伐加速。

需要注意的是,Sam 采访中还谈到一个观点,人工智能的下一个进化阶段正是多模态大模型的到来。「 我认为这将是一个大趋势…更普遍的是,这些强大的模型将成为真正的新技术平台之一,这是自移动平台以来我们没有拥有过的。」

此次 GPT-4 的重磅发布,是否标志着多模态模型时代正式到来,尚需要时间证明,但其强大的能力已经开始让很多开发者甚至普通人担忧自己是否会被其取代。这一点,或许微软德国 CEO Marianne Janik 几天前的公开言论可以作为答案,她认为当前 AI 发展就像当年「iPhone 出现」,同时,她也明确表示这不是要取代工作,而是要以与以前不同的方式完成重复性任务。

「变革会使得传统的工作模式发生变化,但我们也应该看到,这种变化增加了很多新的可能性,因此,也会出现让人兴奋的新职业。」

参考链接:

[1]https://openai.com/research/gpt-4

[2]https://venturebeat.com/ai/openai-releases-highly-anticipated-gpt-4-model-in-surprise-announcement/

[3]https://palm-e.github.io/

[4]https://medium.com/@neonforge

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/68079.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中文修改润色平台-中文写作润色软件有哪些

中文语言润色软件 中文语言润色软件是一种基于自然语言处理技术,旨在提高中文文本的语言风格、表达能力和可读性的工具。中文语言润色软件可以自动检测和纠正文本中出现的语法、拼写、标点符号以及其他笔误等语言问题,并给出相应的纠正建议和修改意见。…

苹果欲让 Mac 变成「游戏机」,发布移植工具,几秒就能玩上 Windows 游戏!

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 你会用 Mac 电脑来玩游戏吗? 一直以来,Mac “只适合办公,不适合玩游戏”的名声早已远扬,它的硬件、API、驱动等本身便不是为了游戏设计而考虑&#xff0c…

函数返回值类型优化,JSX增强,TypeScript 5.1 发布!

译者 | 禾木木 责编 | 夏萌 出品 | CSDN(ID:CSDNnews) 近日,微软宣布正式发布 TypeScript 5.1版本。 如果你还不熟悉 TypeScript,它是一种建立在 JavaScript 基础上的语言,通过添加静态类型语法来构建…

用 GPT-4 创建 VSCode 插件,我遇到的六个问题!

让 GPT-4 从头开发一个扩展,会有什么情况发生?它的代码真的可以安装、编译、运行吗?一位开发者 KEVIN LIN 进行了一次测试。 原文链接:https://bit.kevinslin.com/p/leveraging-gpt-4-to-automate-the 声明:本文为 CSD…

什么是长尾关键词?如何找到长尾关键词?以及使用长尾词的九大理由

长尾关键词 文章目录 长尾关键词前言一、长尾理论二、什么是长尾关键词?三、如何找到长尾关键词?四、在SEO中使用长尾关键字的9个理由1.长尾会带来大量流量。2.长尾关键词已经包含头部关键词。3.长尾巴带来更好的针对性流量。4.长尾提高转换率。5.长尾查询非常适合PPC。6.长尾…

AI生成的东西越来越真实,你该如何分辨

ChatGPT的出现,改变很多职场人士的工作习惯,同样在学校里的中学生、大学生写作业、论文的方式也在进行极大的改变,有些学校甚至禁止使用ChatGPT,因为长此以往会导致学生的思考和创造能力下降,以及对学科知识的理解能力…

如何通过网关降低大模型的调用费用,并提升合规性

作者:赵伟基(兆维) 以 ChatGPT 为代表的 AIGC 技术为企业生产带来了巨大的变化,并在企业应用开发领域占据一席之地。AI 大模型凭借其强大的学习能力,可以帮助人们完成各种复杂的任务,例如帮助开发人员编写与调试代码、研究人员快…

ChatGPT:你才是编译器!你全家都是编译器!

我是不是再也不需要编译器了?! 这个故事的灵感来自一个类似的文章:在 ChatGPT 中构建虚拟机。我印象深刻并决定尝试类似的东西,但这次不是 Linux 命令行工具,而是让 ChatGPT 成为我们的 Python 编译器。 这是初始化 Ch…

chatgpt赋能python:Python中文输入指南

Python 中文输入指南 Python 作为一门广泛应用于编程领域的高级语言,实现了许多优秀的工具和库来支持中文输入。本文将介绍 Python 如何输入中文以及一些常见的工具和方法。 为什么 Python 输入中文很重要? 随着人们对中文的不断重视,相应…

GitHub Copilot:让开发编程变得像说话一样简单

引用: 人类天生就梦想、创造、创新。但今天,我们花太多时间被繁重的工作所消耗,花在消耗我们时间、创造力和精力的任务上。为了重新连接我们工作的灵魂,我们不仅需要一种更好的方式来做同样的事情,更需要一种全新的工…

php茶餐厅销售管理系统的设计与实现

本系统将运用phpstudy开发工具构件开发环境;基于PHP,用HTMLCSS来设计界面,用oracle作为数据库与PHP搭建来存储数据信息;最终以HTMLCSSJSPPHPoracle来实现本系统的所有开发。所以,在设计上是尽量涉及到和茶餐厅相关的销…

餐饮外卖销售系统数据库设计

简介 ​ 对于人工数据管理系统,存在许多的弊端,手工录入、耗费人力、工作繁琐,准确性也无法保证,并且相当耗费时间,对于数据量巨大的餐饮外卖销售系统来说,人工数据管理系统已经无法满足其需求。本次设计的…

餐饮营销策划案例合集(共18份)

合集名称:餐饮营销策划案例合集 数量:共18份 具体内容: 【餐饮策划案例】2021下厨房年营销通案.pdf【餐饮策划案例】2021美团点评APP品牌营销通案.pdf【餐饮策划案例】2021肥汁米蘭港式米线品牌手册.pdf【餐饮策划案例】2021金领大厨超级小…

数据分析:餐厅订单数据分析

数据分析:餐厅订单数据分析 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞👍收藏&#x1f4…

浏览器控制台命令指南-重制版

提示:本文重制版,重制版, 文章目录 前言一、控制台.log命令二、第一步.clear命令1.clear2.更多~设置输出样式assert()count()dir() and dirxml()group(),groupCollapsed()和groupEnd…

chatgpt赋能python:Python操作网页的SEO

Python操作网页的SEO 在当今的数字时代,许多企业专注于提高其网站的排名。在这种竞争激烈的环境中,搜索引擎优化(SEO)是必不可少的。虽然有许多方法可以提高网站的排名,但其中一个最重要的是使用Python来操作网页。 …

商标名字一样,图标不一样属于商标侵权吗?

如果产品的商标名字不一样,但图标相似算商标侵权吗? 这个问题涉及到商标侵权行为的认定,在商标法的规定中,为了保护注册商标的合法权益,对商标权侵权行为的认定做了较为具体的解释,我们可以以此作为“商标名字一样图…

如何设计商标图案?

如何设计商标图案是企业经营者需要考虑的一个问题,商标的形象是企业的形象,而企业的形象直接影响着消费者对产品的看法。因此,设计好商标图案是非常重要的。下面小编就来给大家介绍一下:如何设计商标图案。 如何设计商标图案? 一…

新表情将至?腾讯申请新狗头图形商标

IT之家 10 月 9 日消息,腾讯科技 (深圳) 有限公司近日申请注册多个狗头形象图形商标以及“微信创意表情”商标,国际分类含广告销售、教育娱乐、通讯服务等,当前商标状态均为注册申请中。 近年来,微信、微博…

天猫精灵使用体验之一——天猫精灵初体验

在前面,小智已经介绍过,天猫精灵是小智在2017年双11下单的,等了一个多月,12月下旬才收到货。所以当天猫精灵从盒子里面蹦出来到体验官面前时,体验官就迫不可待地开始了一列表的体验和测评——什么开箱照、什么全家福的通通都没有,有的都是经过一个多月体验和测评后总结出…