GPT-4o:开启多模态AI识别新纪元

GPT-4o功能简介

在人工智能的演变历程中,图像识别技术始终占据着核心地位。技术的发展日新月异,使得AI不仅能够识别图像内容,还能将其转化为文字描述。特别值得一提的是,OpenAI在春季发布的GPT-4o模型,将图像识别技术提升到了一个新的层次。其在多模态理解、物体识别、光学字符识别(OCR)、面部识别、情绪分析、场景解析、图像质量评估以及多目标检测等多个方面得到应用。

首席执行官 Sam Altman 强调,该模型具备“原生多模态”能力,能够生成内容或理解语音、文本和图像中的指令。开发者将可以访问该 API,费用是 GPT-4 Turbo 的一半,速度则是其两倍。

img

GPT-4o名称解析

  • GPT: GPT 代表生成式预训练 Transformer,一种用于语言处理任务的神经网络架构。OpenAI GPT-4o 建立在其前身 GPT-3 和 GPT-4 的基础上。

  • “o” 代表 Omni: 字母“o”表示 GPT-4o 的关键特性——全模式能力。与之前的模型不同,GPT-4o 可以处理并响应各种格式的信息:文本、语音甚至视频。这样可以更全面地理解用户输入,从而提供更相关的响应。

相比于GPT-4-Turbo,GPT-4o提升了什么?

GPT-4o模型的Token利用率相比之前的GPT-4-Turbo提升了50%,这意味着在调用GPT-4o时,消耗的Token数量更少,从而降低了实际成本。此外,GPT-4o的推理速度也比GPT-4-Turbo快了一倍,这直接影响了用户体验和运行效率。

GPT-4o视觉能力测试

为了测试GPT-4o的视觉识别能力,我们来对它进行一系列的测试。在测试过程中,我们仅提供图片,不提供额外的背景信息或引导性问题,以模拟用户在没有上下文的情况下使用图像识别功能。并且使用统一的提示,例如“这是什么?”,以确保测试的一致性。

1.光学字符识别(OCR)

img

OCR技术历史悠久,几乎与计算机科学同龄,按理说对现代视觉识别系统而言,识别文字应是轻而易举。即便是普通智能手机,也能轻松完成这项任务。然而,我提交了一张图片,内容是一块历经风霜的木牌,上面用古色古香的手写体刻着“欢迎来到奥克维尔”。我期望得到的,不仅仅是AI简单地转录文字。

来看看GPT-4o的回答:

GPT-4o:“这幅图像呈现了一个具有复古风情的指示牌,上面用醒目的白色粗体字在红色背景上写着"欢迎来到奥克维尔"。指示牌表面显得磨损,纹理粗糙,显露出岁月的痕迹,暗示它已历经风吹雨打。字体边缘的些许磨损,为其增添了一抹怀旧的韵味。指示牌周围环绕着郁郁葱葱的绿色植被,这表明它可能位于户外,或许是作为通往名为奥克维尔的小镇或社区的门户。”

它不仅能正确读取文本,还能提供有关该位置的更多详细信息,识别出它可能是城镇或定居点,并提取标志本身的详细信息。

2.面部识别

img

这项技术在欧盟存在争议,部分区域已被禁止。我提交了一幅由人工智能绘制的40岁出头女性的肖像,她拥有浓密的深色秀发和温柔的棕色眸子,脸上挂着一抹微笑。

GPT-4o的描述是:“这幅特写肖像捕捉了一位女性,她那卷曲的深色头发和微笑的脸庞成为焦点。画面光线充沛,突显了她细腻的肌肤纹理和面部特征。她的眼神友善,直视着镜头。模糊的背景让她的形象更加突出。”

为了获得更详尽的信息,包括她的年龄,我询问:“这位女士多大年纪?她的情绪状态如何?”GPT-4o回答说,她的年龄大约在30到40岁之间,情绪状态看起来相当不错,并进一步解释:“整体来看,她的情绪状态显得积极,似乎感到满足和平静。”

3.情绪检测

img

接着,我进行了另一项测试,这次是一张描绘着哀愁神色的年迈男性的照片。我好奇GPT-4o是否能够识别出这种情绪,并准确地描述整个场景。它的输入依然简单,仅是“这是什么”这个问题和相应的图片。

GPT-4o的描述如下:“这位长者坐在户外的长椅上,环境可能是一个公园。照片在黄金时段拍摄,柔和的光线洒在他的面庞上。老人的面容显得深沉,似乎笼罩在一丝忧郁或深思之中。他身着带领的衬衫和西装外套,而模糊的背景不仅让他的形象更加聚焦,还营造了一个令人心旷神怡的自然景观。”

这个人工智能模型的表现超出了我的预期,不仅成功地描述了场景,还对老人的情绪状态做出了恰当的推断。

4.场景理解

img

GPT-4o在从图像中提取场景描述和识别场景元素方面的能力有多强?这项技能极为实用,因为人工智能模型正日益被用于辅助描述现实世界的环境。这亦是ChatGPT新加入的语音功能中的一个核心优势。

GPT-4o的描述是这样的:“这张照片捕捉了一个充满阳光的户外农贸市场的热闹场景。在帐篷下,众多摊位排列着,摆满了各式各样的新鲜农产品,包括各式各样的水果、蔬菜以及其他商品。顾客们在市场中穿梭,挑选购物并与摊主进行交流。市场被一片郁郁葱葱的树木环绕,背景中可以看到绿叶的轮廓。整个市场散发出一种充满活力和社区归属感的氛围,强调了本地新鲜食材的重要性。”

无可置疑,它对图片的解读和场景的描述非常精确。它所提供的细节丰富度超出了我的预期,甚至特别提及了一些市场上销售的商品。

5.物体识别

img

图像呈现了一杯热腾腾的咖啡,装在一个红色的陶瓷杯里,连同杯碟一起摆放在咖啡馆的木质桌面上,背景故意虚化。测试的目的是评估GPT-4o如何捕捉并解释背景和场景。

GPT-4o的描述如下:“这张照片捕捉了一个温暖的场景,一杯热咖啡被放置在一个红色的陶瓷杯和杯碟中,桌面是未经修饰的木材。模糊的背景暗示了一个舒适的室内环境,人们在一间类似洞穴风格的咖啡馆或有独特石墙设计的室内空间交谈。咖啡杯是焦点,特别强调了从热饮中升腾的蒸汽。”

这个描述非常精确且详尽,不仅仅是对场景的简单描述,而是构建了一个完整的情境。为了增加描述的深度,我请它描绘一下“坐在桌边,握着这杯咖啡的人的内心想法。”

它给出的描述非常生动,其中有一句特别引人注目:“这杯咖啡不只是一款饮品;它是一种仪式,代表着在繁忙日常中一段宝贵的独处和深思的时光。”

概括

着这杯咖啡的人的内心想法。”

它给出的描述非常生动,其中有一句特别引人注目:“这杯咖啡不只是一款饮品;它是一种仪式,代表着在繁忙日常中一段宝贵的独处和深思的时光。”

概括

通过一系列的测试,我们可以看到GPT-4o在图像识别方面的出色表现。与以往的视觉模型相比,GPT-4o没有犯任何错误,无论是在物体识别、颜色识别还是品牌识别方面。这标志着OpenAI在多模态领域的重大进步。准备好彻底改变的 AI 交互体验。无论是在 ChatGPT 的 GPT-4o 免费版还是 GPT Plus 版中。Plus 用户将享受更高的消息限制。准备好通过文本提示和图像输入体验 GPT-4o 的强大功能吧。
参考原文链接:GPT-4o:开启多模态AI识别新纪元

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/400709.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软Detours Hook库编译与使用

Detours 是微软开发的一个强大的Windows API钩子库,用于监视和拦截函数调用。它广泛应用于微软产品团队和众多独立软件开发中,旨在无需修改原始代码的情况下实现函数拦截和修改。Detours 在调试、监控、日志记录和性能分析等方面表现出色,已成…

shell命令行解释器—既陌生有熟悉的东西

今天做一个感性的认识来,用一个生活的例子。 你生活在有一条村子里面,在村的东边就是王婆,王婆呢?她主要做什么呢啊?她在村儿里面呢,也不种地啊,那她干什么呢?他主要做帮别人进行婚嫁…

【TabBar嵌套Navigation案例-发现页面-按钮上的图片旋转 Objective-C语言】

一、接下来,我们来做这个,点击以后,让它出一个蓝色的View 1.就是我们示例程序的这种效果, 一点击,让这个按钮旋转,然后呢,再让它出来一个蓝色的View, 首先,我们要去监听它的点击事件,这是第一,我点击以后,我要做一些什么样的操作,要有点击事件, 所以呢,我要把…

JS基础进阶Webs-API、HTML 、DOM

一、JS中的API 1. 定义 JavaScript API是指为JavaScript提供的一组编程接口和对象,用以允许开发者访问和操作Web浏览器或其他JavaScript环境(如Node.js)提供的特定功能。这些API使得开发者能够编写更加动态和交互式的Web应用程序。 2. 主要…

服务器数据恢复—raid5阵列热备盘未全部启用导致阵列崩溃的数据恢复案例

服务器存储数据恢复环境: 一台EMC某型号存储中有一组RAID5磁盘阵列。该raid5阵列中有12块硬盘,其中2块硬盘为热备盘。 服务器存储故障: 该存储raid5阵列中有两块硬盘离线,只有1块热备盘启用替换掉其中一块离线盘,另外…

​产品经理-​你如何理解“互联网思维(35)

在产品规划和功能改版中,确实非常重视用户需求和体验。产品需求是互联网产品的核心 用户体验是互联网产品的重点。在互联网新产品规划中,会非常重视用户验证环节 确保做出来的东西确实是用户想要的;而在已经上线的产品中,往往会有…

人工智能与机器学习原理精解【12】

文章目录 分级聚类理论分级聚类的详细说明1. 定义2. 算法3. 计算4. 例子5. 例题 皮尔逊相关系数 julia实现 参考文献 分级聚类 理论 分级聚类的详细说明 1. 定义 分级聚类(Hierarchical Clustering),又称为层次聚类,是一种通过…

谷歌反垄断官司败诉后,或又面临被拆分风险?

KlipC报道:上周8月5日,美国法院裁定谷歌的搜索业务违反了美国反垄断法,非法垄断在线搜索和搜索文本广告市场。据悉,胜诉的美国司法部正在考虑拆分谷歌。其他选项包括强制谷歌与竞争对手分享更多数据,以及防止其在人工智…

【二叉树进阶】--- 根据二叉树创建字符串

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 数据结构 从本篇文章开始,博主将分享一些结合二叉树的进阶算法题。 🏠 根据二叉树创建字符串 📌 题目内容 根据二叉…

从行为面试问题(behavioral questions)看中美程序员差异。

中美程序员在职场中的工作状态和职能、福利等有很大区别,从面试中的BQ轮就可见一斑。 中美程序员的面试轮差异? 国内的面试轮在不同公司间差异很大,但总体的问题类型包含笔试面试(算法题、概念题、项目深挖、职业目标、职场文化…

FGUI+TS如何实现数字翻滚

FGUITS如何实现数字翻滚 实现效果如下: 实现步骤: fgui制作组件和特效 fgui制作组件,设置一条竖向数字包含1-9或者小数点符号等,可见区域为一个数字大小,最好可见区域紧贴数字,这样滚动的时候滚动区域范围…

深度学习------------------卷积神经网络(LeNet)

目录 LeNet网络手写的数字识别MNIST总结卷积神经网络(LeNet) 问题 LeNet网络 手写的数字识别 MNIST ①输入的是:3232的image ②放到一个55的卷积层里面(为什么是5?因为32-x128,∴x5)&#xff0c…

【教程】Ubuntu给pycharm添加侧边栏快捷方式

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 以下教程不仅限于pycharm,其他软件也是一样操作 1、进入到pycharm的目录,先通过命令行打开pycharm: ./bin/pycharm…

keepalived+haproxy高可用负载均衡集群

简介 使用haproxy制作负载均衡集群,keepalived通过状态检测脚本检测本机haproxy状态,若为离线状态,则会降低该节点的优先级。 实验准备 四台虚拟机:KA1、KA2为keepalivedhaproxy,web1、web2为后端服务器,均…

阿里云-java调用短信服务,第三方接口的开启(傻瓜式教程)

第一步:在浏览器中,搜索阿里云 第二步:打开aly的主页 第三步:在最上方的导航栏中,找到云市场,注意不要点击,会自动有触发悬浮框出现,在悬浮框中找到 短信 第四步:点击 短…

无人机之电池注意事项

1、外场作业时,电池一定要放置在阴凉处,避免太阳直射; 2、刚作业完的电池发热严重时,请降至室温再充电; 3、注意电池状态,一旦发现电池出现鼓包、漏液等现象,必须马上停止使用; 4…

UE5 C++项目的配置

创建项目 首先启动UE5,然后选择要创建的项目,选择c进行创建 创建项目完毕之后,会自动打开visual studio,页面如下图所示 点击总体配置状态的刷新按钮,会自动检测总体的配置状态 一般会在下图所示的两项出现警告 Unreal Engi…

舵机模块学习

舵机是一种根据输入PWM信号占空比来控制输出角度的装置 执行逻辑:PWM信号输入到控制板,给控制版一个指定的目标角度,然后电位器检测输出轴的当前角度,如果大于目标角度,电机反转,小于正转,最终使…

Linux--HTTP协议(http服务器构建)

目录 1.HTTP 协议 2.认识 URL 3.urlencode 和 urldecode(编码) urlencode(URL编码) urldecode(URL解码) 4.HTTP 协议请求与响应格式 4.1HTTP 常见方法(三种) 5.HTTP 的状态码…

去中心化技术的崛起:探索Web3的新时代

引言: Web3是互联网发展的新阶段,它通过去中心化技术重新定义了数字世界的运作方式。这一新时代不仅带来了技术上的突破,也为社会互动和数据管理开辟了新的前景。本文将深入探讨Web3的核心技术、应用领域、全球影响以及面临的挑战&#xff0…