ChatGPT Vision初体验

本周,OpenAI为其广受欢迎的 ChatGPT 平台发布了一项突破性的补充。除了处理文本之外,ChatGPT 现在还可以处理图像并聊天。

很难夸大这件事的重要性。目前多达70% 的内容是视觉内容而不是书面内容。人们每年会生成数千张照片,而当今许多最大的平台(YouTube、TikTok、Instagram)很大程度上都是视觉化的。

人们越来越多地选择以视觉方式与机器交互。通过最新升级,ChatGPT 现在可以参与该过程。

Visual ChatGPT 将在接下来的几周内向部分 ChatGPT Plus 用户推出。我是第一批获得访问权限的用户之一。以下是这个非凡的新型生成人工智能功能的初步介绍,以及它可以做的一些事情。

与 ChatGPT 进行视觉交互

与 ChatGPT 的视觉交互非常简单。获得访问权限的用户现在可以在 ChatGPT 界面中的“发送消息”字段旁边看到一个小图像图标。

除了输入文本提示之外,您现在还可以随文本一起上传图像。这允许您提出有关图像的问题,或者让 ChatGPT 分析图像的视觉内容并与您讨论它。

编写替代文本

我使用 ChatGPT Vision 测试的第一个任务(新功能没有正式名称,所以我这么称呼它)是为图像编写替代文本。

对于使用屏幕阅读器浏览互联网的视障人士来说,替代文本至关重要。替代文本附加到博客或网站上的图像。文字描述了图像的视觉内容,以便看不到图像的人仍然可以理解其含义。

编写好的替代文本既困难又昂贵。很多网站站长懒得去做,或者做得不好。这使得视障用户更难访问互联网。它还会对网站的搜索引擎优化产生负面影响。

我决定看看 ChatGPT Vision 如何为图像编写替代文本。我上传了这张图片并要求它“为此图片编写高质量的替代文本”

这就是它给我的:

标有“SIGNET”的壁挂式分配系统具有三个装有清洁溶液的半透明容器。从左到右,容器上贴有红色标签:“硬表面消毒剂”,蓝色“玻璃和多表面清洁剂”,以及绿色“重型无氯洗手间消毒剂”。分配器上方有说明贴纸,上面有指示正确使用方法的图表。每个容器的侧面都有一个测量刻度,并连接到用于分配的管道系统。

这太妙了!替代文本不仅仅描述了图像的基本信息(“墙上的管道和清洁溶液”)。

相反,它提供了足够详细的图像视觉细节(每种清洁溶液的颜色、它们从左到右的相对位置以及每个图像上的文本),以便视障人士可以轻松理解图像显示的内容。

ChatGPT Vision 在大约 10 秒内生成了替代文本,速度也非常快。我可以看到新系统对于网络可访问性来说是一个巨大的福音。出版商可以使用 ChatGPT 视觉为自己的图像编写更好的替代文本,视障用户可以使用它为缺乏实时替代文本的图像编写替代文本。

分析我的香料架

对于我的下一个实验,我上传了一张香料架的照片。我要求 ChatGPT Vision 列出我拥有的香料。我还问它哪些香料快用完了。

令人惊讶的是,ChatGPT Vision 不仅列出了香料,还认可了它们的品牌名称:

芝麻(数量看起来不错)

莫顿海盐(无法从图像中确定数量)

365 姜末(数量看起来不错)

365 肉桂 (数量看起来不错)

味好美辣椒粉(数量看起来不错)

麦考密克粗黑胡椒粉(无法从图像中确定数量)

365 辣椒粉(数量看起来不错)

味考密克完美捏意大利(无法从图像中确定数量)

姜黄粉(无法从图像中确定数量)

365 白胡椒粉(数量看起来不错)

孜然粉(无法从图像中确定数量)

它无法确定我拥有的数量。但作为后续,它能够推荐一些我可以用这些烹饪的食谱!

这是 ChatGPT 视觉能力强大功能的一个很好的例子。因为它仍然是一个聊天机器人,所以它不仅仅是查看图像、提供输出并继续前进。您可以就图像进行对话,提出具体的后续问题以进行更深入的挖掘并超越系统的初始响应。

分析图表

ChatGPT Vision 不仅限于处理照片。它还可以处理图表、信息图表等。

例如,我向它提供了我的一个网站的流量 Google Seach 控制台图表。

从图像中,它正确地提取了我的关键统计数据,并分析了我网站的流量趋势。

它甚至根据所看到的内容提供了如何改进 SEO 的建议。

分析图形和其他视觉效果的能力对于想要更好地理解数据、验证科学研究结果、甚至只是更好地理解图形或聊天内容的用户非常有帮助。

确定拍摄照片所用的胶片

我是一名摄影师,在工作中经常使用模拟胶片。我也经常处理历史照片,但照片所用的胶片是未知的。

我上传了一张我自己的照片,并询问 ChatGPT Vision 这是用什么类型的电影拍摄的。

这是结果。

我喜欢其分析的深度。也是对的!这是在 Kodak Tri-X 上以 400 速度拍摄的,这是它在列表中提到的第一部影片。

确定狗的品种

我有一只比熊犬,名叫兰斯,但我打断了他。大多数人误认为他是一个不同的品种。

我上传了兰斯的照片,并询问 ChatGPT Vision 他是什么品种。

它的回应是:

“根据提供的图像,你的狗似乎具有卷毛品种的身体特征,可能是比雄犬、贵宾犬或这些品种的混合体。”

系统仍然模棱两可地使用“P”这个词(这是比熊人的一大禁忌),但它的第一个猜测确实是比熊犬。

这凸显了 ChatGPT Vision 超越了单纯的物体识别。该系统在详细说明其反应时表示,“卷曲的白色皮毛和面部特征让人想起这类狗。”

令人印象深刻的是,ChatGPT Vision 正在观察诸如面部特征之类的东西,而不仅仅是看到一只白色、毛茸茸的狗并自动说“贵宾犬”。

ChatGPT Vision 的局限性

ChatGPT 愿景是一个强大的平台。我刚刚开始测试它,我已经可以看到其工具的大量实际用例。

也就是说,系统设计时没有做一些事情。其一,它不会处理或讨论人物图像。这很聪明。视觉人工智能系统存在偏见。最好完全避免分析以人为中心的图像,而不是冒着对人的视觉分析产生偏见的风险。

该系统也不会提供医疗建议。我试图向它询问与图像相关的医学话题,它断然拒绝回答。再说一遍,目前来说这是一件好事。该系统是新的,其输出可能不准确。

不过,我可以看到 ChatGPT Vision 的专业版本被训练来执行诸如解释 X 射线结果或分析其他医学测试之类的事情。但就目前而言,我们需要围绕这种应对措施采取防护措施。

多模态人工智能就在这里

ChatGPT 标志着生成人工智能领域迈出了一大步。这是第一次将真正的多模式人工智能交到日常用户手中。

Google Bard 确实有一些视觉功能。但这些似乎更严重地依赖谷歌现有的谷歌镜头系统。另一方面,ChatGPT Vision 似乎真正理解图像的视觉内容和意义。

这使得它能够深入研究图像视觉内容的更深层意义,而不仅仅是执行一些很酷但有限的技巧,例如翻译图像中的文本或识别产品或地点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/150397.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FastThreadLocal 快在哪里 ?

FastThreadLocal 快在哪里 ? 引言FastThreadLocalset如何获取当前线程私有的InternalThreadLocalMap ?如何知道当前线程使用到了哪些FastThreadLocal实例 ? get垃圾回收 小结 引言 FastThreadLocal 是 Netty 中造的一个轮子,那么为什么放着…

JavaScript系列从入门到精通系列第十八篇:JavaScript中的函数作用域

文章目录 前言 一&#xff1a;函数作用域 前言 我们刚才提到了&#xff0c;在<Script>标签当中进行定义的变量、对象、函数对象都属于全局作用域&#xff0c;全局作用域在页面打开的时候生效在页面关闭的时候失效。 一&#xff1a;函数作用域 调用函数时创建函数作用域…

【Linux学习】05-1Linux上安装部署各类软件

Linux&#xff08;B站黑马&#xff09;学习笔记 01Linux初识与安装 02Linux基础命令 03Linux用户和权限 04Linux实用操作 05-1Linux上安装部署各类软件 05-2Linux上部署项目 文章目录 Linux&#xff08;B站黑马&#xff09;学习笔记前言05-1Linux上安装部署各类软件JDK安装部署…

Linux高性能服务器编程 学习笔记 第十一章 定时器

网络程序需要处理定时事件&#xff0c;如定期检测一个客户连接的活动状态。服务器进程通常管理着众多定时事件&#xff0c;有效地组织这些定时事件&#xff0c;使其在预期的时间被触发且不影响服务器的主要逻辑&#xff0c;对于服务器的性能有至关重要的影响。为此&#xff0c;…

【计算机网络-自顶向下方法】应用层(HTTP、FTP)

1. Principles of network applications 创建一个网络应用 创建一个网络应用的核心&#xff0c;是编写一个分布式程序&#xff0c;使其可以运行在不同的端系统上&#xff0c;并能通过网络相互通信。&#xff08;例如&#xff0c;web服务器软件与浏览器软件&#xff09;   应…

MongoEngine 简介安装、连接、数据类型及其参数详解

文章目录 前言一、MongoEngine 简介二、MongoEngine的安装与连接1. 安装MongoEngine2. 连接到MongoDB3. 定义数据模型 三、MongoEngine模型介绍1. 常见数据类型2. 数据类型参数 总结 前言 为了巩固所学的知识&#xff0c;作者尝试着开始发布一些学习笔记类的博客&#xff0c;方…

归并排序与非比较排序详解

W...Y的主页 &#x1f60a; 代码仓库分享 &#x1f495; &#x1f354;前言&#xff1a; 上篇博客我们讲解了非常重要的快速排序&#xff0c;相信大家已经学会了。最后我们再学习一种特殊的排序手法——归并排序。话不多说我们直接上菜。 目录 归并排序 基本思想 递归思路…

[NewStarCTF 2023 公开赛道] week1

最近没什么正式比赛&#xff0c;都是入门赛&#xff0c;有moectf,newstar,SHCTF,0xGame都是漫长的比赛。一周一堆制。 这周newstar第1周结束了&#xff0c;据说py得很厉害&#xff0c;第2周延期了&#xff0c;什么时候开始还不一定&#xff0c;不过第一周已经结束提交了&#…

林沛满-TCP之在途字节数

本文整理自&#xff1a;《Wireshark网络分析的艺术 第1版》 作者&#xff1a;林沛满 著 出版时间&#xff1a;2016-02 我一直谨记斯蒂芬霍金的金玉良言—每写一道数学公式就会失去一半读者。不过为了深度分析网络包&#xff0c;有时候是不得不计算的&#xff0c;好在小学一年级…

socket简介

套接字&#xff08;Socket&#xff09;实质上就是对网络中不同主机上的应用进程之间进行双向通信的端点的抽象。一个套接字就是网络上进程通信的一端&#xff0c;为应用层进程利网络协议交换数据提供了相应机制。套接字出于承上启下的作用&#xff0c;向上连接应用进程&#xf…

【QT5-程序控制电源-[GPIB-USB-HS]-SCPI协议-上位机-基础样例【2】】

【QT5-程序控制电源-[GPIB-USB-HS]-SCPI协议-上位机-基础样例【2】】 1、前言2、实验环境3、自我总结1、基础了解仪器控制-熟悉仪器2、连接SCPI协议3、了解GPIB-USB-HS4、软件调试-代码编写 4、熟悉协议-SCPI协议5、实验过程-熟悉软件&#xff08;1&#xff09;去官网NI&#x…

【Java项目推荐之黑马头条】自媒体文章实现异步上下架(使用Kafka中间件实现)

自媒体文章上下架功能完成 需求分析 流程说明 接口定义 说明接口路径/api/v1/news/down_or_up请求方式POST参数DTO响应结果ResponseResult DTO Data public class WmNewsDto {private Integer id;/*** 是否上架 0 下架 1 上架*/private Short enable;}ResponseResult 自媒…

使用华为eNSP组网试验⑷-OSPF多区域组网

今天进行了OSPF的多区域组网试验&#xff0c;本来这是个很简单的操作&#xff0c;折腾了好长时间&#xff0c;根本原因只是看了别人写的配置代码&#xff0c;没有真正弄明白里面对应的规则。 一般情况下&#xff0c;很多单位都使用OSPF进行多区域的组网&#xff0c;大体分为1个…

2023-IDEA插件推荐

CamelCase 链接 https://plugins.jetbrains.com/plugin/7160-camelcase https://github.com/netnexus/camelcaseplugin 介绍 提供下划线、驼峰等代码风格的切换。快捷键是⇧ ⌥ U / Shift Alt U GsonFormatPlus 链接 https://plugins.jetbrains.com/plugin/14949-gs…

11.2 基本电路和基本分析方法

一、基本电路 电路类型电路名称特点和典型功能指标参数或功能描述方法基本放大电路共射放大 ∣ A ˙ ∣ |\dot A| ∣A˙∣大&#xff1b;适用于小信号电压放大 A ˙ u \dot A_u A˙u​、 R i R_i Ri​、 R o R_o Ro​、 f L f_L fL​、 f H f_H fH​、 f b w f_{bw} fbw​共集…

Docker 安装 MongoDB

一、什么是MongoDB MongoDB 是一个基于分布式文件存储的数据库。是一个介于关系数据库和非关系数据库之间的产品&#xff0c;是非关系数据库当中功能最丰富&#xff0c;最像关系数据库的。 二、MongoDB的安装 这里使用docker来安装MongoD 1.docker 拉取mysql镜像 docker pu…

unity脚本_生命周期函数 c#

帧&#xff1a;fps 即每秒钟跑的游戏帧数 游戏的本质 是一个死循环 每一次循环处理游戏逻辑就会更新一次画面 之所以能看到画面在动 是因为切换画面的速度达到一定时人眼就认为画面时流畅的 一帧就是执行一次循环 人眼舒适放松时可视帧数 24帧/s 游戏卡顿的原因&#xff1a; …

x64内核实验7-线程

x64内核实验7-线程 TOC 线程是比较重要的内核结构&#xff0c;思考一下其实可以想到线程结构体在64位下的变化应该不会很大最多只是扩充了一些内容&#xff0c;因为从我们之前分析段页时候会发现cpu更新的这些内容大部分不影响xp时候的线程切换机制&#xff0c;下面我们来验证…

初识链表(7.25)

前面我们学习了顺序表&#xff0c;但顺序表其实存在一些问题 1. 中间/头部的插入删除&#xff0c;时间复杂度为O(N) 2. 增容需要申请新空间&#xff0c;拷贝数据&#xff0c;释放旧空间。会有不小的消耗&#xff08;尤其是异地扩容&#xff09;。 3. 增容一般是呈2倍的增长&am…

【Java 进阶篇】深入了解JDBCTemplate:简化Java数据库操作

数据库操作是几乎所有现代应用程序的一部分。从存储和检索数据到管理业务逻辑&#xff0c;数据库操作是不可或缺的。在Java应用程序中&#xff0c;JDBCTemplate是一种强大的工具&#xff0c;可帮助开发人员轻松进行数据库操作。本文将深入探讨JDBCTemplate&#xff0c;了解它的…