SceneXplain:让 ChatGPT 开启视觉视角

3100f80b2067ddb91c601e460ef4e151.gif

来自:Jina AI

精准的图像描述不仅可以让人们更容易理解图像背后的故事和信息,还可以让图像更易于被检索和识别。然而,对于那些复杂的图像来说,写出既准确又详细的描述实在是件非常困难的事情。

图像描述算法的演变

所谓 Image Caption(图像描述)任务,就是让计算机能够根据一张图片自动生成相应的文字描述。在早期的模型,比如 OpenAI 的 CLIP,利用了无监督学习和微调技术,通过海量的图片和文本数据集进行了训练,理解了图片和文本间的联系,从而能够生成有意义的图像描述。

后来,一种名为 BLIP-2 的算法应运而生,它采用了更高效的预训练策略。BLIP-2 利用现成的冻结预训练图像编码器和大型语言模型,通过一个轻量级的查询式 Transformer 来连接不同的模态。不仅减少了训练参数,还保证了各种视觉-语言任务上取得 SOTA 表现。

得益于多模态技术的不断发展,图像描述这个需要结合 CV 和 NLP 的老大难问题在近些年里迈出了一大步。但直到现在,大部分 AI 生成的图像描述都比较笼统简短,难以充分展示图像的丰富内涵。尤其为复杂图像所生成的文本描述在准确性方面仍存在明显不足,更别提那些涉及多个物体、互动和复杂细节的图像了。

现有图像描述解决方案面临的挑战

1. 过于简化或空泛的论述

如图,大多数图像字幕算法给出的是“一个人和一条狗”,看似准确,但其这张图里有非常丰富的物体和故事。他们在外面做什么,他们为什么会露营,右边的背包有什么暗示吗?

2aa15ae80053da9129c0733fd84691ab.png
图源《First Dog, 10th Man to Walk Around the World》

2. 缺少细微差别和关系

如图,简单地给出“对象 A 和对象 B”的描述是远远不够的,两者间的空间关系传达了截然不同的内涵。

5d7db1da68e5d60c64024c670bcd697c.png
图源《MESSRS: A model-based 3D system for of recognition, semantic annotation and calculating the spatial relationships of a factory’s digital facilities》

3. 处理噪音和糟糕的图像质量

如图,中间显示的“攻击”对比扰动原来照片,尽管人类眼睛瞟一眼就知道和原始图片没变化,但图像描述算法依然标错了分类。

25131b9a488a566e380b147da4fff288.png
图源:Daniel Jakubovitz 和 Raja Giryes,Improving DNN Robustness to Adversarial Attacks using Jacobian Regularization.

4. 难以处理复杂图像

对于经典画作,如下图,很多图像描述算法只能给出简单的“波提切利的维纳斯的诞生”的说明,单单一个名字实在让人一知半解,让观众无法理解图像所展现的品味。

f7f73b025ea26570526cb7d3358df396.png

👓   SceneXplain 生成的描述 

一幅标志性的画作「维纳斯的诞生」展开在眼前,女神维纳斯从贝壳中诞生,周身环绕着神话人物和天界人物,包括美人鱼、天使和手持花束的女人。这些人物之间微妙的交互营造出一种迷人和惊奇的感觉,宛如在庆祝维纳斯降临于人世。这优雅的构图引领观众进入神话领域,惊叹于这个永恒场景所展现的壮丽和优雅。

相比起上面生成的枯燥无味的标题,由 SceneXplain 生成的这样一段丰富生动的描绘不仅能够帮助我们更好地欣赏图像,还能让我们深入了解其审美价值。

应对多媒体内容的挑战,SceneXplain 让故事破图而出

总而言之,现有图像字幕解决方案取得了很大进步,能够为图片生成相关的描述,然而还无法为复杂图像生成细节、上下文和细微差别的描述。如何进一步提高处理这样复杂图像的能力,是当前图像描述技术面临的重要挑战。

这也正是 SceneXplain 一个箭步跨进来的契机,这是一个颠覆性的工具,它不止停留在表面,而是进一步拓宽了图像描述的边界。它突破了传统图像描述算法的局限性,提供了简练专业、引人入胜的图像叙事体验。凭借 用户友好的界面无缝 API 集成强大的多语言支持,方便开发者轻松集成到他们的多模态应用中。

407f3970c7c37a556ad28da4413dce72.png
网址:scenex.jina.ai

SceneXplain 生成的文本拓展了图片的表现力,不管是动漫,风景,商品,还是产品 UI,它都准确识别了图片中关键信息,理解了画面表达的气氛,并深入捕捉到了图片中的细节,并用流畅连贯的语言完成了描述。

492c615271e1ab27302fcfe55ab5e930.png

outside_default.png

outside_default.png

outside_default.png

<<< 左右滑动见更多 >>>

SceneXplain vs Midjourney describe

我们对 SceneXplain 与市面上流行的图像描述工具和算法的性能进行了测评。

  • SceneXplain:生成详细、复杂、生动、富有上下文的文本描述,为复杂视觉内容提供先进的图像描述解决方案。

  • Midjourney:最近发布的 /describe 功能,旨在将图像转化为文本提示词。

注意:相比起 /describe 生成的是图像提示词 Prompt,而 SceneXplain 生成出的是详细、复杂、生动、富含上下文的图像描述,更适合人类阅读。 此外,我们还对比了

  • BLIP-2:一种高效的预训练策略,使用现成的冻结的预训练图像编码器和大型语言模型进行视觉语言预训练,可在训练参数大大减少的情况下,实现各种视觉语言任务的 SOTA 性能。

  • CLIP Interrogator 2.1 专门设计给 Stable Diffusion 2.0 模型生成图像提示词。

接下来让我们将这些算法对同一图片进行描述,展示它们在各种图像描述任务中的效果。完整的 Benchmark 表格请在公众号回复 SceneX 获取。

outside_default.png

outside_default.png

outside_default.pngoutside_default.png

outside_default.pngoutside_default.png

相比之下,Midjourney /describe 和 CLIP Interrogator 2.1 等解决方案侧重于为图像生成对应提示词,而非让人类轻松阅读的自然语言描述。 同时,BLIP-2 生成的字幕非常简短、粗略且生硬,仅包含几个相关词汇,可能适用于简单的场景,但难以捕捉到更为复杂的视觉细节,从而忽略了关键信息,无法展示图像的丰富内涵。

而 SceneXplain 填补了这一块空白,深入、准确、丰富 —— 面对复杂图像,SceneXplain 让图像描述更上一层楼。 它兼顾了准确性和深度,它能够深入到复杂场景里错综复杂的细节,并基于这些细节的微妙关联,比如空间位置,依赖关系等,构建出流畅连贯的叙事。这种结构化叙事让观众能够从更高的视角去理解图像所呈现的复杂概念和场景,使得图像栩栩如生,故事得以生动诉说。

当然,我们也必须要承认 SceneXplain 在简单场景下有些矫枉过正,会出现一些幻觉。

SceneXplain 的优势

与其他图像描述解决方案相比,SceneXplain 具有许多优势:

抗噪声和变化的图像质量

SceneXplain 背后强大的 AI 算法增强了其对各种图像质量的理解能力,哪怕是低分辨率、模糊不清或带有噪点的图像,SceneX 也能基于有限的信息推断图像内涵,确保生成的描述保持准确性。

outside_default.png

outside_default.png

outside_default.png

<<< 左右滑动见更多 >>>

多语言支持

SceneXplain 有强大的多语言支持,可以生成多种语言的上下文丰富的图像描述。

应用场景

我们期待您探索和体验 SceneXplain 的能力,它的潜在应用非常广泛,比如三个关键领域:

  1. 视觉叙事升级:SceneXplain 的丰富描述能够把简单的视觉图像转化为真正引人入胜的叙事体验。这种叙事升级能够在各个场景下得以运用,比如电商产品详情页的撰写,通过详细的图像描述,为用户提供更丰富的浏览体验。

  2. 优化 SEO:SceneXplain 生成的生动且丰富的描述包含大量的关键词,这有助于提高内容的搜索引导性和点击率,从而有可能带来网站排名的提升和来自搜索引擎的更多流量。

  3. 提高可访问性:SceneXplain 生成的描述能够充分解释图像细节和含义,从而有望彻底改变无障碍多媒体内容的创建和消费方式,改善视觉障碍用户的网络体验。

从三个关键领域对应的场景上,SceneX 也有许多应用空间,对于 社交媒体内容创作者,美食博主,旅游博主等为拍摄的图片生成更加具体生动的描述,提高图片素材的影响力;在线电商企业 可以用来描述商品,用关键词和描述语句丰富产品详情页描述,提升 SEO;博物馆等公共服务行业 用于为展品创建详细的文字描述,帮助视障人士更好地欣赏等等。

如何将 SceneXplain 集成到您的应用中

SceneXplain 提供多种集成选项以满足不同组织的需求。

1. 通过网页生成图像描述

outside_default.png

2. 通过 API 批量处理图像

对于寻求自动化和无缝集成的组织,SceneXplain 为其系统提供了强大、可扩展且安全的 API。快速批处理 API 允许在 50 秒内在一个批次中描述多达 128 张图像。

outside_default.png

3. 作为 ChatGPT 插件使用

对于 ChatGPT Plus 用户来说,可以在 ChatGPT 插件里使用。

4. 本地隐私保护解决方案

对于数据安全和隐私有严格要求的组织来说,我们提供本地解决方案,您可以在自己的服务器上部署 SceneXplain,确保了敏感数据保留在自己的网络中,同样无缝集成 SceneXplain 的高级图像描述。

添加技术运营微信 jinaai01,或扫描文末二维码,与我们的团队约定会议了解本地解决方案。

SceneXplain 的核心优势在于它能精准捕捉到图片中多个物体之间的关系和互动,同时考虑它们在场景中的位置,以及周围环境的氛围。这些细节在普通的图像描述工具里经常被忽略,但 SceneXplain 不仅在生成文本描述时保留了这些细节,还提供了更多的情境感,将视觉内容的精髓高效地呈现出来,帮助读者更好地理解图像所呈现的内容。无论是社交媒体、电商网站,还是公共服务领域,它都能大显身手。

赚积分享折扣,产品功能等你来探索!

现在登录 Scenex.jina.ai 官方网站,即可免费获得 20 积分!探索功能还可能获得更多免费积分,如上传第一张图片即可获得「快照感觉」,复制图片描述即可获得「剪贴板鉴赏家」。心动不如行动,看热闹不如看门道!现在就来开启你的故事之旅!

🔗:https://scenex.jina.ai/

首次登录的用户将自动得到一张 8 折的全产品优惠券,24 小时内购买会员还可享受优惠折扣!

快来注册吧,限时特惠!

outside_default.png

点击“阅读原文”,即刻体验 SceneXplain

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17368.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何选择国际通知短信服务商?

企业在开拓海外市场的过程中&#xff0c;往往需要用到国际短信接口&#xff0c;帮助企业实现用户注册、订单通知、快递通知、营销推广等功能。 那么如何选择国际短信服务商&#xff1f;接下来互亿无线小编整理了相关信息&#xff0c;为大家做个详细介绍&#xff1a; 一、国际…

国际短信发送接口

接口地址 http://intlapi.1cloudsp.com/intl/api/v2/send 用户通过HTTP(或HTTPS)的POST或GET方式提交短信发送请求。编码采用 UTF-8 编码。

ChatGPT还有什么不会?招行信用卡用它写出金融业首篇AIGC

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 内容来自机器之心 比尔盖茨&#xff1a;它&#xff08;ChatGPT&#xff09;让我们窥见了未来。 2023 开年至今&#xff0c;AI 赛道最火的莫过于 OpenAI 的 ChatGPT。 推出不到两个月的时间&#xff0c;月活用户…

数字人是AI的UI,ChatGPT助推数字人升级为数智人

以ChatGPT为代表的AIGC智能工具与数字人结合后&#xff0c;将彻底改变人类与计算机的交互方式&#xff0c;使虚拟世界中的数字人对话更真实、更贴近人类&#xff0c;具有记忆和实现连续对话的能力&#xff1b;通过大量人工智能模型训练后数字人将提供更准确、更有价值的信息&am…

ChatGPT-4回答电子电路相关问题,感觉它有思想,有灵魂,一起看看聊天记录

前几天发了一篇文章&#xff0c;讲了我们平常摸电脑或者其它电器设备的时候&#xff0c;会有酥酥麻麻的感觉&#xff0c;这个并不是静电&#xff0c;而是Y电容通过金属壳泄放高频扰动&#xff0c;我们手摸金属壳的时候&#xff0c;就给Y电容提供了一个泄放回路&#xff0c;所以…

虚拟数字人遇上ChatGPT,好看的皮囊和有趣的灵魂?

都说好看的皮囊千篇一律&#xff0c;有趣的灵魂万里挑一&#xff0c;博雅仔不禁好奇&#xff0c;到底有没有皮囊又好看&#xff0c;灵魂又有趣的人呢&#xff1f;二者能否得兼&#xff1f;答案是当然可以啊。 虽然在现实生活中&#xff0c;遇到这样的人需要静待缘分的安排&…

GPT-4的20个起飞的姿势

全文目录&#xff1a; 1.聊天 GPT SaaS 业务 2. API 即服务 3.AI自动优酷频道 4. 社交媒体营销机构 5. 使用聊天GPT创建课程 6.开始按需打印商店 7.AI 个人助理 8.AI 自媒体助手 9. 客户服务聊天机器人 10. 财务规划应用程序 11. 健康与保健应用程序 12. 娱乐应用 …

大模型、AIGC 资源记录

文章目录 awesome*awesome-ChatGPT-repositoriesAwesome-ComposableAIawesome-open-gpt - GPT相关开源项目合集awesome-gpt4 ChatGPTChatGPT综述FindTheChatGPTer collieTurboPilotLLM-IMDBAriaphasellmai-legion GUI 工具web-llmWeb Stable Diffusiontext-generation-webuista…

最佳 AI 生产力工具:更聪明地工作,而不是更努力地工作

在20世纪50年代&#xff0c;AI 在内存耗尽之前几乎无法完成跳棋游戏。 快进七个激动人心的十年&#xff0c;可以理解自然语言的人工智能系统——大型语言模型 (LLM)——正在成为我们数字工具箱中的重要工具。 在今天的文章中&#xff0c;我们梳理了一些提高生产力的最佳人工智…

集成RocketChat至现有的.Net项目中,为ChatGPT铺路

文章目录 前言项目搭建后端前端 代理账号鉴权方式介绍登录校验模块前端鉴权方式 后端鉴权方式登录委托使用登录委托处理聊天消息前端鉴权方式后端校验方式 项目地址 前言 今天我们来聊一聊一个Paas的方案&#xff0c;如何集成到一个既有的项目中。 以其中一个需求为例子&#…

我发布了自己第一个由ChatGPT辅助开发的开源项目goattribute

需求产生 前两天在工作过程中又遇到了一直以来困惑我的一个问题&#xff0c;就是Go配置项的管理问题。 在开发一个新项目的时候&#xff0c;往往涉及到配置项的管理。个人小项目可能会通过配置文件来传入、环境变量来传入&#xff0c;也可能通过命令行参数来传入&#xff0c;公…

阿里自爆性能优化100+小技巧,Github已获赞68.7K

随着互联网飞速的发展&#xff0c;从4G到5G的全面过渡&#xff0c;深度学习性能优化&#xff0c;已经变成一个越来越重要的话题&#xff0c;从面试时的面试题都可以看出来了&#xff0c;所以今天就来分享一份Java性能优化100小技巧&#xff01; 本性能优化手册包含内容&#x…

在虚拟机上测试rm -rf 命令,自爆了

切记不要在任何正常机器上使用rm -rf / 或 rm -rf / * 命令&#xff01;&#xff01;&#xff01; 系统&#xff1a;CentOS-7-x86_64-DVD-2003.iso 开始测试&#xff1a; 现在很多操作系统&#xff0c;已经默认拒绝在 / 目录下执行递归删除操作了&#xff0c;这减小了一些风险。…

【UE】三步创建自动追踪自爆可造成伤害的敌人

效果 可以看到造成伤害时在右上角打印玩家当前的生命值 步骤 1. 首先拖入导航网格体边界体积 2. 首先复制一份“ThirdPersonCharacter”&#xff0c;命名为“ExplodingAI” 打开“ExplodingAI”&#xff0c;删除事件图表中所有节点 添加一个panw感应组件 在事件图表中添加如…

字节跳动技术总监自爆:mysql创建库books

算法 ⼏道常⻅的字符串算法题总结最⻓公共前缀回⽂串两数相加翻转链表链表中倒数第k个节点删除链表的倒数第N个节点合并两个排序的链表剑指offer部分编程题跳台阶问题变态跳台阶问题⼆维数组查找替换空格题⽬描述&#xff1a;数值的整数次⽅调整数组顺序使奇数位于偶数前⾯链表…

字节跳动技术总监自爆:mongodbmysql配合使用

算法 ⼏道常⻅的字符串算法题总结最⻓公共前缀回⽂串两数相加翻转链表链表中倒数第k个节点删除链表的倒数第N个节点合并两个排序的链表剑指offer部分编程题跳台阶问题变态跳台阶问题⼆维数组查找替换空格题⽬描述&#xff1a;数值的整数次⽅调整数组顺序使奇数位于偶数前⾯链表…

字节跳动技术总监自爆:微服务架构技术栈

一、对Kafka的认识 1.Kafka的基本概念 2.安装与配置 3.生产与消费 4.服务端参数配置 二、生产者 1.客户端开发 2.原理分析 3.重要的生产者参数 三、消费者 1.消费者与消费组

字节跳动技术总监自爆:大学javaweb课程

一、前言 最近刚读完一本书&#xff1a;《Netty、Zookeeper、Redis 并发实战》&#xff0c;个人觉得 Netty 部分是写得很不错的&#xff0c;读完之后又对 Netty 进行了一波很好的复习&#xff08;之前用 spring boot netty zookeeper 模仿 dubbo 做 rpc 框架&#xff0c;那时…

惊艳,阿里自爆用480页讲清楚了44种微服务架构设计模式

微服务架构设计 微服务的概念虽然直观易懂&#xff0c;但“细节是魔鬼”&#xff0c;微服务在实操落地的环节中存在诸多挑战。微服务也是可以成为企业转型的强力催化剂&#xff01; 随着网络基础设施的高速发展&#xff0c;以及越来越多的企业和组织需要通过互联网提供服务&a…

Pytorch 深度学习实战教程(六):仝卓自爆,快本打码。

本文 GitHub https://github.com/Jack-Cherish/PythonPark 已收录&#xff0c;有技术干货文章&#xff0c;整理的学习资料&#xff0c;一线大厂面试经验分享等&#xff0c;欢迎 Star 和 完善。 一、人脸识别 人脸识别是一门比较成熟的技术。 它的身影随处可见&#xff0c;刷脸…