图像描述算法排位赛:SceneXplain与MiniGPT-4谁将夺得桂冠?

dba7a4cf61599640599cfded6fdea620.png

如果你对 AI 前沿感兴趣,本场「图像描述算法排位赛」绝对是你不能错过的!在这场较量中,SceneXplain 和 MiniGPT-4 将会比试,谁将摘得这场比赛的桂冠?

📎 直接上手体验:scenex.jina.ai

背景介绍

在 一张图就是一个故事,用 SceneXplain 讲个好故事 中,我们介绍了图像描述(Image Caption),简单来说,你给模型输入一张图像,模型输出是一句能够描述图像场景的文本句子。

模型不仅要理解图片里的内容,还需要使用到自然语言来进行描述。它涉及到 对图像内容的理解自然语言的生成,链接了计算机视觉和自然语言处理两个领域的问题。

近年来,图像描述算法已经不止是生成简单的描述,它已经可以深入到场景分析,能够解释和解释复杂的视觉信息,并提供对图像的全面描述。

好的图像描述能够让开发者有机会完成更多有实际价值的应用,举个例子,在博物馆等领域,视障人士可以获得对艺术作品的准确描述在电商领域,图像描述算法能够自动对数以千万的未标注图像生成描述,高效地实现分类检索

在接下来的“图像描述算法排位赛”里,我们将会对市场上 5 种领先的图像描述算法进行全方位分析和比较。而在这场激烈的竞争中,SceneXplain 和 MiniGPT-4 无疑是最新、最值得关注的两名选手。

我们的评估将重点考察这些算法生成描述的 细节度、话题度、事实准确性以及可读性,同时也会评估它们在复杂场景理解和解释方面的表现。让你更好地了解它们之间的差异,权衡利弊,从而做出正确决策。

参赛选手介绍

本次评估中选取的 5 种图像描述算法:

  • SceneXplain 利用 GPT-4 等大型语言模型的强大功能为复杂的视觉内容生成复杂、详细且上下文丰富的文本描述。通过提供无与伦比的图像理解,树立起图像描述领域新的基准。

  • MiniGPT-4 把 BILP 2 的图像编码器与大型开源语言模型 Vicuna 整合起来,并且冻结了两者的大部分参数,只训练其中很少的一部分。此外,MiniGPT-4 还和 ChatGPT 合作创建了一个数据集,其中包含 3500 个高质量的图像和文本数据集来微调模型,显著提高了模型的生成可靠性和整体可用性。

  • Midjourney:最近发布的 /describe 功能,将图像转换为提示词(Prompt),它能够分析图像的关键内容和图像的类型,如电影风格,油画风格等,用来激发创作者的灵感。

  • BLIP2:从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。它是一种通用的预训练框架,也就是说,你可以任意对接自己的模型。

  • CLIP Interrogator 2.1:一款专门设计给 Stable Diffusion 2.0 模型生成提示词的工具。它基于 ViT-H-14 OpenCLIP 模型,展示了图像描述领域的创新潜力。

评估指标

为了让图像描述算法的比较更加公正和全面,我们选择了一组评估指标,这些指标都非常注重生成描述的质量。我们的评估指标 不仅侧重于描述的细节度、话题度和事实性,还注重描述的易读性,这样才能真正帮助我们了解每种算法的优缺点。

1. 细节度

细节度(Details)指标关注算法是否能够准确地 捕捉描述 图像中的每一处细节,并评估算法对视觉信息的理解和描述能力。通过评估生成的图像描述的颗粒度级别,确定算法理解和传达复杂视觉信息的能力。

1496f44e31efbf4c2a58297c5f6bb75b.png

由 SceneXplain/Comet 给出(得分为 5)

在这个奇妙的场景中,一群人和动物聚集在一张桌子旁,参加一场愉快的茶话会。一个小女孩坐在她古怪的伙伴中间,其中包括一个穿着帽子和领结的时髦男子、一个带着好奇表情的猫和一个戴着 蓝色领结 的可爱兔子。桌子上摆满了 茶杯和茶壶,增添了迷人的氛围。这幅迷人的插画将观众带入一个想象丰富的世界,在这里人类和拟人化的动物们聚在一起,品着热气腾腾的茶水,享受彼此的陪伴。

由 BLIP2 提供(得分为 1)

爱丽丝和兔子在茶会上的插图

2. 话题度

话题度(Topicality) 衡量算法在生成描述中 识别整合 与当代事件、流行文化、知名人物或作品相关的内容的能力,这样的描述才能够与目标观众产生共鸣,具有吸引力。

1881652c897e1d03f86045d77f112675.png

由 SceneXplain/Bolt 给出(得分为 5)

在这个极富吸引力的画面中,小丑和蝙蝠侠 正展开一场惊心动魄的对决,引起了人们的注意。小丑带着他标志性的笑容,手里拿着卡牌,和一个穿着蝙蝠侠服装的女人对時,他们之问的紧张气氛显而易见,但随着 蝙蝠俠和猫女 一起打牌,气氛出现了意想不到的转折。蝙蝠标志装饰在蝙蝠俠的头上,象征着他对正义的坚定。在这个耐人寻味的场景中,来自 DC 漫画的许多其他角色也出现在画面里,为它注入了一种兴奋和阴谋的感觉,让观众们坐立不安。

由 CLIP Interrogator 2.1 提供(得分为 1 )

一组并排站立的漫画人物,灵感来自 Jim Lee,系列艺术,猫玩扑克,凯莉詹纳扮演猫女,头,尼尔亚当斯 | 居中

3. 事实性

事实性(Factuality)是图像描述领域中非常重要的一个指标,因为它涉及到生成描述的准确性和可信度。在生成图像描述时,算法需要考虑到图像中的各种元素,如物体、场景、颜色等,然后将这些元素转化为自然语言。

如果算法生成的描述与图像不符,或包含 AI 幻觉(Hallucinations),那么这个模型的事实性分数就会降低。

50a60165fafedd8cd9ce43dc13b783ee.png

由 SceneXplain/Dune 给出(得分为 5)

这张令人心碎的图像捕捉到了巴哈马卡特里娜飓风的毁灭性后果。曾经繁荣的城市景观现在是一片毁灭的景象,许多建筑物变成了废墟。鸟瞰图显示了一座受损的桥梁和 一条被强大风暴破坏的道路。在废墟中,房屋变成了废墟,它们曾经坚固的结构现在只是 飓风肆虐 前的回忆。在这片荒凉中,大自然侵蚀了文明的残余,树木和树叶 取代了一座孤零零地矗立在曾经繁华社区中的房子。这一场景尖锐地提醒人们,此类自然灾害的巨大威力和持久影响。

由 MiniGPT-4 给出(得分为 1)

这张图片显示了一个沿海小镇的景色,岸边有房屋和建筑物。镇四面环水,水中有舟。这些房子是用木头建造的,有茅草屋顶。小镇四周绿树成荫,看不到人影。天空晴朗,没有云彩。该图像是从高空拍摄的,显示了整个城镇。

5. 困惑度

困惑度(Perplexity)是衡量生成文本易读性的一种指标,它与可读性密切相关,分数越低说明文本越好理解,也能说明算法提供的整体用户体验。

需要注意的是,我们没有把速度作为评估指标,因为它可能会受到 GPU 和基础设施等因素的影响,这些因素不在我们的比较范围内。我们着重关注于图像描述的质量,和对复杂场景的理解和解释的能力。

14812418fb32d9463799d290c6fe96ee.gif

我们使用 GPT-2 语言模型,并采用滑动窗口策略来评估一句话的困惑度。这意味着我们会反复滑动上下文窗口,以便模型在进行每个预测时具有更多的上下文信息。

为了确保公正地比较每个图像描述算法的表现,我们采用了一个标准化的评分系统,邀请了精通图像描述和场景理解领域的外部人工标注员,来独立评估算法的表现。对于这 4 个指标:细节度、话题度、事实性和困惑性,每个标注者都会给出一个 1 到 5 的评分,其中 1 分最低,5 分最高。

这种方法保证了分数不仅在各种指标之间保持一致,而且没有任何潜在的偏见,从而确保了对竞争算法进行公平可靠的评估。

深入分析实验结果

为了对图像描述算法进行全面并深入地评估,我们精心挑选了一组 33 张非常复杂的图像,这些图像涵盖了多种风格,包括真实场景、人工创作、油画、照片和漫画等。

5248213d9cb2eb07a81d27c71ea0c964.png 评估使用的图像版权属于它们各自的原作者

我们已将评估的全部结果,包括每种算法生成的描述文本汇总在飞书表格里。感兴趣的小伙伴可以复制链接,深入地了解每个算法的表现,得出自己的结论。

表格:https://u84gxokzmi.feishu.cn/file/OLfObDxbuoYwvlxAZZvc19d7nJf

bb996250ceb03f664c7aef2ab8f818d7.png

除困惑度外,其他指标都是越大越好

为了提供更直观的可视化,我们还创建了一个雷达图,显示每个算法在各种指标上的性能。这种图形表示可以清楚地比较它们的优缺点,使读者更容易理解性能差异。为了图表看起来更清晰,雷达图没有包含(越小越好的)困惑度指标。现在,你可以根据每个算法在雷达图上的区域大小,来高效地判断出它们在细节度、话题度和事实性方面的整体表现。

dbef8400287f98098dfbc1bc639a00bd.png

为了对上述实验结果展开洞察,理解影响算法表现的潜在因素,我们深入研究了图像描述和场景理解的挑战,以及不同算法性能差异背后的可能原因。

1. 复杂的视觉信息处理

在“细节度”指标中,SceneXplain 算法家族(Aqua、Bolt、Comet 和 Dune)表现始终优于其他算法,说明它在 捕捉描述 图像中复杂细节的卓越能力。这表明,SceneXplain 很适合处理复杂的场景理解和说明。

准确地捕捉图像中复杂细节 是非常具有挑战性的。这要求模型必须具备深入的视觉理解,和生成连贯且符合上下文的文本描述的能力。

之所以能够在“细节”指标上表现出色,主要归功于 SceneXplain 的先进架构。利用大型语言模型的能力,它能够准确地捕捉图像中复杂的细节信息,并且更有效地处理复杂的场景理解和描述。

2. 话题度和吸引力

除了准确地捕捉图像中的细节之外,生成与当代事件、流行文化以及知名人物或作品相关的描述也是图像描述的另一个难点。这要求模型必须具备广泛的知识库,和将这些信息融入描述的能力。

在这方面,SceneXplain 中的 Bolt 和 Aqua 表现出色,在所有算法中展示出最高的话题度得分,展现了它们生成相关且吸引人的描述的能力。

SceneXplain 在话题性方面的卓越表现归功于其先进的训练过程,通过让模型接触到各种各样的话题,并使其能够生成更具吸引力的图像描述。

总体而言,通过使用 SceneXplain,我们可以更好地处理图像描述生成的复杂任务,同时生成更具吸引力和话题度的图像描述。

3. 事实性与幻觉

确保生成的字幕的真实性至关重要,因为它有助于避免生成虚假信息或幻觉。BLIP2 的真实性得分最好,但其他指标尤其是细节度和话题度上表现较差,因为 BILP2 生成的几乎都是非常简洁的句子。

另一方面,SceneXplain 在真实性和其他指标之间取得了平衡,说明它的总体表现更为稳定和强劲。

4. 可读性和困惑度

保持描述文本的流畅易读也是一项不小的挑战,需要模型生成既符合上下文又易于理解的描述。SceneXplain 在这项指标上的成功可以归功于它用到了大型语言模型,这些模型以模仿人类说人话而闻名四方。

SceneXplain 中的 Dune 和 Aqua 表现出了最低(也就是最好)的困惑度分数,表明它们生成的描述比其他算法的描述更加易懂、且连贯。

5. SceneXplain 与 MiniGPT-4

相较于 SceneXplain,MiniGPT-4 在细节度和事实性方面表现相对较好,但在话题度和可读性方面则略逊一筹。也就是说,虽然 MiniGPT-4 是一个强有力的竞争对手,但在复杂场景的理解和生成有吸引力的图像描述文本方面,它就没有 SceneXplain 算法那么强大了。

虽然结果已经展示了 SceneX 图像描述算法的整体实力,但在我们的分析中始终保持客观的视角非常重要。我们需要深入挖掘每个算法在各个指标上的表现,并从多个角度来评估它们的综合表现。这样可以提供一个更加完整的评估,让你能够根据自己的具体需求做出明智的决策。

结论

以上就是对各种图像描述算法的全面评估,结果表明,SceneXplain 在细节、话题性、真实性和可读性方面始终表现出色。它利用了 GPT-4 等大型语言模型,SceneXplain 能够为复杂的图像生成 深入细节上下文丰富 的文本描述,从而在市场里脱颖而出。

此外 SceneXplain 提供了易于集成和使用的 API,能够快速提高你的生产效率。

e1c7f45ee24ac536dd83fb5d1a9a1cd2.gif

SceneXplain 在多个领域产生积极影响:

  • 增强可访问性:SceneXplain 能够帮助公共组织转换多媒体内容,生成的全面图像描述可以显著改善视障用户的在线体验。

  • 提升 SEO:有了 SceneXplain 提供的详细准确的图像描述,搜索引擎能更好地理解你的视觉内容,这有望提高你网站的排名,并带来有机流量。

  • 提升视觉叙事能力:SceneXplain 能让你的图片说出更多故事来,所生成的生动描述能够为图像增添深度和丰富性,将普通的图像转变为沉浸式的叙事体验。

想在这个快速变化的互联网时代站稳脚跟,就必须得采用前沿技术了!本次评估显示 SceneXplain 的表现非常出色,不过我们还是建议大家自己去探索它的能力和潜力,才能真正领略它的价值。

📎 产品链接:scenex.jina.ai

5bfc8b0cb65f5c0959e3a9f2a540d04b.png

点击“阅读原文”,即刻体验 Scenex.jina.ai

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/66283.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何用AI画56个民族的女孩!

大家好,我是菜鸟哥! 目前在带领600多个小伙伴一起玩AI!Chatgpt现在是最火最出圈的产品,而一旦文字和图像,声音,视频结合可以演化出很多很多的需求。前面我们公众号已经分享了很多很多关于chatgpt的使用和技…

AI量化策略快速理解

导语: 人工智能(Artificial Intelligence,简称AI)的应用领域主要包括机器学习、概率推理、机器人技术、计算机视觉和自然语言处理。开发AI量化策略就是采用人工智能的相关技术和算法构建模型来处理市场海量数据之间的复杂关系。本文将带你走进人工智能量化投资的世界…

自己做量化交易软件(15)通通量化AI框架的选股器设计1

自己做量化交易软件(15)通通量化AI框架的选股器设计 前面我们学会了单只股票的分析,回测功能。下面我们开始设计选股器和量化分析的功能。 在设计选股器之前,我们先要学习一些python基本操作技巧。 一、股票代码处理技巧 1、数字类型转换 我们获取的数据…

一文讲通AI+金融领域量化交易和股价预测

AI金融作为优化金融业务场景的应用技术工具,应用于金融机构IT总体架构的中台层与渠道层,解决具体场景的业务数字化诉求。总体而言,AI金融在内生需求、资本投入、政策扶持的驱动下,获得广阔的发展空间。 ——艾瑞网 深度学习模型对…

【量化交易】94篇论文分析股市预测的深度学习技术

论文 | Stock Market Prediction via Deep Learning Techniques: A Survey 作者 | Jinan Zou, Qingying Zhao, Yang Jiao, Haiyao Cao, Yanxi Liu, Qingsen Yan, Ehsan Abbasnejad, Lingqiao Liu, Javen Qinfeng Shi 一 本文摘要 由于其非线性、高度波动性和复杂性,…

磨金石教育摄影技能干货分享|摄影拼贴技法的运用与效果

河南省-黄阳惠智-《那是山吗》 画面中是一片群山景象。我们看上去感觉像是画出来的,又像是电脑做的图。 其实这是摄影师用了中国山水画的特有表现手法,对桂林山水的景象,进行了拼贴在创造。 作者用一些非山非水的现代物品,像织女一…

磨金石教育摄影技能干货分享|古风人像修图与调色技巧

上一篇文章我们介绍了古风人像的拍摄技巧,这期我们再来了解一下后期修图与调色的技巧。 一、修 饰 皮 肤 首先我们把拍好的照片拖到PS里。 1、ctrlj复制一个图层。然后选择污点修复画笔把脸部瑕疵去掉,嘴巴部位使用的是修复画笔。这样我们可以看到人像…

【推荐】网络安全应急响应与实践资料合集

应急响应对应的英文是Incident Response或Emergency Response等,通常是指一个组织为了应对各种意外事件的发生所做的准备以及在事件发生后所采取的措施。 计算机网络安全事件应急响应的对象是指针对计算机或网络所存储、传输、处理的信息的安全事件,事件…

企业发现数据泄露威胁时如何应对

By Jeffrey - 资深IT经理人,IT运营和安全顾问,历任多家知名跨国企业包括麦肯锡大中华区、通用电气公司、壳牌石油、英美烟草等公司IT总经理 疫情的爆发使得很多企业采用远程办公或者混合办公模式,在线办公的增多使得网络犯罪也渐渐猖獗。有报…

[软件自动修复领域] 偏实证分析类论文阅读-2019年8月9日

文章目录 前言论文列表Better Test Cases for Better Automated Program RepairA Theoretical and Empirical Analysis of Program Spectra DiagnosabilityAn empirical study on TensorFlow program bugsAn Empirical Study on Real Bug FixesLogTracker: Learning Log Revisi…

隐私保护论文题目汇总(一定要保持更新)

Motivation 既然放养,只能自救,大家都是我的导师。 研究方向争取不乱串。隐私保护。 2022.5.26 1 Blockchain Empowered Asynchronous Federated Learning for Secure Data Sharing in Internet of Vehicles (2020 IEEE Trans on vehicul…

论文学习笔记(二):面对多步攻击的网络安全态势评估

文章目录 1. 引言2. 网络安全态势评估基础2.1 基本术语2.2 网络安全态势评估流程 3. 实时攻击阶段识别3.1 攻击场景聚类3.2 实时攻击阶段识别算法3.3 攻击阶段识别算法的改进 4 网络安全态势量化分析4.1 攻击安全概率4.2 攻击阶段实现概率4.3 网络安全态势值 5 实验结果及分析5…

个人信息安全事件应急处理和报告

声明 本文是学习GB-T 35273-2020 信息安全技术 个人信息安全规范. 而整理的学习笔记,分享出来希望更多人受益,如果存在侵权请及时联系我们 个人信息安全事件处置 个人信息安全事件应急处置和报告 对个人信息控制者的要求包括: 应制定个人信息安全事件应急预案&…

论文总结:云安全研究方向及进展综述

目录 1、云安全在信息安全领域所处位置 2、云计算环境面临的威胁和挑战 2.1 云安全发展史 2.2 云计算安全与传统计算安全区别[5] 2.3 从顶层框架的角度看云安全研究目标 3、研究进展和解决方案 3.1 虚拟化、数据、应用安全[6] 3.2 系统安全、网络安全、数据安全[7] 3.3…

信息系统安全实验之文件上传漏洞导致主页篡改实验

一、实验目的 1.了解文件上传漏洞的原理和攻击方式。 2.在学习该漏洞的出现原因的过程中了解该漏洞的防范和加固方式。 二、实验环境 1.操作系统:Windows 7(虚拟机环境)。 2.工具:phpStudy、Burp Suite、中国蚁剑、Firefox浏…

使用崩溃服务,获取不到崩溃报告怎么办

华为AGC推出的崩溃服务,零代码集成,只需要添加SDK即可。有时可能集成了SDK,在AGC页面获取不到崩溃报告,总结了一下可以排查以下几点: 1、首先确认下端侧有没有上报 执行“adb shell setprop log.tag.AGC_LOG VERBOSE…

说说计算这事儿:从开关到人工智能

目录 一 前言 二 计算历史 三 计算探秘 四 算力优化 五 未来展望 一 前言 计算本身其实是一个比较抽象的词,或者说比较笼统。很多场景都可能用到计算这个词,因此具体的含义就需要根据上下文来确定。今天我们讨论的计算,是比较狭义的计算…

稚晖君,被百度投了!估值被曝已超独角兽

推荐阅读:“程序员交友网站” SO 突然裁员 10%,网友:ChatGPT 出来后就不咋用了 衡宇 发自 凹非寺量子位 | 公众号 QbitAI “华为天才少年”稚晖君创业项目,刚被百度风投投了! 量子位获悉,稚晖君创业项目智元…

充能书单|618,买什么都不如买知识!

前言 “IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、更实用的知识与技能,快速提升职场竞争力。 点击蓝色微信名可快速关注我们。 一年一度的618又到啦!今年的618就不要乱买…

华为鸿蒙os有微信吗,华为“鸿蒙OS”合作的多个软件 没有微信你还会用吗

花火网讯 11月12日消息,华为“鸿蒙OS”合作了很多个软件,但是里面竟然没有微信,你还会选择华为鸿蒙OS吗? 手机如今大家都离不开它,并且如今的手机给了我们很多的方便,也正因为如此,现在的人越来…