论文阅读:“Inpaint Anything: Segment Anything Meets Image Inpainting”

**

Inpaint Anything: Segment Anything Meets Image Inpainting

**
在这里插入图片描述
论文地址:https://arxiv.org/abs/2304.06790
项目地址:https://github.com/geekyutao/Inpaint-Anything

Abstract

尽管现代图像修复系统取得了显著的进展,但在mask选择和holes填充方面仍然面临挑战。基于Segment-Anything Model(SAM),我们首次尝试进行mask-free图像修复,并提出了一种名为“clicking and filling”的新范式,称为Inpaint Anything(IA)。IA背后的核心思想是结合不同模型的优势,以构建一个非常强大且用户友好的流程来解决修复相关问题。IA支持三个主要功能:(i)移除任何内容:用户可以点击一个对象,IA将移除它并用上下文平滑“hole”;(ii)填充任何内容:在移除某些对象后,用户可以向IA提供基于文本的提示,然后IA通过驱动诸如稳定扩散的AIGC模型来用相应的生成内容填充“hole”;(iii)替换任何内容:使用IA,用户可以选择保留点击选择的对象,并用新生成的场景替换其余背景。

Motivation and Observation

Why do we need Inpaint Anything?

最先进的图像修复工作,如 LaMa、Repaint、MAT、ZITS等,已经取得了很大的进展。它们可以成功修复大面积区域,并能很好地处理复杂的重复结构,并能很好地推广到高分辨率图像。然而,他们通常需要对每个mask进行精细注释,这对于训练和推理至关重要。
SAM是一个强大的分割基础模型,可以根据点或框等输入提示生成高质量的对象mask,并且可以用于为图像中的所有对象生成全面且准确的mask。然而,他们的mask分割预测尚未得到充分探索。
此外,现有的修复方法只能用上下文填充移除的区域。 AIGC 模型开辟了新的创作机会,有可能满足大量需求并帮助人们新生成他们想要的内容。
因此,通过结合 SAM、SOTA 图像修复和AIGC模型的优势,我们提供了一个强大且用户友好的流程来解决更常见的修复相关问题,例如对象移除、新内容填充、背景替换。

What Inpaint Anything can do?

SAM + SOTA inpainters for removing anything
借助 IA,用户只需单击特定对象即可轻松从界面中移除它们。此外,IA 还为用户提供了一个选项,可以用上下文数据来填充由此产生的“hole”。以此为导向,我们结合了 SAM 和 LaMa 等一些 SOTA Inpainters 的优势。通过corrosion and dilation进行细化后,SAM 生成的mask预测将作为修复模型的输入,为要擦除和填充的对象区域提供清晰的指示。
SAM + AIGC models for filling or replacing anything
(1) 移除对象后,IA 为用户提供了用上下文数据或“新内容”填充所产生的“hole”的选项。具体来说,利用Stable Diffusion等强大的AIGC模型通过文本提示生成新对象。例如,用户可以使用“狗”这个词或“一只可爱的狗,坐在长凳上”的句子来生成一条新狗,以用新生成的狗来填补这个“hole”。
(2) 此外,用户还有另一种选择,即采用 IA 单击保留选定的对象,并用新生成的场景替换剩余的背景。IA的场景替换过程支持多种提示AIGC模型的方式,例如使用不同的图像作为视觉提示或使用简短的标题作为文本提示。例如,用户可以将狗保留在图像中,但将原始的室内背景替换为室外背景。

Methodology

Preliminary
Segment Anything Model (SAM).上周发布了基于大型视觉语料库(SA-1B)训练的大型ViT模型的Segment Anything [7]的基础计算机视觉模型。SAM在各种场景中展示了有希望的分割能力,展示了基础模型在计算机视觉中的巨大潜力。这是迈向视觉通用人工智能的突破性进展,而SAM曾被誉为“ChatGPT的计算机视觉版”。
SOTA Inpainters. 图像修复作为一种不适定的逆问题,在计算机视觉和图像处理领域得到了广泛的探索,其目的是用视觉上合理的结构和纹理来替换损坏图像的缺失区域。深度学习的成功带来了新的机遇[13,10,8,4],所有这些SOTA方法都可以从多个角度进行分类,例如修复策略、网络结构和损失函数。对于我们的Inpaint Anything (IA),我们研究了一种简单的单阶段方法LaMa [13]用于基于mask的修复,通过组合快速傅里叶卷积(FFCs)[1]、感知损失[6]和积极的训练mask生成策略,该方法在生成重复的视觉结构方面具有优势。
AIGC Models. ChatGPT 1和其他生成式人工智能(GAI)技术都属于人工智能生成内容(AIGC)的范畴,它通过AI模型创建数字内容,如图像、音乐和自然语言。这被视为一种新型的内容创作方式,并在各种内容生成方面展示了最先进的性能[11, 12]。在我们的IA工作中,我们直接使用了强大的AIGC模型Stable Diffusion [11],根据文本提示在空白区域生成所需的内容。
Inpaint Anything
我们提出的Inpaint Anything (IA)的原则是将现成的基础模型组合起来,以实现解决广泛的图像修复问题的能力。通过组合各种基础模型的优势,IA可以生成高质量的修复图像。具体而言,我们的IA有三种方案,即Remove Anything、Fill Anything和Replace Anything,分别用于移除、填充和替换任意对象。
Remove Anything. Remove Anything 专注于对象移除问题 [2,3,5],允许用户从图像中消除任何对象,同时确保生成的图像在视觉上保持合理。移除任何内容由三个步骤组成:单击、分割和移除,如图 1 所示。第一步,用户通过单击选择要从图像中移除的对象。接下来,利用基础分割模型,例如 Segment Anything [7],根据点击位置自动分割对象并创建mask。最后,使用最先进的修复模型(例如 LaMa [13])来填充使用mask移除的对象所产生的孔。由于该对象不再出现在图像中,因此修复模型会用背景信息填充该hole。请注意,在整个过程中,用户只需单击要从图像中移除的对象即可。
Fill Anything.Fill Anything允许用户使用任何内容来填充图像中的任何对象。该工具包括四个步骤:点击、分割、文本提示和生成。Fill Anything的前两个步骤与Remove Anything相同。在第三步中,用户输入一个文本提示,指示他们希望用什么来填充对象的hole。最后,采用强大的AIGC模型,如Stable Diffusion [11],根据文本提示修复模型在hole中生成所需的内容。
Replace Anything. Replace Anything能够用任何背景替换任何对象。Replace Anything的过程与Fill Anything类似,但在这种情况下,AIGC模型被提示生成在指定对象之外存在的视觉一致的背景。
Practice. 将基础模型组合起来解决任务可能会遇到不兼容或不合适的问题。为了更好地协调模型和任务之间的关系,我们应该考虑中间处理。在这项工作中,针对图像修复场景,我们总结了以下几个组合的良好实践。

  1. Dilation matters.

    我们观察到SAM的分割结果可能包含不连续和非平滑的边界,或者对象区域内部存在holes。这些问题给有效地移除或填充对象带来了挑战。因此,我们采用a dilation操作来优化mask。此外,在填充对象时,较大的mask给AIGC模型更多的创建空间,有利于与用户目的的“对齐”。因此,我们在Fill Anything中采用了较大的dilation。

  2. Fidelity matters.

    大多数最先进的AIGC模型(如Stable Diffusion)要求图像具有固定的分辨率,通常为512×512。简单地将图像调整为这个分辨率可能会导致保真度的损失,这可能对最终的修复结果产生不利影响。因此,采取保留原始图像质量的措施非常重要,例如使用裁剪技术或在调整大小时保持图像的纵横比。

  3. Prompt matters.

    我们的研究表明,文本提示对AIGC模型具有显著影响。然而,我们观察到,在文本提示修复的场景中,简单的提示,如“长凳上的泰迪熊”或“墙上的毕加索绘画”,通常可以产生令人满意的结果。相比之下,更长、更复杂的提示可能会产生令人印象深刻的结果,但往往不太用户友好。

Experiment

我们在Inpaint Anything中对Remove Anything、Fill Anything和Replace Anything进行了评估,分别在三种情况下进行了测试:移除对象、填充对象和替换背景。我们从COCO数据集[9]、LaMa测试集[13]和我们手机拍摄的照片中收集了测试图像。结果如图2、图3和图4所示。实验结果表明,提出的Inpaint Anything具有通用性和鲁棒性,能够有效地修复具有多样化内容、分辨率和长宽比的图像。

心得体会
“移除一切、填充一切、替换一切”操作简单,IA其结合不同模型优势的核心思想,建立一个用户操作友好且功能强大的图像修复系统,展现了模型与模型的的组合可以充分展现了大型模型的强大功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23857.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从不自量力到 AI 助力,我如何翻译完一整本英文书

披露和声明: 本文提及的翻译作品系使用 AI 技术制作,并经人工调整,具体步骤如文中所述。本文在后期修改过程中使用 ChatGPT 辅助,目的为精简原版中的口语化表述。我的英文水平有限,翻译这本书主要是为了自我学习&…

玩赚小红书无货源电商,必备思路分享

一、怎么起盘小红书电商? 眼看着别人每天获得数万、数十万的爆单,但自己却不知道从何开始。小红书电商与去年的视频号搬运相似,不论是时间节点还是玩法,都如出一辙。它是当下最快速且相对稳定的变现项目。今年的小红书关键词只有…

成都建博会:家居行业数字营销金点子 句句戳心坎,先收藏

四月,不仅是人间最美天,也是第二季度的开始。随着气温上升,行业进入了活跃期。对于西南地区的家居行业从业者来说,来一趟一年一度的成都建博会,总能获得无尽的灵感,对后续更加充满期待。而与同行的交流&…

独角数卡--免费网店搭建详细教程

独角数卡介绍 独角数卡,一个开源免费的在线销售产品的平台,相当的强大,连支付下单接口都有了,而且很丰富。你应该见过类似这样的平台,一些虚拟产品,如软件、激活码和会员可以放在上面出售。简言之&#xf…

零碎笔记/博客推荐

零碎笔记 笔记spdkk8s坑点 时不时用到的博客命令博主推荐博客推荐知乎回答书籍推荐网站推荐 笔记 spdk k8s 部署Kubernetes(k8s)时,为什么要关闭swap、selinux、firewalld? docker service start failed docker正常安装成功,但是启动服务…

Task01:概览西瓜书+南瓜书第1、2章(2天)

Task01:概览西瓜书南瓜书第1、2章(2天) 打卡截止时间:2月15日03:00 学习建议:西瓜书第1章和第2章主要是讲一些基本概念和术语,大家自己看就好,不过第1章和第2章有一些知识点可以跳过不看&#x…

一键生成 PPT,斯坦福博士生自制PPT生成神器火了

Datawhale干货 AI工具:ChatBCG,编辑:机器之心 谁没有过为 PPT 熬夜的经历?现在,免费的一键生成 PPT 神器终于诞生了。 在即将过完的 12 月,相信很多人都在忙一件事:年终工作汇报。就像那句话说…

马斯克爆料Twitter裁了八成员工;OpenAI CEO:GPT-5根本不存在;小鹏被曝年终奖打0.5折 | AI一周资讯

来源: AI前线 微信号:ai-front 整理 | 凌敏 微软宣布开源 Deep Speed Chat;消息称软银旗下 Arm 启动赴美 IPO;国家网信办出台生成式 AI 管理办法;前理想 AI 芯片一号位骄旸加入三星,负责组建 GPU 团队…… 资 讯 Op…

标书怎么做?标书制作教程附标书制作思维导图

标书怎么做?标书制作教程附标书制作思维导图 现如今招标标项目已经成为一种常态,标书制作在大小公司都有需求,那么标书怎么做成为一种问题,网上标书制作教程多如牛毛如何才能找到合适自己的标书制作教程?今天小编分享…

招投标工作中投标书编制的流程是怎样的?

招标文件是操作机构的“招牌产品”,加强招标文件质量控制尤为重要。标书的制作及装订对于企业能否中标起着至关重要的作用,那么投标书编制的流程是怎样的呢? 1、投标书目录的确定 开始编制标书之前,目录的确定也是重要的一环。一…

如何软件项目电子投标

以下是电子投标具体流程: 大致流程:登录政采云 - 申请获得招标文件(完成投标报名) - 制作投标书 - 上传标书获得加密文件和备份文件 - 进入开标大厅 - 查看评标结果 其他以招标书要求为准 1、打开政府采购云平台,简称…

软件项目投标标书规范格式

实现___________系统 建设指导书 百育炎华公司 www.c1945.com 参考依据: 1.国家软件工程标准规范(2000) 2.ISO9001质量保证体系(1997) 3.CMM规范二级指导体系 第一分册 企业信息化目…

电子招投标——电子投标书制作教程

电子招投标简化了很多流程,因此在制作标书时也方便了许多。那么你是否知道电子投标书怎么制作和上传呢?中国招标网为大家带来电子投标书制作和上传方法分享,欢迎各位参考学习! 1.下载招标文件。登录网上的招标平台,找到要投标的项目&#xf…

如何制作标书?

大家都知道标书的制作及装订对于企业能否中标起着至关重要的作用,那么制作标书都有哪些要求,哪些细节,又如何制作出一个干净、整洁、美观的标书文件呢?下面小编给大家介绍下! 步骤如下: 1.做标书之前一定要…

Facebook广告营销指南!Facebook广告投放技巧与策略!新手教程

Facebook广告之所以具有强大的功能,是因为它们使您能够根据特定的兴趣,行为和人口统计信息,准确地定位理想的客户。这意味着您可以在最有可能购买产品的确切人群面前推广产品以获得订单。 但是,在Facebook广告上投入大量资金以实…

社交媒体客户服务软件,你的营销利器

如果您在 2023年拥有面向客户的电子商务业务,您的客户正在社交媒体上与您的客户交谈。Facebook,Line,WhatsApp和Instagram等社交平台为您的客户提供有用的双向沟通渠道。作为一家公司,您可以拥有合适的系统工具来监控、处理和优化…

海外社交媒体营销之Facebook如何进行推广?

海外社交媒体营销之Facebook如何进行推广? 1、优化Facebook的主页和粉丝数量 Facebook主页是你营销工作的起点,所以如果你想做更好的营销推广,你必须首先设计页面。 如果你的页面内容足够优化,当客户搜索你的品牌名称时&#x…

Facebook营销策略指南:跨境电商如何利用Facebook营销产品

Facebook 营销策略 Facebook是电商卖家最有效的营销手段之一,但与此同时,在Facebook上的广告竞争也是越来越激烈,跨境电商商家想要在激烈的竞争中脱颖而出,针对目标个性化的广告对跨境电商来说也就越来越重要。那接下来就给大家讲…

YOOV人事管理|2023年面临7大职场趋势,关系到管理者和HR

各种停摆浪潮席卷了2022年的职场生态,对于人力资源工作者来说,无论是判断员工的意向,或是组织面对的挑战,都愈来愈复杂。YOOV人事管理针对2023年,提出了7项观察,提醒雇主和HR应留意的未来工作趋势。 1.安静…

chatgpt赋能python:用Python写个自动排班表

用Python写个自动排班表 Python是一种非常受欢迎的编程语言,可用于开发多种用途的应用程序。其中,自动排班表是一个很实用的应用,对于组织和管理团队的人很有帮助。在这篇文章中,我们将介绍如何使用Python编写一个自动排班表。 …