Stable Diffusion vs DALL·E3

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。

Stability AI最近因正式开源 Stable Diffusion 3 Medium而成为头条新闻,这是一种图像生成模型,在大多数情况下,该模型在生成更复杂和更具视觉吸引力的细节方面优于其前身 SD2。此外,它展示了对冗长提示的理解力,然而,尽管有这些进步,SD3在人体生成方面还是会存在一些缺陷,经常产生怪诞的图片。

Stability AI在一份官方声明中表示:“Stable Diffusion 3 Medium是Stability AI迄今为止最先进的文本到图像开放模型,包含20亿个参数,该模型的较小尺寸使其非常适合在消费类PC和笔记本电脑以及企业级GPU上运行。它的尺寸合适,可以成为文本到图像模型的下一个标准。

SD3的主要功能包括照片级真实感、及时遵守、排版、资源效率和微调功能。它克服了手部和面部的常见伪影,无需复杂的工作流程即可提供高质量的图像。

扩散模型

Stable Diffusion和DALL·E3是目前可用的两个最好的AI图像生成模型,它们的工作方式大致相同。这两个模型都是在数百万或数十亿个文本-图像对上训练的。这使他们能够理解狗、猎鹿者帽子和黑暗的喜怒无常的灯光等概念,这也是他们如何理解像“一幅梵高派画作,一个道长倒骑着毛驴,边抽着旱烟,边路过一片白桦林”这样的提示,然后创作出对应的图像。

对于图像生成,Stable Diffusion和DALL·E3都依赖于称为扩散的过程。图像生成器从随机的噪声场开始,然后通过一系列步骤对其进行编辑以匹配对应的提示。

扩散模型通过添加噪音平滑地扰动数据,然后反向这一过程以从噪音中生成新数据。在反向过程中的每个去噪步骤通常需要估计得分函数(见右侧示意图),该函数的梯度优化是朝着可能性更高且噪音更少的方向行进。

尽管这两种型号具有相似的技术基础,但它们之间存在很多差异。Stability AI(Stable Diffusion的制造商)和OpenAI(DALL·E3)对人工智能工具的工作方式存在不同的哲学认知,包括采用的训练数据集也不一致,并在此训练过程中做了不同的设计和决策。

DALL·E3只能通过 ChatGPT、Bing Image Creator、Microsoft Paint 和其他使用其 API 的服务使用。Stable Diffusion是开源模型,可以通过 Stability AI的DreamStudio应用程序(或者以更基本的形式,通过 Clipdrop)访问它,但您也可以下载最新版本的 Stable Diffusion,将其安装在您自己的计算机上,甚至可以根据定制化的数据对其进行训练。

能力不先上下

Stable Diffusion和DALL·E3能够生成令人难以置信的 AI 生成的图像。实际上,这两种模式在客观上,甚至在主观上都不比另一种模式好。至少不是一致的。

如果被迫强调模型的不同之处,使用过的读者都会深有感触Stable Diffusion 倾向于更逼真的图像,尽管它可能会巧妙地弄乱面部等内容,而 DALL·E3使事物看起来更抽象或计算机生成。DALL·E3感觉“对齐”更好,因此会看到不那么刻板的结果。DALL·E3有时可以从较短的提示中产生比 Stable Diffusion更好的结果。

DALL·E3使用起来非常简单。打开 ChatGPT,只要是ChatGPT Plus的订阅者,就可以聊天并提出请求。若需要一点灵感,甚至可以尝试不同的想法和风格的建议。若不是ChatGPT Plus的订阅者,仍然可以查看DALL·E 2,它有更多的编辑选项。

当然还可以尝试通过Bing Chat或Microsoft Image Creator去感受DALL·E3。

开箱即用方面,Stable Diffusion的用户友好性稍差,这里还有更多读者不知道的复杂的选项。例如:可以选择一种样式(增强、动漫、摄影、数字艺术、漫画书、奇幻艺术、模拟电影、霓虹朋克、等距、低多边形、折纸、线条艺术、工艺粘土、电影、3D模型或像素艺术)。还有两个提示框:一个用于常规提示,另一个用于否定提示,即不希望在图像中看到的内容。您甚至可以将图像用作提示的一部分。当然,安装和训练定制化的Stable Diffusion是完全不同的事情,并且需要更多的技术知识。

“对于SD3 Medium(20 亿个参数),我们建议使用16GB的GPU VRAM以获得更高的速度,但 VRAM 较低的人仍然可以使用至少5GB的GPU VRAM运行它,”。该公司补充说:“SD3具有模块化结构,允许它与所有3个文本编码器、3个文本编码器的较小版本或仅与其中的一个子集一起使用。大部分VRAM用于文本编码器。也有可能在CPU中运行最大的文本编码器,即T5-XXL。

Stable Diffusion(在除 Clipdrop 之外的每次迭代中)为用户提供更多选项和控制。正如上面提到的,可以设置步数、初始种子和提示强度,并且可以进行否定提示,所有这些都在 DreamStudio Web 应用程序中完成。若想构建一个基于特定数据(例如自己的脸部、徽标或其他任何东西)进行定制训练的生成式 AI,使用Stable Diffusion更容易做到。后续小编将带来两者之间的技术差异的专题报道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/356316.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS详解

盒子模型&#xff08;box-sizing&#xff09; line-height与height CSS选择符和可继承属性 属性选择符&#xff1a; 示例&#xff1a;a[target"_blank"] { text-decoration: none; }&#xff08;选择所有target"_blank"的<a>元素&#xff09; /* 选…

NeRF从入门到放弃3: EmerNeRF

https://github.com/NVlabs/EmerNeRF 该方法是Nvidia提出的&#xff0c;其亮点是不需要额外的2D、3Dbox先验&#xff0c;可以自动解耦动静field。 核心思想&#xff1a; 1. 动、静filed都用hash grid编码&#xff0c;动态filed比静态多了时间t&#xff0c;静态的hash编码输入是…

项目启动 | 盘古信息助力鼎阳科技开启智能制造升级新征程

在全球数字化浪潮不断涌动的背景下&#xff0c;电子信息行业正迎来转型升级的关键阶段。近日&#xff0c;盘古信息与深圳市鼎阳科技股份有限公司&#xff08;简称“鼎阳科技”&#xff0c;股票代码&#xff1a;688112&#xff09;正式启动了IMS数字化智能制造工厂项目&#xff…

windows环境下,怎么查看本机的IP、MAC地址和端口占用情况

1.输入ipconfig,按回车。即查看了IP地址&#xff0c;子码掩码&#xff0c;网关信息。 2.输入ipconfig/all,按回车。即查看了包含IP地址&#xff0c;子码掩码&#xff0c;网关信息以及MAC地址 3.我们有时在启动应用程序的时候提示端口被占用&#xff0c;如何知道谁占有了我们需要…

C#实现卷积平滑(图像处理)

在C#中使用卷积滤波器来实现图像平滑处理&#xff0c;我们可以使用 System.Drawing 库来操作图像。下面是一个具体的示例&#xff0c;演示如何加载图像、应用卷积平滑滤波器&#xff0c;并保存处理后的图像。 1. 安装 System.Drawing.Common 首先&#xff0c;确保你已经安装了…

【Leetcode】2663. 字典序最小的美丽字符串

题目 题目链接&#x1f517;如果一个字符串满足以下条件&#xff0c;则称其为 美丽字符串 &#xff1a; 它由英语小写字母表的前 k 个字母组成。它不包含任何长度为 2 或更长的回文子字符串。 给你一个长度为 n 的美丽字符串 s 和一个正整数 k 。请你找出并返回一个长度为 n…

Python | Leetcode Python题解之第166题分数到小数

题目&#xff1a; 题解&#xff1a; class Solution:def fractionToDecimal(self, numerator: int, denominator: int) -> str:if numerator % denominator 0:return str(numerator // denominator)s []if (numerator < 0) ! (denominator < 0):s.append(-)# 整数部…

软件缺陷及JIRA工具

一、软件缺陷及跟踪流程 1&#xff0c;软件缺陷信息 案例 &#xff08;1&#xff09;缺陷报告的基本内容 缺陷的标题 预置条件 重现步骤 期望结果 实际结果 &#xff08;2&#xff09;软件缺陷的状态 新建 打开 修复 关闭 &#xff08;3&#xff09;软件缺陷的严重程度 …

JAVA医院绩效考核系统源码 功能特点:大型医院绩效考核系统源码

JAVA医院绩效考核系统源码 功能特点&#xff1a;大型医院绩效考核系统源码 医院绩效管理系统主要用于对科室和岗位的工作量、工作质量、服务质量进行全面考核&#xff0c;并对科室绩效工资和岗位绩效工资进行核算的系统。医院绩效管理系统开发主要用到的管理工具有RBRVS、DRGS…

云徙科技助力竹叶青实现用户精细化运营,拉动全渠道销售额增长

竹叶青茶以其别具一格的风味与深厚的历史底蕴&#xff0c;一直被誉为茶中瑰宝。历经千年的传承与创新&#xff0c;竹叶青不仅坚守着茶叶品质的极致追求&#xff0c;更在数字化的浪潮中&#xff0c;率先打破传统&#xff0c;以科技力量赋能品牌&#xff0c;成为茶行业的领军者。…

Python抓取高考网图片

Python抓取高考网图片 一、项目介绍二、完整代码一、项目介绍 本次采集的目标是高考网(http://www.gaokao.com/gkpic/)的图片,实现图片自动下载。高考网主页如下图: 爬取的流程包括寻找数据接口,发送请求,解析图片链接,向图片链接发送请求获取数据,最后保存数据。 二…

示例:WPF中在没有MouseDoubleClick的控件中如何识别双击

一、目的&#xff1a;由于MouseDoubleClick控件是在Control中实现&#xff0c;那么在底层控件如Grid中想要类似功能如何实现&#xff0c;这里通过MouseDown的事MouseButtonEventArgs参数去实现 二、实现 定义Grid并注册Grid的MouseDown事件 <Grid Background"Transpa…

GIT回滚

1. 使用 git revert git revert 命令会创建一个新的提交&#xff0c;这个提交会撤销指定提交的更改。这通常用于公共分支&#xff08;如 main 或 master&#xff09;&#xff0c;因为它不会重写历史。 git revert HEAD # 撤销最近的提交 # 或者指定一个特定的提交哈希值 …

MFC GDI绘制卡通人物

文章目录 主要代码完整visual studio工程下载主要代码 // DrawFrogView.cpp : implementation of the CDrawFrogView class //#include "stdafx.h" #include "DrawFrog.h"#include "DrawFrogDoc.h" #include "DrawFrogView.h"#includ…

MySQL的DML语句

文章目录 ☃️概述☃️DML☃️添加数据☃️更新和删除数据☃️DML的重要性 ☃️概述 MySQL 通用语法分类 ● DDL: 数据定义语言&#xff0c;用来 定义数据库对象&#xff08;数据库、表、字段&#xff09; ● DML: 数据操作语言&#xff0c;用来对数据库表中的数据进行增删改 …

【源码】人力资源管理系统hrm功能剖析及源码

eHR人力资源管理系统&#xff1a;功能强大的人力资源管理工具 随着企业规模的不断扩大和业务需求的多样化&#xff0c;传统的人力资源管理模式已无法满足现代企业的需求。eHR人力资源管理系统作为一种先进的管理工具&#xff0c;能够为企业提供高效、准确、实时的人力资源管理。…

鞋子分类数据集17399张69类别

数据集类型&#xff1a;图像分类用&#xff0c;不可用于目标检测无标注文件 数据集格式&#xff1a;仅仅包含jpg图片&#xff0c;每个类别文件夹下面存放着对应图片 图片数量(jpg文件个数)&#xff1a;17399 分类类别数&#xff1a;69 类别名称:[“0”,“1”,“2”,“3”,“4”…

使用asyncua模块的subscribe_data_change监控opcua的Server节点数据变化

报错信息如下&#xff1b; ERROR:asyncua.common.subscription:DataChange subscription created but handler has no datachange_notification method 上述报错原因在于创建监控句柄SubscriptionHandler类时&#xff0c;节点数据变化的函数名称有问题&#xff0c;不是默认的da…

复盘最近的面试

这个礼拜一直在面试&#xff0c;想着看看能否拿到不错的offer前去实习&#xff0c;从周一到周四&#xff0c;面了将近10家&#xff0c;特整理此份面经&#xff0c;希望对秋招的各位有所帮助 A公司 一面 面试官人很好&#xff0c;我回答的时候不会他会笑笑然后提醒我 自我介绍~…

Docker(三)-Docker常用命令

1.run run命令执行流程:2.帮助启动类命令 2.1 启动docker systemctl start docker2.2 停止docker systemctl stop docker2.3 重启docker systemctl restart docker2.4查看docker状态 systemctl status docker2.5开机启动 systemctl enable docker2.6查看docker概要信息 …