在线教程|图灵奖得主Yann LeCun盛赞!小红书开源InstantID,一张原图即可定制多种风格写真

不久前,一群来自小红书的 95 后工程师联合北大团队发布了开源项目「InstantID」,只需上传一张照片,这款 AI 写真神器就能轻松定制多种风格的 AI 写真,告别繁琐修图。
InstantID 一经发布就引起了广泛关注,GitHub 收藏量达到了 9.9K,图灵奖得主 Yann LeCun 也在自己的社交账号上转发了团队以其形象生成的示例,表示支持。
图片
过去,主题驱动的文本到图像生成,通常需要在多张含有该主题(如人物、风格)的数据集上进行训练,其代表性方案包括 DreamBooth、LoRAs 等,但此类方案的高存储需求、耗时的微调过程,让很多用户望而却步,导致其无法在真实场景中得到快速应用,而 InstantID 的出现则打破了这个僵局。
在这里插入图片描述

InstantID 架构

InstantID 的工作原理主要分为三部分:
ID Embedding:通过预训练的面部识别模型,将语义人脸特征提取为 Face Embedding。该嵌入富含语义信息,如面部特征、表情、年龄等,为后续图像的生成提供坚实基础。
ImageAdapter:引入轻量级适配模块,将提取的身份信息与文本提示结合。通过解耦的交叉注意力机制,图像和文本能够独立地影响图像的生成,在保持身份信息的同时还可以对图像风格进行精细控制。
IdentityNet:它通过强语义条件(如面部特征的详细描述)和弱空间条件(如面部关键点的位置)来编码参考面部图像的复杂特征。生成过程由 Face Embedding 引导,无需文本信息,只需针对新添加的模块进行更新,保持预先训练文本到图像模型的冻结,确保灵活性。
把复杂留给代码,把简单留给用户! InstantID 不仅在技术上实现了零次个性化图像合成的突破,同时也在用户体验上也做到了极致的简洁和直观。无论你是设计小白还是艺术大师,都能在该平台上,轻松创造出个性化的图像。具体应用场景有:
多 ID 和多风格合成
InstantID 一键实现「跨国合作」!

图片

风格化合成
只需输入一张人脸照片,就能生成多种具有个性化风格的 AI 写真。

图片

逼真合成

这些图真的是合成的吗?

图片

ID 插值

还可以将杨幂和 Taylor 的形象融合。(ps:利用该功能,还可以根据父母双方面部权重,预测未来孩子长相哦!)

图片

新视角合成

一张原图+一张风格参考图=百变大咖

图片

非人像合成
人物和动物融合会发生什么?

图片

这么多风格供你挑选,小伙伴们是不是等不及来试一下啦!不要着急,HyperAI超神经已经上线了「InstantID 个性化写真生成 Demo」教程,该教程为大家搭建好了环境,点击克隆即可一键启动,快来实现你的「七十二变」吧!

公共教程地址:

https://hyper.ai/tutorials/31559

Demo 运行

  1. 登录 hyper.ai,在「教程」页面,选择「InstantID 个性化写真生成 Demo」。点击「在线运行此教程」。

图片

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。点击右下角「下一步:选择算力」。

图片

图片
3.跳转后,选择「NVIDIA GeForce RTX 4090 」,点击「下一步:审核」。新用户使用下方邀请链接注册,还可获得 4 小时 RTX 4090 + 5 小时CPU的免费算力时长!
HyperAI超神经专属邀请链接(直接复制到浏览器打开):https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

图片

4.点击「继续执行」,等待分配资源,当状态变为「运行中」后,点击「打开工作空间」。

图片

图片

5.在启动页新建一个终端会话,输入下面的命令。

cd InstantID

图片

图片

6.输入下面的命令,运行 Gradio demo。

python gradio_demo/app.py

图片

7.当命令行出现「Running on local URL: https://0.0.0.0:8080」后,拷贝右侧 API 地址到浏览器地址栏中,即可访问 InstantID 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

图片

图片

图片

效果展示

1.打开 InstantID 页面,上传人物图片,上传参考图片。其中,参考图片的作用是用来固定人物在图中的位置。

图片

2.完善下列参数调整。

在「Prompt」提示词框内写需要生成图片的关键词,通常根据初始图片来进行提示,若上传的图片是个男人,可以写 「a man」。

点击「Eable Fast Inference with LCM」选项,如果不开生成图速度会稍微慢些。

图片

「Style template」风格选择器,可完善提示词,里面有「Watercolor」水彩、「Line Art」线条风格等效果。

「IdentityNet strength (for fidelity)」人脸强度或 ID 强度,作用于初始导入的人物图,参数越高,生成的图片和该人物图越像,默认数值 0.8。

「Image adapter strength (for detail)」图片参考强度,作用于参考图,强度决定生成图片与参考图的相似度,默认数值 0.8。

图片

  • 「Advanced Options」高级参数调整。

  • 「Negative Prompt」,负面提示词,可以填一些不想最终生成图片含有的内容,比如避免低质量的词等。

  • 「Number of sample steps」、「Guidance scale」、「seed」,选择默认数值即可。

  • 「Randomize seed」随机种子,打开。

  • 「Enhance non-face region」强化非面部区域,打开后会增强风格选择器的权重。

图片

3.点击「Submit」,5 秒即可生成图片。

图片

图片

目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter Notebook 的形式。
点击链接即可搜索相关教程及数据集:https://hyper.ai/tutorials

以上就是 HyperAI超神经本次分享的全部内容了,如果大家看到优质项目,欢迎后台留言推荐给我们!另外,我们还建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~
扫码加入教程交流群

图片

若加群二维码失效,可扫描下方二维码添加神经星星微信(微信号:Hyperai01),备注「SD 教程交流群」,即可加入群聊。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/324334.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java实现的网上书店系统(附带完整源码)

作者声明:文章仅供学习交流与参考!严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者 实现技术:JSP技术;javaBean;servlet;MySql数据库。 系统功能结构图 该系统为MVC结构,它的运行环境分客户端、应用服务器端和数据库服务器端三部分 书店系统需求分析: 通过…

通用人工智能AGI,究竟是一个哲学问题还是技术问题?

引言 在探索人工智能的未来方向中,人工通用智能(AGI)的概念逐渐成为科技领域和哲学探讨的焦点。AGI旨在创建可以执行任何智能任务的机器,甚至在某些方面超越人类的能力。然而,关于AGI的研究不仅仅是技术问题&#xff…

天龙怀旧游戏python脚本

设置图: 游戏窗口最大化。 海贼洞这里定位你要回点的定位。 运行bat就行,脚本出错了还是会重新运行脚本,运行自动启动,end暂停脚本,home重新启动脚本 1. 我常用的是内挂回点脚本, 下面都是前台脚本&…

数据结构与算法学习笔记六-二叉树的顺序存储表示法和实现(C语言)

目录 前言 1.数组和结构体相关的一些知识 1.数组 2.结构体数组 3.递归遍历数组 2.二叉树的顺序存储表示法和实现 1.定义 2.初始化 3.先序遍历二叉树 4.中序遍历二叉树 5.后序遍历二叉树 6.完整代码 前言 二叉树的非递归的表示和实现。 1.数组和结构体相关的一些知…

【React】React-redux多组件间的状态传递

效果(部分完整代码在最底部): 编写 Person 组件 上面的 Count 组件,已经在前面几篇写过了,也可以直接翻到最底部看 首先我们需要在 containers 文件夹下编写 Person 组件的容器组件 首先我们需要编写 index.jsx 文件…

基于VOLOPV2的自动驾驶环境感知系统

基于VOLOPV2的自动驾驶环境感知系统是一个复杂的系统,它主要负责实时检测并识别周围环境中的各种物体和信息,为自动驾驶车辆提供必要的感知数据。以下是对该系统的一个简要介绍: 环境感知是自动驾驶系统中的一个关键部分,它依赖于…

AI代理和AgentOps生态系统的剖析

1、AI代理的构成:AI代理能够根据用户的一般性指令自行做出决策和采取行动。 主要包含四个部分: (1)大模型(LLM) (2)工具:如网络搜索、代码执行等 (3&#x…

C++学习第二十九课:C++ 输入输出流详解:从基础到高级应用

在 C 中,流(stream)是一种用于实现输入输出操作的抽象概念。流可以看作是字节的流动,这些字节可以从一个地方流向另一个地方,例如从键盘输入到程序中,或者从程序输出到屏幕。C 提供了一套完整的流库来处理各…

区块链(打新)如何被割韭菜

看上去,像我只要去每个都买一遍新发行的代币,一定可以成功的 但是好像没有想象中这么简单,因为这些山寨币,庄家可以自己控盘的,看上去好像有跌宕起伏的买卖,但是一单掀桌子,庄家他自己都不玩了…

mac 讨厌百度网盘怎么办

一、别拦我 首先请允许我泄个愤,tmd百度网盘下个1g的文件下载速度竟然超不过200k,只要不放在所有已打开软件的最前面,它就给你降到10k以内,关键是你慢就慢了,我也不是很着急,关键是你日常下载失败并且总是…

Ubuntu18.04--虚拟机配置Samba并从Windows登录

前言: 本文记录我自己在Windows上安装 Virtualbox ,并在Virtualbox中安装 Ubuntu-18.04 虚拟机,在Ubuntu-18.04虚拟机里安装配置Smaba服务器,从 Windows 宿主系统上访问虚拟机共享samba目录的配置命令。 引用: N/A 正文 虚拟…

鸿蒙OpenHarmony开发板解析:【特性配置规则】

特性 特性配置规则 下面介绍feature的声明、定义以及使用方法。 feature的声明 开发前请熟悉鸿蒙开发指导文档:gitee.com/li-shizhen-skin/harmony-os/blob/master/README.md点击或者复制转到。 在部件的bundle.json文件中通过feature_list来声明部件的feature列…

【栈】Leetcode 验证栈序列

题目讲解 946. 验证栈序列 算法讲解 在这里就只需要模拟一下这个栈的出栈顺序即可:使用一个stack,每次让pushed里面的元素入栈,如果当前栈顶的元素等于poped容器中的当前元素,因此就需要让栈顶元素出栈,poped的遍历…

W801学习笔记二十二:英语背单词学习应用——下

续上篇: W801学习笔记二十一:英语背单词学习应用——上 五、处理用户交互 由于英语也是采用了和唐诗一样的《三分钟限时挑战》《五十题竞速挑战》《零错误闯关挑战》,所以用户交互的逻辑和唐诗是一样的。所以,我们抽一个基类&a…

Java入门基础学习笔记7——Intellij IDEA开发工具概述、安装

之前的开发工具存在一些问题: 文本编辑工具:记事本、NotePad、EditPlus、Sublime...编写代码的时候没有错误提醒、没有智能代码提示、需要自己进行编译、执行、功能不够强大。 集成开发环境(IDE:Integrated Development Environm…

SQL注入(sqli-labs第一关)

sqli-labs第一关 方法一:手工注入 来到第一关,图上说我们需要一个数字的参数 于是我们先手工注入?id1 and 11 跟?id1 and 12发现页面没有报错 每张截图上面页面中有select查询语句,这是我在第一关的源码中加上了echo "$sql ";…

探索无界知识:用 ChatGPT 的原理学习任何事物!

为避免文章重复,您的文本已通过更改句式、用词以及句子结构进行了修改。现在的文本应该能更好地满足去重的需求: 从ChatGPT原理出发,我们探讨GPT如何启发人类学习和构建个人知识体系。 1. 明确学习目标 机器学习必须依靠目标函数。同样&…

408算法题专项-2019年

题目: 分析:要求空间复杂度为O(1),我们可以逆向假设可以开空间,得出一种思路,然后对这种思路优化空间即可得到O(1) 思路一:假设开空间 思考:再开…

fswatch工具:跟踪Linux中的文件和目录更改

fswatch是一个跨平台的文件更改监视器,当指定文件或目录的内容被更改或修改时,它会收到通知警报。 fswatch在不同的操作系统上执行多种类型的监视器,例如: 基于 Apple OS X 的文件系统事件 API 构建的监视器。基于kqueue的监视器…

05、Kafka 操作命令

05、Kafka 操作命令 1、主题命令 (1)创建主题 kafka-topics.sh --create --bootstrap-server 192.168.135.132:9092,192.168.135.133:9092,192.168.135.134:9092 --topic test1 --partitions 4 --replication-factor 3–bootstrap-server:…