Datawhale AI夏令营第四期 | AIGC文生图——可图Kolors-LoRA风格故事 Task1笔记

Hi,大家好,我是半亩花海。最近在尝试学习AIGC的内容,并报名参加了Datawhale举办的2024年AI第四期夏令营,主要学习内容是从零入门AI生图原理和实践。本次活动基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”进而开展的项目实践学习,很适合像我这样的想入门并实践AIGC文生图的初学者参与。


一、项目解读

1. 官方教程:Task 1 从零入门AI生图原理&实践

2. 项目任务:

  • 在可图Kolors模型的基础上训练LoRA模型,生成无限风格,如水墨画风格、水彩风格、赛博朋克风格、日漫风格......
  • 基于 LoRA 模型生成8张图片组成连贯故事,故事内容可自定义;基于8图故事,评估LoRA风格的美感度及连贯性

样例:偶像少女养成日记(如下图所示)


二、文生图

2.1 文生图的历史

文生图(Text-to-Image Generation)是一种通过文本生成图像的技术,其发展历程可以追溯到早期的计算机视觉和自然语言处理研究。这一技术的历史可以分为几个关键阶段:

  • 早期探索(20世纪60年代-20世纪90年代)
  • 基于统计模型的方法(2000年代)
  • 深度学习的崛起(2010年代)
  • 大规模预训练模型(2020年代)

2.2 文生图的基础知识介绍

文生图主要以 SD 系列基础模型为主,以及在其基础上微调的 LoRA 模型和人物基础模型等。

  • 提示词:一般写法为主体描述,细节描述,修饰词,艺术风格,艺术家
  • LoRA:Low-Rank Adaptation,低秩适应,轻量级的微调方法,被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
  • ComfyUI:是一个工作流工具,主要通过直观的界面和集成实现AI模型配置和训练过程的简化和优化
  • 参考图控制:ControlNet 是一种用于精确控制图像生成过程的技术组件,通过引入额外的控制信号,用户能更具体地指导图像生成的各方面(如姿势关键点、分割图、深度图、颜色等)。

三、跑通baseline

3.1 搭建代码平台

链接:阿里云免费试用 - 阿里云 (aliyun.com)。

1. 开通阿里云PAI-DSW免费试用

  • 新用户需要先注册,再绑定阿里云账号
  • 新用户还需要完成阿里云账号的实名认证

按照下面的步骤开通PAI-DSW试用,即可获得5000算力时且有效期3个月,如下所示即可。

2. 授权魔搭社区

链接:我的Notebook · 魔搭社区。

按操作正常进行至如下图即可(如果这一步授权失败,可跳过此步骤,继续往下进行)。

3. 报名赛事

赛事链接:可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制。

点击报名参赛,则报名成功,再自己组个队即可。

4. 在魔搭社区创建PAI实例

链接:我的Notebook · 魔搭社区。

接下来我们便可以在ModelScope里面创建实例。如果在上一步授权失败,可到阿里云控制台创建 并打开实例,具体步骤详见下方步骤。

打开实例之后 ,出现下面右侧的界面即为打开实例成功: 

点击 Terminal,可以进入终端/命令行,如下所示。

3.2 半小时体验一站式baseline

1. 下载baseline文件

git lfs install
git clone https://www.modelscope.cn/datasets/maochase/kolors.git

2. 打开baseline文件

3. 安装环境并重启kernel

!pip install simple-aesthetics-predictor!pip install -v -e data-juicer!pip uninstall pytorch-lightning -y
!pip install peft lightning pandas torchvision!pip install -e DiffSynth-Studio

安装 Data-Juicer 和 DiffSynth-Studio。

  • Data-Juicer:数据处理和转换工具,旨在简化数据的提取、转换和加载过程
  • DiffSynth-Studio:高效微调训练大模型工具

环境安装完成后,点击下面这个按钮(restart the kernel)进行重启。 

4. 调整prompt并设置图片风格及描述可选

  • 正向描述词:你想要生成的图片应该包含的内容
  • 反向提示词:你不希望生成的图片的内容

5. 运行代码+获得图片

下面的代码块按照功能主要分成这几类(完整代码见最后)

  • 使用Data-Juicer处理数据,整理训练数据文件
  • 使用DiffSynth-Studio在基础模型上,使用前面整理好的数据文件进行训练微调
  • 加载训练微调后的模型
  • 使用微调后的模型,生成用户指定的prompt提示词的图片

3.5 将微调结果上传魔搭

链接:模型创建 · 魔搭社区。

1. 移动结果文件

新建 Terminal(File→New→Terminal),粘贴如下命令,回车执行。

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

2. 下载结果文件

双击进入output文件夹,分别下载两个文件到本地。

3. 创建并上传模型

点击魔搭链接,创建模型,英文名称建议格式:xxx-LoRA中文名称建议格式队伍名称-可图Kolors训练-xxx

这样就算创建完成并发布在创空间讨论区了。此外,我们也可以来到创空间,查看自己的模型是否发布进入专区→模型→(输入账号名)

3.6 关闭PAI实例

链接:我的Notebook · 魔搭社区。

运行完成后,别忘了回到魔搭,【关闭】实例,否则会一直消耗你的试用额度。每小时消耗大概7个试用额度(总共5000个,有效期三个月)。


四、完整代码(汇总版)

代码其实baseline文件里就有,这里再放一下保持文章的完整性。

4.1 安装Data-Juicer 和 DiffSynth-Studio

!pip install simple-aesthetics-predictor!pip install -v -e data-juicer!pip uninstall pytorch-lightning -y
!pip install peft lightning pandas torchvision!pip install -e DiffSynth-Studio

重启 Notebook kernel:找到 “restart the kernel” 这个按钮即可。

4.2 下载数据集

1. 加载并缓存数据集(lowres_anime)的训练部分

from modelscope.msdatasets import MsDatasetds = MsDataset.load('AI-ModelScope/lowres_anime',subset_name='default',split='train',cache_dir="/mnt/workspace/kolors/data"
)

2. 保存数据集中的图片及元数据

import json, os
from data_juicer.utils.mm_utils import SpecialTokens
from tqdm import tqdmos.makedirs("./data/lora_dataset/train", exist_ok=True)
os.makedirs("./data/data-juicer/input", exist_ok=True)
with open("./data/data-juicer/input/metadata.jsonl", "w") as f:for data_id, data in enumerate(tqdm(ds)):image = data["image"].convert("RGB")image.save(f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg")metadata = {"text": "二次元", "image": [f"/mnt/workspace/kolors/data/lora_dataset/train/{data_id}.jpg"]}f.write(json.dumps(metadata))f.write("\n")

4.3 数据处理

1. 使用 data-juicer 处理数据

data_juicer_config = """
# global parameters
project_name: 'data-process'
dataset_path: './data/data-juicer/input/metadata.jsonl'  # path to your dataset directory or file
np: 4  # number of subprocess to process your datasettext_keys: 'text'
image_key: 'image'
image_special_token: '<__dj__image>'export_path: './data/data-juicer/output/result.jsonl'# process schedule
# a list of several process operators with their arguments
process:- image_shape_filter:min_width: 1024min_height: 1024any_or_all: any- image_aspect_ratio_filter:min_ratio: 0.5max_ratio: 2.0any_or_all: any
"""
with open("data/data-juicer/data_juicer_config.yaml", "w") as file:file.write(data_juicer_config.strip())!dj-process --config data/data-juicer/data_juicer_config.yaml

2. 保存处理好的数据

import pandas as pd
import os, json
from PIL import Image
from tqdm import tqdmtexts, file_names = [], []
os.makedirs("./data/lora_dataset_processed/train", exist_ok=True)
with open("./data/data-juicer/output/result.jsonl", "r") as file:for data_id, data in enumerate(tqdm(file.readlines())):data = json.loads(data)text = data["text"]texts.append(text)image = Image.open(data["image"][0])image_path = f"./data/lora_dataset_processed/train/{data_id}.jpg"image.save(image_path)file_names.append(f"{data_id}.jpg")
data_frame = pd.DataFrame()
data_frame["file_name"] = file_names
data_frame["text"] = texts
data_frame.to_csv("./data/lora_dataset_processed/train/metadata.csv", index=False, encoding="utf-8-sig")
data_frame

4.4 训练模型 

1. 下载模型

from diffsynth import download_modelsdownload_models(["Kolors", "SDXL-vae-fp16-fix"])

2. 查看训练脚本的输入参数

!python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py -h

3. 开始训练

提示:

  • 在训练命令中填入 --modelscope_model_id xxxxx 以及 --modelscope_access_token xxxxx 后,训练程序会在结束时自动上传模型到 ModelScope
  • 部分参数可根据实际需求调整,例如 lora_rank 可以控制 LoRA 模型的参数量
import oscmd = """
python DiffSynth-Studio/examples/train/kolors/train_kolors_lora.py \--pretrained_unet_path models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors \--pretrained_text_encoder_path models/kolors/Kolors/text_encoder \--pretrained_fp16_vae_path models/sdxl-vae-fp16-fix/diffusion_pytorch_model.safetensors \--lora_rank 16 \--lora_alpha 4.0 \--dataset_path data/lora_dataset_processed \--output_path ./models \--max_epochs 1 \--center_crop \--use_gradient_checkpointing \--precision "16-mixed"
""".strip()os.system(cmd)

4. 加载模型

from diffsynth import ModelManager, SDXLImagePipeline
from peft import LoraConfig, inject_adapter_in_model
import torchdef load_lora(model, lora_rank, lora_alpha, lora_path):lora_config = LoraConfig(r=lora_rank,lora_alpha=lora_alpha,init_lora_weights="gaussian",target_modules=["to_q", "to_k", "to_v", "to_out"],)model = inject_adapter_in_model(lora_config, model)state_dict = torch.load(lora_path, map_location="cpu")model.load_state_dict(state_dict, strict=False)return model# Load models
model_manager = ModelManager(torch_dtype=torch.float16, device="cuda",file_path_list=["models/kolors/Kolors/text_encoder","models/kolors/Kolors/unet/diffusion_pytorch_model.safetensors","models/kolors/Kolors/vae/diffusion_pytorch_model.safetensors"])
pipe = SDXLImagePipeline.from_model_manager(model_manager)# Load LoRA
pipe.unet = load_lora(pipe.unet,lora_rank=16, # This parameter should be consistent with that in your training script.lora_alpha=2.0, # lora_alpha can control the weight of LoRA.lora_path="models/lightning_logs/version_0/checkpoints/epoch=0-step=500.ckpt"
)

5. 生成图像

torch.manual_seed(0)
image = pipe(prompt="二次元,一个紫色短发小女孩,在家中沙发上坐着,双手托着腮,很无聊,全身,粉色连衣裙",negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",cfg_scale=4,num_inference_steps=50, height=1024, width=1024,
)
image.save("1.jpg")
torch.manual_seed(1)
image = pipe(prompt="二次元,日系动漫,演唱会的观众席,人山人海,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席,舞台上衣着华丽的歌星们在唱歌",negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",cfg_scale=4,num_inference_steps=50, height=1024, width=1024,
)
image.save("2.jpg")
torch.manual_seed(2)
image = pipe(prompt="二次元,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙坐在演唱会的观众席,露出憧憬的神情",negative_prompt="丑陋、变形、嘈杂、模糊、低对比度,色情擦边",cfg_scale=4,num_inference_steps=50, height=1024, width=1024,
)
image.save("3.jpg")
torch.manual_seed(5)
image = pipe(prompt="二次元,一个紫色短发小女孩穿着粉色吊带漏肩连衣裙,对着流星许愿,闭着眼睛,十指交叉,侧面",negative_prompt="丑陋、变形、嘈杂、模糊、低对比度,扭曲的手指,多余的手指",cfg_scale=4,num_inference_steps=50, height=1024, width=1024,
)
image.save("4.jpg")
torch.manual_seed(0)
image = pipe(prompt="二次元,一个紫色中等长度头发小女孩穿着粉色吊带漏肩连衣裙,在练习室练习唱歌",negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",cfg_scale=4,num_inference_steps=50, height=1024, width=1024,
)
image.save("5.jpg")
torch.manual_seed(1)
image = pipe(prompt="二次元,一个紫色长发小女孩穿着粉色吊带漏肩连衣裙,在练习室练习唱歌,手持话筒",negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",cfg_scale=4,num_inference_steps=50, height=1024, width=1024,
)
image.save("6.jpg")
torch.manual_seed(7)
image = pipe(prompt="二次元,紫色长发少女,穿着黑色连衣裙,试衣间,心情忐忑",negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",cfg_scale=4,num_inference_steps=50, height=1024, width=1024,
)
image.save("7.jpg")
torch.manual_seed(0)
image = pipe(prompt="二次元,紫色长发少女,穿着黑色礼服,连衣裙,在台上唱歌",negative_prompt="丑陋、变形、嘈杂、模糊、低对比度",cfg_scale=4,num_inference_steps=50, height=1024, width=1024,
)
image.save("8.jpg")
import numpy as np
from PIL import Imageimages = [np.array(Image.open(f"{i}.jpg")) for i in range(1, 9)]
image = np.concatenate([np.concatenate(images[0:2], axis=1),np.concatenate(images[2:4], axis=1),np.concatenate(images[4:6], axis=1),np.concatenate(images[6:8], axis=1),
], axis=0)
image = Image.fromarray(image).resize((1024, 2048))
image

4.5 将微调结果上传魔搭

链接:模型创建 · 魔搭社区

移动结果文件:新建 Terminal(File→New→Terminal),粘贴如下命令,回车执行。

mkdir /mnt/workspace/kolors/output & cd 
cp /mnt/workspace/kolors/models/lightning_logs/version_0/checkpoints/epoch\=0-step\=500.ckpt /mnt/workspace/kolors/output/
cp /mnt/workspace/kolors/1.jpg /mnt/workspace/kolors/output/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/395768.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【最新】推荐6款论文ai写论文软件推荐网站平台

在当前的学术研究和写作环境中&#xff0c;AI写作工具已经成为许多学者和学生的重要助手。这些工具不仅能够提高写作效率&#xff0c;还能帮助优化文章结构、润色语言以及进行查重等任务。以下将推荐六款优秀的AI写论文软件&#xff0c;并详细介绍它们的功能和特点。 1. 千笔-…

C语言 ——— 学习并使用memset函数

目录 memset函数的功能 学习memset函数​编辑 使用memset函数 memset函数的功能 memset函数是内存设置函数&#xff0c;将数据设置成传递的参数&#xff0c;以字节来设置 学习memset函数 函数的参数&#xff1a; void* ptr&#xff1a;数据要设置的起始位置的指针 int …

【代码随想录】区间和——前缀和方法

本博文为《代码随想录》学习笔记&#xff0c;原文链接&#xff1a;代码随想录 题目 原题链接&#xff1a;58. 区间和&#xff08;第九期模拟笔试&#xff09; 题目描述 给定一个整数数组 Array&#xff0c;请计算该数组在每个指定区间内元素的总和。 输入描述 第一行输入为…

VS /PROFILE(性能工具探查器)的使用

/PROFILE&#xff08;性能工具探查器&#xff09; 在 Visual Studio 开发环境中设置此链接器选项 打开项目的“属性页” 对话框。 有关详细信息&#xff0c;请参阅在 Visual Studio 中设置 C 编译器和生成属性。 选择“配置属性”>“链接器”>“高级”属性页。 修改配…

动态规划之——背包DP(完结篇)

文章目录 概要说明分组背包模板例题1思路code模板例题2思路code 有依赖的背包问题模板例题思路code 背包问题求方案数模板例题思路code 背包问题求具体方案模板例题思路code 概要说明 本文讲分组背包、有依赖的背包、 背包问题求方案数以及背包问题求具体方案 入门篇(01背包和…

STM32G070KBT6的RTC HAL库使用

*配置问题 首先使能时钟源&#xff0c;这里在时钟配置中选择LSI&#xff0c;为什么后面会说&#xff0c;然后使能Calender结构体&#xff0c;保证可以对RTC的年月日时分秒等进行写入和读取&#xff1b;alarmA和alarmB是闹钟&#xff0c;这里不用就Disable&#xff1b; Tam…

ShardingSphere之ShardingProxy集群部署

文章目录 介绍使用Zookeeper进行集群部署统一ShardingJDBC和ShardingProxy配置通过Zookeeper注册中心同步配置直接使用ShardingProxy提供的JDBC驱动读取配置文件 介绍 开发者手册 在conf/server.yaml配置文件中有下面这一段配置&#xff0c;就是关于集群部署的 mode: # typ…

极狐GitLab CICD Catalog Beta 功能介绍

极狐GitLab 是 GitLab 在中国的发行版&#xff0c;专门面向中国程序员和企业提供企业级一体化 DevOps 平台&#xff0c;用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规&#xff0c;而且所有的操作都是在一个平台上进行&#xff0c;省事省心省钱。可以一键安装极狐GitL…

视觉SLAM中的数学基础01 -3D空间的位置表示

在视觉SLAM中&#xff0c;理解和表示3D空间中的位置是至关重要的。这涉及到多种数学概念和工具&#xff0c;如坐标系、向量、矩阵、旋转和平移等。这些数学基础构成了视觉SLAM算法的核心。以下是3D空间位置表示的基本数学概念。 这是一个表示世界坐标系和相机坐标系之间关系的3…

JNPF快速开发平台赋能数字办公方式转变

随着信息技术的飞速发展&#xff0c;数字化转型已成为各行各业提升效率、优化流程的重要手段。JNPF快速开发平台正是在这样的背景下应运而生&#xff0c;它通过简化开发流程&#xff0c;使得非技术人员也能参与到应用的构建中来&#xff0c;从而加速了数字办公方式的转变。 数字…

畅捷通基于Flink的实时数仓落地实践

摘要&#xff1a;本文整理自畅捷通总架构师、阿里云MVP专家郑芸老师在 Flink Forward Asia 2023 中闭门会上的分享。内容主要为以下四部分&#xff1a; 业务背景数仓建设具体案例未来展望 一、业务背景 畅捷通是用友旗下成员企业&#xff0c;一直持续专注于小微企业的数字化转…

4K YouTube to MP3 Pro:跨平台音频提取与转换的好用工具

4K YouTube to MP3 Pro是一款专为追求高品质音频体验的用户设计的跨平台&#xff08;支持Mac与Windows&#xff09;音频提取与转换软件。该软件以其卓越的音频提取能力和简便的操作流程&#xff0c;在同类产品中脱颖而出&#xff0c;成为众多用户的心头好。 功能强大&#xff…

AI革新3D建模:Stable Fast 3D工具的高效应用——图片快速生成3D模型

在3D建模领域,AI技术的介入正引发一场革命。Stable Diffusion(SD)的最新应用——Stable Fast 3D,为快速生成3D模型提供了一个强大的解决方案。以下是对这项技术及其应用的详细介绍和优化建议。 一、工具概览 Stable Fast 3D模型:这是一个基于AI的3D模型生成工具,可通过H…

社交电商系统:技术融合与商业创新

一、引言 随着社交平台的普及和电商系统的不断发展&#xff0c;社交电商系统作为一种新型的商业模式应运而生。这种模式结合了传统电子商务和社交媒体的优势&#xff0c;为消费者和商家提供了一个全新的购物和销售环境。本文将深入探讨社交电商系统的技术架构、主要模式、优势以…

每日学术速递8.8

1.Rethinking temporal self-similarity for repetitive action counting 标题&#xff1a;重新思考重复动作计数的时间自相似性 作者&#xff1a; Yanan Luo, Jinhui Yi, Yazan Abu Farha, Moritz Wolter, Juergen Gall 文章链接&#xff1a;https://arxiv.org/abs/2407.09…

LVS(Linux Virtual Server)详解

LVS&#xff08;Linux Virtual Server&#xff09;是一个用于负载均衡的开源软件项目&#xff0c;旨在通过集群技术实现高性能、高可用的服务器系统。它运行在Linux操作系统上&#xff0c;并且可以利用内核级的资源来提高性能和稳定性。 思维导图 LVS的工作原理 LVS主要基于Ne…

【树的遍历】

题目 代码 #include<bits/stdc.h> using namespace std;const int N 40;int in[N], pos[N]; //中序、后序 int idx[N]; //中序的值->索引 unordered_map<int, int> l, r; //根节点的左、右树根节点 int n; int build(int il, int ir, int pl, int pr) {int ro…

vite + tsc 打包报TS类型错误问题及解决方法

当新建vue3项目&#xff0c;package.json文件会自动添加一些配置选项&#xff0c; 这些选项基本没有问题&#xff0c;但是在实际操作过程中&#xff0c;列举一个目前我遇到的一个问题&#xff1a;打包后报了一堆TS类型错误&#xff0c;怎么消除这些错误&#xff1f; 报错信息&a…

ubuntu20从docker安装到制作自己的镜像使用记录

ubuntu20从docker安装到制作自己的镜像使用记录 第一章&#xff1a;配置环境 1.ubuntu20 2.docker镜像18.04 3.参考&#xff1a;https://www.runoob.com/docker/docker-tutorial.html 第二章&#xff1a;安装docker 一、安装docker 参考1&#xff1a;Ubuntu安装docker并运…

Go语言编程大全,web微服务数据库十大专题精讲

本课程主要从数据结构、Go Module 依赖管理、IO编程、数据库编程、消息队列、加密技术与网络安全、爬虫与反爬虫、web开发、微服务通用技术、Kitex框架等方面讲解~ 链接&#xff1a;https://pan.quark.cn/s/d65337a0e60d