一、任务流程
第一步——开通阿里云PAI-DSW试用
1.进入阿里云社区
阿里云社区:阿里云免费试用 - 阿里云 (aliyun.com)
2. 登录或者注册自己的阿里云账号:
3. 点击立即试用
领取成功之后关闭页面即可。
第二步——进入魔搭社区授权
魔搭社区:我的Notebook · 魔搭社区 (modelscope.cn)
第三步——报名赛事
可图Kolors-LoRA风格故事挑战赛_创新应用大赛_天池大赛-阿里云天池的赛制 (aliyun.com)
第四步——在魔搭社区创建PAI实例
创建完成之后返回魔搭社区,如下图所示,就已经绑定好实例了
二、AIGC知识介绍
我们需要安装 Data-Juicer 和 DiffSynth-Studio来执行运行环境的代码块
- Data-Juicer:数据处理和转换工具。
- DiffSynth-Studio:微调训练大模型工具。
文生图主要以SD系列基础模型为主,以及在其基础上微调的lora模型和人物基础模型等。
提示词(prompt):提示词的主要作用是引导AI理解用户的意图,并根据这个意图生成相应的内容。AI会根据提示词中的关键词和上下文信息来生成文本、图像、音频或其他形式的内容。
Lora:Stable Diffusion中的Lora(LoRA)模型是一种轻量级的微调方法,它代表了“Low-Rank Adaptation”,即低秩适应。Lora不是指单一的具体模型,而是指一类通过特定微调技术应用于基础模型的扩展应用。在Stable Diffusion这一文本到图像合成模型的框架下,Lora被用来对预训练好的大模型进行针对性优化,以实现对特定主题、风格或任务的精细化控制。
ComfyUI:ComfyUI 是一个工作流工具,主要用于简化和优化 AI 模型的配置和训练过程。通过直观的界面和集成的功能,用户可以轻松地进行模型微调、数据预处理、图像生成等任务,从而提高工作效率和生成效果。
在ComfyUI平台的前端页面上,用户可以基于节点/流程图的界面设计并执行AIGC文生图或者文生视频的pipeline。
ControlNet:ControlNet是一种用于精确控制图像生成过程的技术组件。它是一个附加到预训练的扩散模型(如Stable Diffusion模型)上的可训练神经网络模块。扩散模型通常用于从随机噪声逐渐生成图像的过程,而ControlNet的作用在于引入额外的控制信号,使得用户能够更具体地指导图像生成的各个方面(如姿势关键点、分割图、深度图、颜色等)。
三、扩散模型简介
随着人工智能技术的蓬勃发展,AIGC已逐渐成为用户实现多样化任务的得力 助手。其中,DDPM作为继GAN之后又一 主流的AIGC模型,频繁出现在各类研究文献中,其影响力可见一斑。DDPM本质 上属于扩散模型(diffusion)的范畴,不仅具备从噪声中生成图片的能力,还能对图片进行去噪处理,为图像处理领域带来了新的突破。
扩散模型通过定义一个马尔科夫过程来逐步向数据中引入随机噪声,随后,通过学习逆扩散过程,这些模型能够成功地恢复原始数据,进而从噪声中构建出所 需的数据样本。与GAN类似,DDPM在经过大量数据训练后,无需任何文本输入 即可生成高质量的图像,这一特性使其在图像生成领域展现出巨大的应用潜力。
DM的优化版本稳定扩散模型(SD)是ControlNet网络架构的基础模型,ControlNet 更进一步地在扩散模型上增加条件控制机制,例如用户可以输入草图文本等内容,使生成图像更符合用户期望。
ControlNet 通过锁定大型预训练文本到图像扩散模型的参数,并制作其编码层的可 训练副本,实现了在不改变原始模型参数的前提下引入条件控制。这种架构旨在 将大型预训练模型作为学习各种条件控制的强大支柱,并通过零卷积层连接原始 模型和可训练副本,以确保在训练初期不会引入有害噪声。