在 Stable Diffusion 中,不同的模型(Checkpoint)具有不同的功能和生成风格。它们的区别主要体现在以下几个方面:
1. 基础模型(Base Model)
官方核心模型
模型名称 | 特点 | 适用场景 |
---|---|---|
SD 1.4/1.5 | - 最早的通用模型 - 兼容性强,插件生态丰富 | 通用创作、LoRA/ControlNet 扩展 |
SD 2.0/2.1 | - 支持更高分辨率(768x768) - 去除了 NSFW 内容限制 | 需要高分辨率的场景 |
SDXL 1.0 | - 更高分辨率(1024x1024+) - 更复杂的模型架构 | 商业级图像生成、细节要求高的场景 |
对比总结
-
SD 1.5:社区支持最多,插件兼容性最佳。
-
SDXL:生成质量更高,但需要更强硬件(显存 ≥8GB)。
2. 微调模型(Fine-Tuned Model)
按风格分类
模型类型 | 代表模型 | 特点 |
---|---|---|
动漫风格 | Anything V5、Counterfeit V3 | 专攻二次元角色、场景 |
写实风格 | Realistic Vision、Deliberate | 生成照片级人像、物体 |
艺术风格 | DreamShaper、Rev Animated | 模仿油画、水彩等艺术流派 |
科幻风格 | CyberRealistic、Protogen | 赛博朋克、机甲、未来场景 |
按功能分类
模型类型 | 代表模型 | 特点 |
---|---|---|
高分辨率模型 | SDXL Refiner | 与 SDXL 配合使用,优化细节 |
轻量模型 | TinySD | 压缩版模型,适合低显存设备(如移动端) |
3. 适配模型(Adapter Model)
轻量级扩展模型
类型 | 功能 | 文件格式 |
---|---|---|
LoRA | 通过小模型修改风格/细节(如服装、画风) | .safetensors |
Textual Inversion | 通过关键词嵌入特定概念(如角色、物体) | .pt |
ControlNet | 控制生成过程(姿势、边缘、深度等) | .pth /.safetensors |
特点对比
-
LoRA:灵活性强,可叠加多个使用。
-
Textual Inversion:仅需关键词触发,不修改模型权重。
-
ControlNet:精确控制构图,但显存占用较高。
4. 模型格式区别
格式 | 特点 |
---|---|
.ckpt | PyTorch 标准格式,可能包含潜在风险代码(需谨慎下载) |
.safetensors | 安全格式,不包含可执行代码,推荐使用 |
.pt | 通常用于 Textual Inversion 或小型适配模型 |
5. 模型选择指南
根据需求选择
-
通用创作:SD 1.5 + LoRA(兼容性强,资源丰富)。
-
高分辨率/商业用途:SDXL 1.0 + Refiner。
-
动漫创作:Anything V5 + 动漫专用 LoRA。
-
写实人像:Realistic Vision + ADetailer 插件。
-
硬件限制:TinySD 或 显存优化版模型(如
--medvram
模式)。
根据硬件选择
-
显存 ≤6GB:SD 1.5 + 512x512 分辨率。
-
显存 8-12GB:SDXL(1024x1024)。
-
显存 ≥16GB:SDXL + ControlNet 多条件控制。
6. 多模型协作示例
# 生成流程示例 基础模型 = "sd_xl_base_1.0.safetensors" LoRA模型 = "anime_style_v3.safetensors" ControlNet模型 = "control_v11p_sd15_openpose.safetensors"生成结果 = 基础模型.load() \.apply_lora(LoRA模型, weight=0.7) \.apply_controlnet(ControlNet模型, input_pose_image)
总结
-
基础模型:决定生成的基本能力和风格方向。
-
微调模型:针对特定领域优化,需按需选择。
-
适配模型(LoRA/ControlNet):扩展功能,实现精细控制。
选择模型时需平衡 生成质量、硬件需求、灵活性,建议从 SD 1.5 生态入门,逐步过渡到 SDXL 和高级控制技术。