ComfyUI使用的基础模型介绍 – 张康的个人主页

ComfyUI的Base mode详细介绍:

ComfyUI 是一个基于节点的图形用户界面，旨在为 Stable Diffusion 提供直观且灵活的操作方式。在 ComfyUI 中，”Base Model” 通常指用于生成图像的基础模型，即 Stable Diffusion 的不同版本或变体。以下是常见的基础模型及其详细介绍：

1. Stable Diffusion v1.5

简介：Stable Diffusion 的早期版本，广泛应用于各种图像生成任务。
特点：支持多种风格的图像生成，兼容性强，适合初学者使用。
下载链接：Stable Diffusion v1.5

2. Stable Diffusion v2.0

简介：在 v1.5 基础上进行了改进，提升了图像质量和生成速度。
特点：采用新的文本编码器 OpenCLIP，更好地理解文本提示，支持更高的图像分辨率。
下载链接：Stable Diffusion v2.0

3. Stable Diffusion XL (SDXL)

简介：Stable Diffusion 的最新版本，进一步优化了模型性能。
特点：模型参数增至 6.6B，能够生成更高质量的图像，支持更复杂的场景和细节。
下载链接：Stable Diffusion XL

4. Flux.1

简介：由 Black Forest Labs 推出的文生图模型套件，包含多个版本。
特点：在视觉质量、图像细节方面有显著优势，如文字生成、复杂构图、人手描绘等方面表现良好。
下载链接：Flux.1 Dev

5. DreamShaper

简介：一种专注于生成梦幻风格图像的模型。
特点：能够生成具有艺术感和梦幻风格的图像，适合创意项目。
下载链接：DreamShaper

6. Anything V3

简介：专注于二次元风格图像生成的模型。
特点：适合生成动漫风格的图像，深受二次元爱好者喜爱。
下载链接：Anything V3

7. Waifu Diffusion

简介：专为生成二次元角色图像而设计的模型。
特点：擅长生成高质量的二次元角色图像，适合动漫创作。
下载链接：Waifu Diffusion

8. Protogen

简介：一种通用型图像生成模型，适用于多种风格。
特点：能够生成多种风格的图像，适合多样化的创作需求。
下载链接：Protogen

9. MeinaMix

简介：融合多种风格的图像生成模型。
特点：能够生成融合多种风格的图像，适合多元化的创作。
下载链接：MeinaMix

10. Realistic Vision

简介：专注于生成写实风格图像的模型。
特点：擅长生成高质量的写实风格图像，适合需要真实感的项目。
下载链接：Realistic Vision

在使用 ComfyUI 时，可根据具体需求选择合适的基础模型，并将其放置在 ComfyUI 的 models/checkpoints 目录下。不同的模型在图像风格、细节表现和生成速度上各有特点，建议根据项目需求进行选择。

Model types含义:

ComfyUI 使用不同类型的模型来生成图像，每种模型类型都承担不同的功能，通常可以直接放置在指定的路径下以便系统识别和调用。

1. Checkpoints (基础模型)

简介：Checkpoints 是核心的图像生成模型，用于根据文本提示生成基础图像。
功能：这些模型是整个生成过程的基础，决定了生成图像的整体风格和细节。常用的 Checkpoints 包括 Stable Diffusion 不同版本、SDXL、DreamShaper、Waifu Diffusion 等。
存放路径：ComfyUI/models/checkpoints

2. Textual Inversions (文本嵌入)

简介：Textual Inversions 是一种微调的文本嵌入，可以为 Checkpoints 增加特定的风格或语义信息。
功能：通过加载这些嵌入，可以让模型理解并生成特定的内容，如特定风格、面部表情等。常见的 Textual Inversion 包括风格化或个性化的关键词嵌入。
存放路径：ComfyUI/models/embeddings

3. Hypernetworks

简介：Hypernetworks 是一种扩展模型，可以在不改变原始模型的前提下，调整生成的风格或细节。
功能：Hypernetworks 常用于使生成图像带有独特的风格，尤其适合特定的艺术风格或细微调整需求。
存放路径：ComfyUI/models/hypernetworks

4. LoRA (Low-Rank Adaptation)

简介：LoRA 是一种微调模型的方法，通过添加少量参数来改变生成效果，适合微调模型的特定应用。
功能：可以帮助模型在保持原始 Checkpoint 的基础上进行小幅度调整，实现一些特定需求（如特定人物风格）。
存放路径：ComfyUI/models/lora

5. ControlNet Models

简介：ControlNet 是一种用于图像生成过程中的精确控制的模型。
功能：通过控制边缘、姿态等特征，可以生成更符合预期的图像，适合需要精确生成某些结构或姿势的场景。
存放路径：ComfyUI/models/controlnet

6. VAE (Variational Autoencoder)

简介：VAE 用于控制图像生成中的细节和色彩风格。
功能：通过加载不同的 VAE 模型，可以调整图像的色彩饱和度、清晰度等视觉细节，使图像的细节效果更符合需求。
存放路径：ComfyUI/models/vae

7. CLIP Models

简介：CLIP 是一种用于文本与图像之间相似性评估的模型，用于模型理解和解读文本提示。
功能：CLIP 可以帮助生成模型更好地理解复杂文本提示，使生成的图像更加符合描述。通常在更高精度的生成任务中使用。
存放路径：ComfyUI/models/clip

8. Upscalers (图像放大模型)

简介：用于生成后处理阶段，将低分辨率图像放大为高分辨率，同时保持图像清晰度。
功能：如 Real-ESRGAN 等模型，帮助提高图像分辨率，适合需要高清图像输出的场景。
存放路径：ComfyUI/models/upscale_models

9. T2I-Adapter Models

简介：T2I-Adapter 是一种辅助生成模型，用于在生成过程中提供特定的样式或形状参考。
功能：在图像生成时提供额外的控制信号，适合需要在特定形状或布局的图像生成中提供额外支持。
存放路径：ComfyUI/models/t2i_adapters

各个模型类型有不同的特点和作用，在实际使用中可以根据项目需求进行组合使用。

File format:

在 ComfyUI 中，不同的模型类型通常对应不同的文件格式，以下是各类模型常用的文件格式：

Checkpoints (基础模型)
- 文件格式：.ckpt 或 .safetensors
Textual Inversions (文本嵌入)
- 文件格式：.pt 或 .bin
Hypernetworks
- 文件格式：.pt
LoRA (Low-Rank Adaptation)
- 文件格式：.safetensors 或 .ckpt
ControlNet Models
- 文件格式：.pth 或 .pt
VAE (Variational Autoencoder)
- 文件格式：.vae.pt 或 .safetensors
CLIP Models
- 文件格式：.pt 或 .pth
Upscalers (图像放大模型)
- 文件格式：.pth
T2I-Adapter Models
- 文件格式：.pt 或 .pth

不同模型类型的文件格式不同，确保存放在 ComfyUI 的指定文件夹路径中，并使用正确的文件格式以便被系统识别。