SD中的VAE,你不能不懂

sd,vae · 浏览次数 : 4

小编点评

变分自编码器(VAE)是一种生成模型,通过学习输入数据的潜在表示来重构输入数据。在Stable Diffusion 1.4或1.5模型中,通过VAE对模型进行部分更新,可以提升模型渲染眼睛的能力。VAE由编码器和解码器组成,编码器将输入数据映射到一个潜在空间,解码器则从这个潜在空间重构数据。使用VAE可以获得更真实的图像,尤其是在渲染眼睛和文本方面。你可以根据自己的需求选择是否使用VAE,如果对当前结果满意且不需要进一步的细节改进,那么无需使用VAE。如果追求更高的性能,可以考虑使用VAE。

正文

什么是VAE?

VAE,即变分自编码器(Variational Autoencoder),是一种生成模型,它通过学习输入数据的潜在表示来重构输入数据。

在Stable Diffusion 1.4 或 1.5 模型中,通过VAE对模型进行部分更新,以提升模型渲染眼睛的能力。通过这种更新,模型在生成图像时能够更准确地捕捉和再现眼睛的细节,从而提高整体图像的真实感和质量。

VAE 由两部分组成:编码器和解码器。编码器将输入数据映射到一个潜在空间,解码器则从这个潜在空间重构数据。

我需要VAE吗?

实际上,你无需安装 VAE 文件即可运行 Stable Diffusion,你使用的任何模型(无论是 v1、v2 还是自定义)都已具有默认 VAE。

当人们说下载和使用 VAE 时,他们指的是使用它的改进版本

当模型训练器使用其他数据进一步微调模型的 VAE 部分时,就会发生这种情况。在这种情况下,并不需要发布整个的大模型,只需要发布其中的VAE部分即可。

使用VAE有什么效果?

VAE(变分自编码器)的改进通常意味着它能够更精确地从潜在空间解码图像,尤其是在处理精细细节方面,比如眼睛和文本的渲染。

在 Stable Diffusion 模型的上下文中,改进的 VAE 解码器可以更有效地捕捉和再现图像中的微妙特征,这对于生成高质量的图像至关重要。

Stability AI 发布了两种微调的 VAE 解码器变体,分别是:

  1. EMA(指数移动平均线):这是一种统计方法,通常用于平滑时间序列数据。在机器学习中,EMA 有时用于模型参数的更新,以实现更稳定的训练过程。
  2. MSE(均方误差):这是一种常用的误差度量方式,用于衡量模型预测值与实际值之间的差异。在自动编码器的上下文中,MSE 可以作为优化目标,帮助模型学习更准确地重构输入数据。

这两种变体可能对应于不同的训练策略或目标函数,旨在优化 VAE 解码器的性能,特别是在渲染细节方面。选择哪一种变体可能取决于特定的应用场景和所需的输出质量。

使用这些微调的 VAE 解码器变体,可以期望在生成的图像中看到以下改进:

  • 更清晰的文本:文本的边缘和字母形状可以更加锐利和准确。
  • 更真实的眼睛渲染:眼睛的细节,如虹膜、瞳孔和反射,可以更加精细和逼真。

下面是一些对比的例子:

image-20240423112006132

那么应该使用哪个呢?

Stability AI 对于 256×256 分辨率图像的评估指出,使用 EMA(指数移动平均线)的 VAE 解码器生成的图像在细节上更加清晰,而使用 MSE(均方误差)的解码器生成的图像则在视觉上更为平滑。

在Stable Diffusion v1.4 和 v1.5 在 512×512 分辨率图像的测试中,可以观察到在某些情况下,尤其是在人脸在图像中占比较小的时候,眼睛的渲染质量有所提升。但是到文本渲染方面并没有太多改善。

所以总结一下,新的 VAE 更新至少不会降低模型的性能,它要么提升了渲染质量,要么保持原有水平。

EMA(指数移动平均线)和 MSE(均方误差)这两种微调的 VAE 解码器变体与 Stable Diffusion v2.0 模型是兼容的。尽管在 v2.0 版本中,它们可能带来的改进效果相对较小,因为 v2.0 本身在渲染眼睛方面已经表现得相当出色。

我应该使用 VAE 吗?

使用 VAE(变分自编码器)的决定确实取决于你对当前结果的满意度以及你对细节改进的追求程度。

  1. 如果对结果已经满意:如果你使用的应用或技术,如 CodeFormer 面部修复,已经能够达到你期望的图像质量,特别是在眼睛等细节部位,那么你可能不需要额外引入 VAE 来进一步提升效果。
  2. 追求所有可能的改进:如果你追求每一个可能的性能提升,哪怕是微小的改进,那么使用 VAE 可能是一个值得考虑的选项。

如何使用VAE?

下载

目前,Stability 发布了两个改进的 VAE 版本。以下是直接下载链接。

https://huggingface.co/stabilityai/sd-vae-ft-ema-original/resolve/main/vae-ft-ema-560000-ema-pruned.ckpt

https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.ckpt

安装

如果你用的是webUI。那么将下载的 VAE 文件放在目录中:'stablediffusion-webui/models/VAE'即可。

Linux 和 Mac OS用户

为方便起见,请在 Linux 或 Mac OS 的 stable-diffusion-webui 目录下运行以下命令,会自动下载并安装 VAE 文件。

wget https://huggingface.co/stabilityai/sd-vae-ft-ema-original/resolve/main/vae-ft-ema-560000-ema-pruned.ckpt -O models/VAE/vae-ft-ema-560000-ema-pruned.ckpt

wget https://huggingface.co/stabilityai/sd-vae-ft-mse-original/resolve/main/vae-ft-mse-840000-ema-pruned.ckpt -O models/VAE/vae-ft-mse-840000-ema-pruned.ckpt

在webUI中使用VAE

要在 AUTOMATIC1111 GUI 中使用 VAE,请单击左侧的“设置”选项卡,然后单击“VAE”部分。

SD VAE 下拉菜单中,选择要使用的 VAE 文件。

image-20240423112845339

如果你的页面没有这个选项,那么可以到设置->user interface->quick settings list中把sd_vae加上即可:

image-20240423113023470

点我查看更多精彩内容:www.flydean.com

与SD中的VAE,你不能不懂相似的内容:

SD中的VAE,你不能不懂

什么是VAE? VAE,即变分自编码器(Variational Autoencoder),是一种生成模型,它通过学习输入数据的潜在表示来重构输入数据。 在Stable Diffusion 1.4 或 1.5 模型中,通过VAE对模型进行部分更新,以提升模型渲染眼睛的能力。通过这种更新,模型在生成图像

hypernetwork在SD中是怎么工作的

大家在stable diffusion webUI中可能看到过hypernetwork这个词,那么hypernetwork到底是做什么用的呢? 简单点说,hypernetwork模型是用于修改样式的小型神经网络。 什么是 Stable Diffusion 中的hypernetwork? Hypern

Stable diffusion采样器详解

在我们使用SD web UI的过程中,有很多采样器可以选择,那么什么是采样器?它们是如何工作的?它们之间有什么区别?你应该使用哪一个?这篇文章将会给你想要的答案。

文件系统(四):FAT32文件系统实现原理

FAT32是从FAT12、FAT16发展而来,目前主要应用在移动存储设备中,比如SD卡、TF卡。隐藏的FAT文件系统现在也有被大量使用在UEFI启动分区中。 为使文章简单易读,下面内容特意隐藏了很多实现细节,关于分区、格式化等相关的内容,可以查看之前的文章: 文件系统(一):存储介质、原理与架构 文

糟了糟了,总部被SD画完都Q了,这篇深入浅出贴助你早日实现Stable Diffusion自由

想知道精致的AI插画是如何实现的吗?接下来,我将结合这个案例带你走进 Stable Diffusion 的世界,帮你系统性地了解并掌握这神奇AI绘画魔法。

痞子衡嵌入式:恩智浦i.MX RT1xxx系列MCU启动那些事(12)- 从SD/eMMC启动

大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是恩智浦i.MXRT1xxx系列MCU的SD/eMMC卡启动。 最近在恩智浦官方社区上支持了一个关于 i.MXRT 从 SD 卡启动的案例,这让痞子衡想起了一年前写过的一篇《i.MXRT600从SD/eMMC启动》,那一篇重点介绍了基于

家庭实验室系列文章-如何迁移树莓派系统到更大的 SD 卡?

前言 其实这个专题很久很久之前就想写了,但是一直因为各种原因拖着没动笔。 因为没有资格,也没有钱在一线城市买房 (😂😂😂); 但是在要结婚之前,婚房又是刚需。 我和太太最终一起在一线城市周边的某二线城市买了房。 再之后,一起装修,她负责非电相关,我负责电 网相关的装修。 家庭组网,家庭实验室就

AI 画图真刺激,手把手教你如何用 ComfyUI 来画出刺激的图

目前 AI 绘画领域的产品非常多,比如 Midjourney、Dalle3、Stability AI 等等,这些产品大体上可以分为两类: 模型与产品深度融合:比如 Midjourney、Dalle3 等等。 模型与产品分离:比如 SD Web UI、ComfyUI 等等。 对于绝大多数普通用户而言,

痞子衡嵌入式:聊聊i.MXRT1xxx上第三级启动保障 - SDMMC manufacture模式

大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是i.MXRT1xxx上第三级启动保障 - SDMMC manufacture模式。 如果你在 i.MXRT1xxx 板卡上尝试过从 SD/eMMC 卡启动,你会发现一个奇怪的现象:如果把 SD/eMMC 卡还插着(并且里面保留正常的 A

[转帖]通信圈周盘点:电信业务收入达14504亿元;新华三中国企业网交换机市场份额超三成

http://blog.itpub.net/31545813/viewspace-2930213/ 本周,1~11月电信业务收入累计完成14504亿元;新华三2022前三季度中国企业网交换机市场份额超三成;华为数通跻身2022 Gartner®魔力象限“领导者”;Aruba SD-WAN及云安全产品