关于 KL 散度和变分推断的 ELBO

kl,elbo · 浏览次数 : 0

小编点评

本文介绍了KL 散度及其在变分推断中的应用。首先,KL 散度是一种衡量两个概率分布之间非对称性差异的概念,具有非负性、不对称性和不满足三角不等式等性质。其次,变分下界(ELBO)是变分推断中的一个重要概念,用于近似难以直接计算的量,如互信息或其他后验分布。最后,本文探讨了KL 散度在skill discovery和变分自编码器(VAE)中的应用,包括设计了相应的loss function,并给出了相关的参考资料。 1. **KL 散度介绍**: - KL 散度是非负的,用于衡量两个概率分布之间的非对称性差异。 - 具有非负性、不对称性和不满足三角不等式等性质。 2. **变分下界(ELBO)**: - 变分下界是变分推断中的一个概念,用于近似难以直接计算的量。 - 通过最大化KL 散度的下界来间接最小化KL 散度。 3. **KL 散度在skill discovery中的应用**: - skill discovery是一种无奖励的在线RL任务,通过无监督方法学习覆盖状态空间的技能。 - 通过最大化skill z和state s的互信息来鼓励学到多样的技能和覆盖整个状态空间。 4. **KL 散度在VAE中的应用**: - VAE是一种生成模型,可以基于一些潜在变量来生成数据。 - VAE的损失函数包括编码器部分的KL 散度最小化和解码器部分的样本重构损失。 总的来说,KL 散度作为衡量概率分布差异的重要工具,在变分推断中发挥着关键作用,尤其在skill discovery和VAE等领域有着广泛的应用。

正文


01 KL 散度

Kullback-Leibler (KL) 散度,是一种描述 一个概率分布 \(P\) 相对于另一个概率分布 \(Q\) 的非对称性差异的概念。

KL 散度是非负的;当且仅当两个分布相同时,它为零。

1.1 定义

对于离散概率分布,\(P\)\(Q\) 的 KL 散度定义为:

\[\text{KL}(P \| Q) = \sum_{\mathbf{x}} P(\mathbf{x}) \log \frac{P(\mathbf{x})}{Q(\mathbf{x})} \]

对于连续概率分布,定义为:

\[\text{KL}(P \| Q) = \int p(\mathbf{x}) \log \frac{p(\mathbf{x})}{q(\mathbf{x})} d\mathbf{x} \]

其中,\(p(\mathbf{x})\)\(P\) 的概率密度函数,\(q(\mathbf{x})\)\(Q\) 的概率密度函数。

1.2 性质

  1. 非负性:KL 散度总是非负的,\(\text{KL}(P \| Q) \geq 0\)
  2. 不对称性:KL 散度不是对称的,即 \(\text{KL}(P \| Q) \neq \text{KL}(Q \| P)\)
  3. 零点:当 \(P\)\(Q\) 完全相同时,\(\text{KL}(P \| Q) = 0\)
  4. 不满足三角不等式:KL 散度不满足传统意义上的三角不等式。

1.3 变分推断中的 KL 散度

在变分推断中,KL 散度用于衡量一个变分分布 \(q(\mathbf{z}|\mathbf{x})\) 与真实后验分布 \(p(\mathbf{z}|\mathbf{x})\) 之间的差异,即:

\[\text{KL}\big(q(\mathbf{z}|\mathbf{x}) ~\|~ p(\mathbf{z}|\mathbf{x})\big) \]

通过最小化这个差异,我们可以得到一个对后验分布 \(p(\mathbf{z}|\mathbf{x})\) 的良好近似。

  • 先验:没有任何信息,先猜一波 latent 分布, \(p(\mathbf{z})\)
  • 后验:给定结果,猜猜我是基于什么 latent 做的, \(p(\mathbf{z}|\mathbf{x})\)

然而,直接最小化 KL 散度可能很困难,因为它涉及到对真实后验分布 \(p(\mathbf{z}|\mathbf{x})\) 的直接计算。变分下界(如 ELBO)提供了一种通过下界来间接最小化 KL 散度的方法,使得优化过程更加可行。

02 变分下界(证据下界 Evidence Lower Bound, ELBO)

变分下界(Variational Lower Bound)是变分推断中的一个概念。在复杂概率模型中,ELBO 用于近似难以直接计算的量,如互信息或其他后验分布。

2.1 变分下界的含义

在变分推断中,我们通常有一个复杂的概率模型,它包含观测数据 \(\mathbf{x}\) 和一些隐变量 \(\mathbf{z}\)。我们希望找到隐变量的后验分布 \(p(\mathbf{z}|\mathbf{x})\),比如给定轨迹 \(\mathbf{x}\) 后,该轨迹对应的 task \(\mathbf{z}\) 的分布。

由于计算复杂性,这个分布往往难以直接计算。变分下界提供了一种近似后验分布的方法,通过优化一个简化的变分分布 \(q(\mathbf{z})\)

变分下界基于 Kullback-Leibler (KL) 散度的概念,KL 散度衡量了两个概率分布之间的差异。

在变分推断中,我们希望找到 \(q(\mathbf{z}|\mathbf{x})\),使得它与真实后验分布 \(p(\mathbf{z}|\mathbf{x})\) 尽可能接近:最小化它们之间的 KL 散度:

\[\text{KL}\big(q(\mathbf{z}|\mathbf{x}) ~\|~ p(\mathbf{z}|\mathbf{x})\big) = \int_\mathbf{z} q(\mathbf{z}|\mathbf{x}) \log \frac{q(\mathbf{z}|\mathbf{x})}{p(\mathbf{z}|\mathbf{x})} d\mathbf{z} \]

然而,直接最小化 KL 散度可能很困难,因为它涉及到对 \(p(\mathbf{z}|\mathbf{x})\) 的直接计算。变分下界提供了间接最小化 KL 散度的方法,通过最大化 KL 散度的下界。

我们考察两个后验概率分布的 KL 散度,得到:

\[\text{KL}(q(\mathbf{z}|\mathbf{x})~\|~p(\mathbf{z}|\mathbf{x})) = \log p(\mathbf{x}) + \text{KL}\big(q(\mathbf{z}|\mathbf{x})~||~p(\mathbf{z})\big) - \mathbb{E}_{\mathbf{z}\sim q(\mathbf{z}|\mathbf{x})} \big[\log p(\mathbf{x}|\mathbf{z})\big] \]

  • 该式的证明:按定义写一遍,然后只对概率分布 p 用贝叶斯公式变换一下, \(p(\mathbf{x},\mathbf{z})=p(\mathbf{z})p(\mathbf{x}|\mathbf{z})=p(\mathbf{x})p(\mathbf{z}|\mathbf{x})\) ,即可发现该式正确)

  • 贴一个证明:

  • \[\begin{aligned} &D_{\mathrm{KL}}(q_{\phi}(\mathbf{z}|\mathbf{x})\|p_{\theta}(\mathbf{z}|\mathbf{x})) \\ &=\int q_\phi(\mathbf{z}|\mathbf{x})\log\frac{q_\phi(\mathbf{z}|\mathbf{x})}{p_\theta(\mathbf{z}|\mathbf{x})}d\mathbf{z} \\ &=\int q_\phi(\mathbf{z}|\mathbf{x})\log\frac{q_\phi(\mathbf{z}|\mathbf{x})p_\theta(\mathbf{x})}{p_\theta(\mathbf{z},\mathbf{x})}d\mathbf{z}& ;\mathrm{Because~}p(z|x)=p(z,x)/p(x) \\ &=\int q_\phi(\mathbf{z}|\mathbf{x})\big(\log p_\theta(\mathbf{x})+\log\frac{q_\phi(\mathbf{z}|\mathbf{x})}{p_\theta(\mathbf{z},\mathbf{x})}\big)d\mathbf{z} \\ &=\log p_\theta(\mathbf{x})+\int q_\phi(\mathbf{z}|\mathbf{x})\log\frac{q_\phi(\mathbf{z}|\mathbf{x})}{p_\theta(\mathbf{z},\mathbf{x})}d\mathbf{z}& ;\mathrm{Because~}\int q(z|x)dz=1 \\ &=\log p_\theta(\mathbf{x})+\int q_\phi(\mathbf{z}|\mathbf{x})\log\frac{q_\phi(\mathbf{z}|\mathbf{x})}{p_\theta(\mathbf{x}|\mathbf{z})p_\theta(\mathbf{z})}d\mathbf{z}& ;\mathrm{Because~}p(z,x)=p(x|z)p(z) \\ &=\log p_\theta(\mathbf{x})+\mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z}|\mathbf{x})}[\log\frac{q_\phi(\mathbf{z}|\mathbf{x})}{p_\theta(\mathbf{z})}-\log p_\theta(\mathbf{x}|\mathbf{z})] \\ &=\log p_\theta(\mathbf{x})+D_{\mathrm{KL}}(q_\phi(\mathbf{z}|\mathbf{x})\|p_\theta(\mathbf{z}))-\mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z}|\mathbf{x})}\log p_\theta(\mathbf{x}|\mathbf{z}) \end{aligned} \]

现在,重新排列等式的左右两侧,得到

\[\log p(\mathbf{x}) - \text{KL}\big(q(\mathbf{z}|\mathbf{x})~\|~p(\mathbf{z}|\mathbf{x})\big) = \mathbb{E}_{\mathbf{z}\sim q(\mathbf{z}|\mathbf{x})} \big[\log p(\mathbf{x}|\mathbf{z})\big] - \text{KL}\big(q(\mathbf{z}|\mathbf{x})~\|~p(\mathbf{z})\big) \]

为了最小化 KL 散度,我们希望最大化 上式的 RHS 】:

  • 第一项,最大化 \(\mathbb{E}_{\mathbf{z}\sim q(\mathbf{z}|\mathbf{x})}[\log p(\mathbf{x}|\mathbf{z})]\) ,相当于最大化 \(p(\mathbf{x}|\mathbf{z})\) 的 log likelihood,希望学到变分分布 \(q(\mathbf{z}|\mathbf{x})\) ,使得在 \(\mathbf{z}\) 下生成的 \(\mathbf{x}\) ,更符合我们观测到的 \(\mathbf{x}\) 数据;
  • 第二项,最小化 \(\text{KL}(q(\mathbf{z|x})~\|~p(\mathbf{z}))\) ,意味着我们希望变分分布 \(q\) 尽可能接近先验分布 \(p(\mathbf{z})\),从而确保 变分分布不会偏离 我们对隐藏变量的先验知识。

在变分贝叶斯方法中,这种最大化的形式称为 ELBO。ELBO 名字里的 “lower bound” 是因为,RHS 中的第二项 KL 散度始终是非负的,因此 RHS 是 \(\mathbb{E}_{\mathbf{z}\sim q(\mathbf{z}|\mathbf{x})}[\log p(\mathbf{x}|\mathbf{z})]\) 的下界。

2.2 省流

如果我们想最小化 KL 散度:

\[\text{KL}\big(q(\mathbf{z}|\mathbf{x}) ~\|~ p(\mathbf{z}|\mathbf{x})\big) = \int_\mathbf{z} q(\mathbf{z}|\mathbf{x}) \log \frac{q(\mathbf{z}|\mathbf{x})}{p(\mathbf{z}|\mathbf{x})} d\mathbf{z} \]

那么可以把优化目标写成,最大化:

\[J = \mathbb{E}_{\mathbf{z}\sim q(\mathbf{z}|\mathbf{x})} \big[\log p(\mathbf{x}|\mathbf{z})\big] - \text{KL}\big(q(\mathbf{z}|\mathbf{x})~\|~p(\mathbf{z})\big) \]

即,设计 [-上式] 为损失函数。

其中,第一项:最大化样本点 x 的 log likelihood,第二项:最小化 z 分布与先验 p(z) 的 KL 散度。

03 ELBO 的应用:skill discovery、VAE

3.1 skill discovery 的 loss function

Skill discovery 是一种无 reward function 的 online RL 任务,它通过无监督的方法,学习一组覆盖状态空间的、具有明显差异的技能(skill)。

Policy 的形式: \(\pi(a|s,z)\) ,其中 z 代表一个 skill,策略基于这个 latent skill 来生成轨迹。

我们希望的策略,符合下面两个要求:

  • Predictable:各个 skill 下的 policy,不要都训成一样的;每个 skill 下的行为,可以被明显区分。
  • Diverse:所有 skill 下 policy 访问的状态,要尽可能覆盖整个状态空间。

为此,我们希望最大化 skill z 和 state s 的互信息 \(I(s;z)\)

\[I(s;z)=\int_s\int_z p(s,z)\log\frac{p(s,z)}{p(s)p(z)} \\ =H(z)-H(z|s)=H(s)-H(s;z) \\ =H(s)+H(z)-H(s,z) \]

其中 H 是熵,定义为 \(H(x) = -\int_x p(x)\log p(x)dx\)

我们介绍一下互信息(Mutual Information,MI)。

  • 性质:
    • 对称性, \(I(s;z)=I(z;s)\)
    • 非负性, \(I(s;z)\ge 0\),等于 0 当且仅当 s z 独立。
  • 上面公式 10 的几个等号,把熵的公式带进去 就能得到。
  • 当两个分布完全相同 完全不独立时,貌似 \(I(s;z)\) 取到最大值,最大值为 \(H(s)=H(z)\)

怎么最大化互信息呢?

我们从最大化 \(I(s;z)=H(z)-H(z|s)\)\(I(s;z)=H(s)-H(s;z)\) 的形式入手。具体的,

  • Reverse MI:
    • 最大化 \(I(s;z)=H(z)-H(z|s)\),被称为 Reverse MI(相关文章:Diversity is all you need)。
    • 其中,第一项最大化 \(H(z)\),鼓励学到多样的 skill;
    • 第二项最小化 \(H(z | s)\),希望看到 state 就推断出 skill。
    • 多说一句,Diversity is all you need 的主要贡献之一,貌似是这里还会最大化 \(H[a|s,z]\) ,最大化给定 skill 后的策略的熵,旨在鼓励 diversity。
  • Forward MI:
    • 最大化 \(I(s;z)=H(s)-H(s|z)\),被称为 Forward MI,一般用于 model-based RL(相关文章:Dynamics-Aware Unsupervised Discovery of Skills)。
    • 其中,第一项最大化 \(H(s)\),鼓励学到多样的 state;
    • 第二项最小化 \(H(s | z)\),鼓励通过 state 和 z 推断出 state',这貌似是 model-based RL 学 env model 的一个魔改。

对于 reverse MI(Diversity is all you need),现在我们要最小化 \(H(z | s)\) 了。

  • 因此,对于后验分布 \(p(z|{x})\) ,我们需要搞一个参数化的近似分布 \(q_\phi({z}|{x})\)
  • (然后就使用 ELBO 嘛?DIAYN 好像原文不是这样写的,没细看,我也不太清楚了 😵💦

3.2 VAE 的 loss function

Autoencoder:核心思想是使用一个沙漏型网络,尽可能无损地 把大的数据(如图片)压缩到一个更小的 embedding 里,其损失函数是 MSE[原图片, 基于 embedding 复原的图片]。

VAE:是一种生成模型,它可以基于一些 latent 来生成数据,比如给一些自然语言的描述 来生成图片,或给一张图片 生成相似的图片。(diffusion 也是著名的生成模型)

VAE 跟 autoencoder 的思想不尽相同;对于一个输入图片 \(\mathbf{x}\),它不想把图片映射到一个固定的 embedding 向量 \(\mathbf{z}\),而是将其映射到一个分布 \(p(\mathbf{z}|\mathbf{x})\) 中。

VAE 的组成部分:

  • 条件概率 \(p_\theta(\mathbf{x}|\mathbf{z})\) 定义了一个生成模型,类似于 autoencoder 的解码器,即从 latent \(\mathbf{z}\) 还原到原图片 \(\mathbf{x}\) 的过程。
  • 近似函数 \(q_\phi(\mathbf{z}|\mathbf{x})\) 是概率编码器,输入是图片 \(\mathbf{x}\),输出是这张图片对应的 latent \(\mathbf{z}\) 的分布。

VAE 的损失函数:

  • 对于编码器部分 \(q_\phi(\mathbf{z}|\mathbf{x})\) ,貌似采用了 ELBO 形式,即,最小化 KL 散度 \(\text{KL}(q_\phi(\mathbf{z}|\mathbf{x})~\|~p(\mathbf{z}|\mathbf{x}))\) → 最大化 \(\mathbb{E}_{\mathbf{z}\sim q_\phi(\mathbf{z}|\mathbf{x})} \big[\log p(\mathbf{x}|\mathbf{z})\big] - \text{KL}\big(q_\phi(\mathbf{z}|\mathbf{x})~\|~p(\mathbf{z})\big)\)
  • 对于解码器部分 \(p_\theta(\mathbf{x}|\mathbf{z})\) ,貌似还是 autoencoder 的样本重构损失(?)具体技术细节我也不太清楚…

参考资料 / 博客:



与关于 KL 散度和变分推断的 ELBO相似的内容:

关于 KL 散度和变分推断的 ELBO

ELBO 用于最小化 q(z|s) 和 p(z|s) 的 KL 散度,变成最大化 p(x|z) 的 log likelihood + 最小化 q(z|s) 和先验 p(z) 的 KL 散度。

关于面向对象的方法并行执行的问题

LabVIEW的从同一个类实例化的多个对象如何执行各自的方法呢? 这几天跟同事讨论到LabVIEW的面向对象编程中,如果我设计的一个类有一个方法比较耗时,那么当我实例化多个对象时,那么这个耗时的方法是怎么执行的呢?是各自并行执行还是,必须等某一个对象的方法调用完,接下来调用第二个对象的该方法呢? 接

关于ComfyUI的一些Tips

关于ComfyUI的一些Tips 前言: 最近发的ComfyUI相关文章节奏不知道会不会很快,在创作的时候没有考虑很多,想着把自己的知识分享出去。后台也看到很多私信,有各种各样的问题,这是我欠缺考虑了,今天这篇文章呢,根据私信的问题我大致整理了一下,给大家一些小tips。 目录 一、将 ComfyU

关于领域驱动设计,大家都理解错了

翻遍整个互联网,我发现,关于领域驱动设计,大家都**理解错了**。 今天,我们尝试通过一篇文章的篇幅,给大家展示一个完全不同的视角,把“领域驱动设计”这六个字解释清楚。 ## 领域驱动设计学习资料现状 领域驱动设计的概念提出已经有20年的时间了,整个互联网充斥着大量书籍、文章和视频教程,这里我列举几

关于docker-compose up -d 出现超时情况处理

由于要搭建一个ctf平台,用docker一键搭建是出现超时情况 用了很多办法,换源,等之类的一样没办法,似乎它就是只能用官方那个一样很怪。 只能用一种笨办法来处理了,一个个pull。 打个比如: 打开相对应docker-compose.yml文件 可以看到image就是需要去下载的。那么此时你就可以

关于面试被面试官暴怼:“几年研究生白读” 的前因后果

中午一个网友来信说自己和面试官干起来了,看完他的描述真是苦笑不得,这年头是怎么了,最近互联网CS消息满天飞,怎么连面试官都SB起来了呢? 大概是这样的:这位网友面试时被问及了Serializable接口的底层实现原理,因为这是一个标识性的空接口,大部分同学在学习时都秉持着会用就行(说实话,Build

关于vue中image控件,onload事件里,event.target 为null的奇怪问题探讨

废话不多说(主要文笔比较差),直接上代码 一个简单的demo,如下 vue代码 imgLoaded(e) { deb

漏洞复现之CVE-2012-1823(PHP-CGI远程代码执行)

关于CGI知识点 CGI模式下的参数: -c 指定php.ini文件的位置 -n 不要加载php.ini文件 -d 指定配置项 -b 启动fastcgi进程 -s 显示文件源码 -T 执行指定次该文件 -h和-? 显示帮助 题目如下图,没有什么发现 目录扫描一下 dirsearch -u http:

关于正在开发中的DjangoStarter v3版本

前言 最近做的这个项目大量使用了 python 及其相关的生态,因此自然而然选择了我的 DjangoStarter 作为后端框架 之前 v2 版本是用 RestFramework 做接口的,后面我试用了一次 django-ninja 之后就喜欢这种类似 FastApi 的写接口方式 正所谓天下苦 d

关于去除图片上的水印

现在有很多去除水印的工具,但基本上都需要你花钱。作为资深白嫖党,想让我花钱,那是不可能的。 于是我做了下research(search, search, research…),我发现现在的“去水印”基本上都是一个思路:利用图像修复算法。把有水印的地方看作是图像损坏的地方,用相邻像素替换那些损坏的地方