信息熵是一种信息不确定性的度量,而两个随机变量分布匹配程度的度量可以使用KL散度。

KL散度是两个概率分布$P$和$Q$差别的非对称性的度量。

KL散度是用来度量使用基于$Q$的编码来编码来自P的样本平均所需的额外的比特个数。 典型情况下,$P$表示数据的真实分布,$Q$表示数据的理论分布,模型分布,或$P$的近似分布。

根据 shannon 的信息论,给定一个字符集的概率分布,我们可以设计一种编码,使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X,对$x∈X$,其出现概率为$P(x)$,那么其最优编码平均需要的比特数等于这个字符集的熵:

在同样的字符集上,假设存在另一个概率分布$Q(X)$。如果用概率分布$P(X)$的最优编码(即字符$x$的编码长度等于$log[1/P(x)]$,来为符合分布$Q(X)$的字符编码,那么表示这些字符就会比理想情况多用一些比特数。KL散度就是用来衡量这种情况下平均每个字符多用的比特数,因此可以用来衡量两个分布的距离。即:

文章链接: