在MCMC(三)MCMC采样和M-H采样中,我们讲到了M-H采样已经可以很好的解决蒙特卡罗方法需要的任意概率分布的样本集的问题。但是M-H采样有两个缺点:一是需要计算接受率,在高维时计算量大。并且由于接受率的原因导致算法收敛时间变长。二是有些高维数据,特征的条件概率分布好求,但是特征的联合分布不好求。因此需要一个好的方法来改进M-H采样,这就是我们下面讲到的Gibbs采样。
在M-H采样中我们通过引入接受率使细致平稳条件满足。现在我们换一个思路。
于是这个二维空间上的马氏链将收敛到平稳分布 $\pi(xy)$
利用上一节找到的状态转移矩阵,我们就得到了二维Gibbs采样,这个采样需要两个维度之间的条件概率。具体过程如下:
用下图可以很直观的看出,采样是在两个坐标轴上不停的轮换的。当然,坐标轴轮换不是必须的,我们也可以每次随机选择一个坐标轴进行采样。不过常用的Gibbs采样的实现都是基于坐标轴轮换的。
上面的这个算法推广到多维的时候也是成立的。比如一个n维的概率分布$\pi(x_1x_2...x_n)$,我们可以通过在n个坐标轴上轮换采样,来得到新的样本。对于轮换到的任意一个坐标轴$x_i$上的转移,马尔科夫链的状态转移概率为$P(x_i|x_1x_2...x_{i-1}x_{i+1}...x_n)$,即固定$n-1$个坐标轴,在某一个坐标轴上移动。
具体的算法过程如下:
整个采样过程和Lasso回归的坐标轴下降法算法非常类似,只不过Lasso回归是固定$n-1$个特征,对某一个特征求极值。而Gibbs采样是固定$n-1$个特征在某一个特征采样。
同样的,轮换坐标轴不是必须的,我们可以随机选择某一个坐标轴进行状态转移,只不过常用的Gibbs采样的实现都是基于坐标轴轮换的。
然后我们看看样本集生成的二维正态分布,代码如下:
由于Gibbs采样在高维特征时的优势,目前我们通常意义上的MCMC采样都是用的Gibbs采样。当然Gibbs采样是从M-H采样的基础上的进化而来的,同时Gibbs采样要求数据至少有两个维度,一维概率分布的采样是没法用Gibbs采样的这时M-H采样仍然成立。
有了Gibbs采样来获取概率分布的样本集,有了蒙特卡罗方法来用样本集模拟求和,他们一起就奠定了MCMC算法在大数据时代高维数据模拟求和时的作用。MCMC系列就在这里结束吧。