ftrl
ftrl 算法综合考虑了 fobos 和 rda 对于梯度和
FTRL 算法综合考虑了 FOBOS 和 RDA 对于梯度和正则项的优势和不足,其特征权重的更新公式是: 上面的公式出现了 L2 范数,不过这一项的引入不会影响 FTRL 的稀疏性,只是使得求解结果更加“平滑”。通过数学计算并且放弃常数项可以得到上面的优化问题相当于求使得下面式子的最小的参数 W: 由此可以证明:引入 L2 正则化并没有对 FTRL 的稀疏性产生影响。 在 SGD 的算法里面使用的是一个全局的学习率 ,意味着学习率是一个正数并且逐渐递减,对每一个维度都是一样的
一. 什么是ftrl
首先介绍一下ftl
一. 什么是FTRL 首先介绍一下FTL,FTL的思想是每次找到让之前所有样本的损失函数之和最小的参数。流程如下: FTRL算法就是在FTL的优化目标的基础上,加入了正则化,防止过拟合: FTRL的损失函数一般也不容易求解,这种情况下,一般需要找一个代理的损失函数。 代理损失函数需要满足以下条件: 代理损失函数比较容易求解,最好是有解析解