greedy
q-learning 是一个经典的强化学习算法
Q-learning 是一个经典的强化学习算法。 为了便于描述,这里依然定义一个“世界”: 令空白格子的奖励为1. Q-table 是 Q-learning 的核心。它是一个表格,记录了每个状态下采取不同动作,所获取的最大长期奖励期望
gbdtgradient boosting decision
GBDT(Gradient Boosting Decision Tree) 从名字上理解包含三个部分:提升、梯度和树。它最早由 Freidman 在 greedy function approximation :a gradient boosting machine 中提出。很多公司线上模型是基于 GBDT+FM 开发的,我们 Leader 甚至认为 GBDT 是传统的机器学习集大成者
