greedy
q-learning 是一个经典的强化学习算法
Q-learning 是一个经典的强化学习算法。 为了便于描述,这里依然定义一个“世界”: 令空白格子的奖励为1. Q-table 是 Q-learning 的核心。它是一个表格,记录了每个状态下采取不同动作,所获取的最大长期奖励期望
Q-learning 是一个经典的强化学习算法。 为了便于描述,这里依然定义一个“世界”: 令空白格子的奖励为1. Q-table 是 Q-learning 的核心。它是一个表格,记录了每个状态下采取不同动作,所获取的最大长期奖励期望