trpo
20200906: 拖延半年多没有整理笔记
20200906: 拖延半年多没有整理笔记,将剩下的内容整理到单独的笔记中。 Actor:可以感知环境中的状态,通过执行不同的动作得到反馈的奖励,在此基础上进行学习优化。 Environment:指除 Actor 之外的所有事务,受 Actor 动作影响而改变其状态,并给 Actor 对应的奖励
20200906: 拖延半年多没有整理笔记,将剩下的内容整理到单独的笔记中。 Actor:可以感知环境中的状态,通过执行不同的动作得到反馈的奖励,在此基础上进行学习优化。 Environment:指除 Actor 之外的所有事务,受 Actor 动作影响而改变其状态,并给 Actor 对应的奖励