dqn
1、使用监督学习、强化学习等方法
1、使用监督学习、强化学习等方法,开发基于机器学习的棋牌游戏智能 AI,提升游戏玩家体验; 2、负责算法建模及开发,包括特征提取、奖励设计、模型训练、神经网络结构改进、参数优化等; 1、2023届硕士及以上学历,计算机、数学等高匹配相关专业; 2、熟练掌握 TensorFlow、PyTorch 等至少一种机器学习框架; 3、熟悉强化学习算法中的经典算法,如 DQN、DDPG、PPO、A3C等; 4、学习能力强,有阅读英文文献的能力,热爱游戏,有游戏AI实习经验者优先; 5、对多智能体学习、分布式强化学习、自我对弈、非完全信息博弈等领域有经验者优先。
深入浅出地介绍强化学习的概念,算法发展历史,分类,及发展趋势
深入浅出地介绍强化学习的概念,算法发展历史,分类,及发展趋势。 强化学习深入浅出完全教程,内容包括强化学习概述、马尔科夫决策过程、基于模型的动态规划方法、蒙特卡罗方法、时间差分方法、Gym环境构建及强化学习算法实现、值函数逼近方法、DQN方法及其变种、策略梯度方法。 南开大学计算机与控制工程学院博士后
现在业界已有不少开源强化学习工具
现在业界已有不少开源强化学习工具,百度也于近期发布了PARL框架。PARL是基于PaddlePaddle的一个强化学习框架,特点是:1)灵活性高,支持多数的强化学习算法;2)为数不多的开源其大规模分布式能力的强化学习算法库;3)通过之前介绍的工业级场景,验证了算法库的可用性。 这套强化学习框架基于3个基础类,分别是agent、algorithm、model