强化学习是一类利用环境奖惩学习动作策略的机器学习,主要用于决策问题上。强化学习是一类很强大机器学习,在2017年10月,AlphaGo Zero横空出世,完全从零开始训练就战胜了世界第一的棋手。

AlphaGo Zero让人们看到强化学习在棋类博弈中的应用,以往的棋类博弈游戏,大多利用优化搜索算法去进行博弈搜索,这样的棋类游戏可玩性很差。而强化学习的加入可以让“电脑”变得更加智能,也就提高了游戏的可玩性。而五子棋作为一种老少皆宜的益智游戏,如果可以加入强化学习既可以增加游戏的可玩性,也具有一定研究价值。

(1)利用强化学习算法编写与模型的训练:

2019年1月11日-2019年1月31日:阅读文献,主要是强化学习,优化搜索的相关的文献;

2019年2月1日-2019年2月28日:掌握技能,具有针对性的学习编程语言,算法,尝试实现已阅读文献中的方法,完成开题报告;