parl是基于paddlepaddle的一个强化学习框架

现在业界已有不少开源强化学习工具

现在业界已有不少开源强化学习工具，百度也于近期发布了PARL框架。PARL是基于PaddlePaddle的一个强化学习框架，特点是：1）灵活性高，支持多数的强化学习算法；2）为数不多的开源其大规模分布式能力的强化学习算法库；3）通过之前介绍的工业级场景，验证了算法库的可用性。

这套强化学习框架基于3个基础类，分别是agent、algorithm、model。通过不同层级的定制，PARL能够实现方便，灵活，可服用，定制方便的强化学习算法，并具有对于大规模并行能力良好支持。用户可以很方便写出自己独特的定制算法，而不必去管具体通信接口等逻辑。以DQN为例，PARL提供了algorithm的现成DQN算法，用户只需要定制自己的模型即可。

基于PARL的利用现成的DQN Algorithm来开发Model

而如果用户需要定制全新的RL算法，也可以通过定制algorithm简单地实现。

这套强化学习库目前在业界已经引起了不少反响。主打灵活，易用和高并发的PARL能够取得什么样的成果，请拭目以待。

1）在很多应用中，往往目标不明确。例如对话最终目的一般来说是希望对话系统“表现得像人”，然而这个目标无法清楚地进行数学描述。因此reward modeling是很重要的研究方向。比如百度在推荐排序的时候，使用evaluation-generator的框架，即首先对reward的建模。

2）强化学习需要海量的样本，甚至比有监督学习还需要更多的样本。解决方法比如使用world model或planning。

3）奖励函数过于稀疏，难以探索到优质解。研究方向比如分层训练、课程学习和引入辅助任务。

4）泛化能力比较差，很多结果处在过拟合的区域。可以使用元学习，迁移学习，以及近期研究较多的攻防理论来改善。

5）实验难以复现。很多实验，甚至随机种子不一样都会得到完全不一致的效果。这也是百度将自己的工具开源的原因之一，也是要解决这个问题的第一步。

而这些方向，既是强化学习研究的前沿，也是很多工业应用面临的实际问题。百度也正在着力研究，期待有更多突破性的产出。