深度强化学习(RL)导致了许多最近的和突破性的进展。然而,强化学习的实施并不容易,与使深度学习拥有PyTorch这样简单的框架支持不同,强化学习的训练缺少强有力的工具支撑。为了解决这些问题,DeepMind发布了Acme,一个用于构建新的RL算法的框架,该框架是专门为实现代理而设计的,它使用简单的、模块化的组件来构建,可以在各种执行规模下使用。虽然Acme的主要目标是为算法开发提供一个框架,但次要目标是为重要或最先进的算法提供简单的参考实现。这些实现既是对我们设计决策的验证,也是对RL研究中可重复性的重要贡献。 ![]([URL] 在这项工作中,DeepMind描述了Acme中的主要设计决定,并进一步详细说明了如何使用其组件来实现各种算法。DeepMind的实验为一些常见的和最先进的算法提供了基线,同时也展示了这些算法如何在更大和更复杂的环境中得到扩展。这突出了Acme的一个主要优势,即它可以用来实现大型的、分布式的RL算法,这些算法可以在大规模下运行,同时仍然保持该实现的固有可读性。 ![]([URL] 这篇论文和框架早在2020年发布了第一个版本,而今天发布的第二个版本增加了模块化,额外强调了离线、模仿和从示范算法中学习,以及作为Acme的一部分实施的各种新代理。 Acme是一个强化学习(RL)构件库,致力于展示简单、高效和可读的代理。这些代理首先是作为参考实现,以及为算法性能提供强大的基线。然而,Acme所展示的基线代理也应该提供足够的灵活性和简单性,以便它们可以被用作新研究的起点。最后,Acme的构件是以这样一种方式设计的,即这些代理可以在多种规模下运行(例如单流与分布式代理)。 论文地址:[URL] 代码地址:[URL] 教程地址:[URL]