Local Search for Policy Iteration in Continuous Control

Springenberg, Jost Tobias; Heess, Nicolas; Mankowitz, Daniel; Merel, Josh; Byravan, Arunkumar; Abdolmaleki, Abbas; Kay, Jackie; Degrave, Jonas; Schrittwieser, Julian; Tassa, Yuval; Buchli, Jonas; Belov, Dan; Riedmiller, Martin

Computer Science > Machine Learning

arXiv:2010.05545 (cs)

[Submitted on 12 Oct 2020]

Title:Local Search for Policy Iteration in Continuous Control

Authors:Jost Tobias Springenberg, Nicolas Heess, Daniel Mankowitz, Josh Merel, Arunkumar Byravan, Abbas Abdolmaleki, Jackie Kay, Jonas Degrave, Julian Schrittwieser, Yuval Tassa, Jonas Buchli, Dan Belov, Martin Riedmiller

View PDF

Abstract:We present an algorithm for local, regularized, policy improvement in reinforcement learning (RL) that allows us to formulate model-based and model-free variants in a single framework. Our algorithm can be interpreted as a natural extension of work on KL-regularized RL and introduces a form of tree search for continuous action spaces. We demonstrate that additional computation spent on model-based policy improvement during learning can improve data efficiency, and confirm that model-based policy improvement during action selection can also be beneficial. Quantitatively, our algorithm improves data efficiency on several continuous control benchmarks (when a model is learned in parallel), and it provides significant improvements in wall-clock time in high-dimensional domains (when a ground truth model is available). The unified framework also helps us to better understand the space of model-based and model-free algorithms. In particular, we demonstrate that some benefits attributed to model-based RL can be obtained without a model, simply by utilizing more computation.

Subjects:	Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Machine Learning (stat.ML)
Cite as:	arXiv:2010.05545 [cs.LG]
	(or arXiv:2010.05545v1 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2010.05545

Submission history

From: Jost Tobias Springenberg [view email]
[v1] Mon, 12 Oct 2020 09:02:48 UTC (1,181 KB)

Computer Science > Machine Learning

Title:Local Search for Policy Iteration in Continuous Control

Submission history

Access Paper:

References & Citations

DBLP - CS Bibliography

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:Local Search for Policy Iteration in Continuous Control

Submission history

Access Paper:

References & Citations

DBLP - CS Bibliography

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators