Revisiting Design Choices in Proximal Policy Optimization

Hsu, Chloe Ching-Yun; Mendler-Dünner, Celestine; Hardt, Moritz

Computer Science > Machine Learning

arXiv:2009.10897 (cs)

[Submitted on 23 Sep 2020]

Title:Revisiting Design Choices in Proximal Policy Optimization

Authors:Chloe Ching-Yun Hsu, Celestine Mendler-Dünner, Moritz Hardt

View PDF

Abstract:Proximal Policy Optimization (PPO) is a popular deep policy gradient algorithm. In standard implementations, PPO regularizes policy updates with clipped probability ratios, and parameterizes policies with either continuous Gaussian distributions or discrete Softmax distributions. These design choices are widely accepted, and motivated by empirical performance comparisons on MuJoCo and Atari benchmarks.
We revisit these practices outside the regime of current benchmarks, and expose three failure modes of standard PPO. We explain why standard design choices are problematic in these cases, and show that alternative choices of surrogate objectives and policy parameterizations can prevent the failure modes. We hope that our work serves as a reminder that many algorithmic design choices in reinforcement learning are tied to specific simulation environments. We should not implicitly accept these choices as a standard part of a more general algorithm.

Subjects:	Machine Learning (cs.LG); Machine Learning (stat.ML)
Cite as:	arXiv:2009.10897 [cs.LG]
	(or arXiv:2009.10897v1 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2009.10897

Submission history

From: Chloe Hsu [view email]
[v1] Wed, 23 Sep 2020 02:00:34 UTC (2,415 KB)

Computer Science > Machine Learning

Title:Revisiting Design Choices in Proximal Policy Optimization

Submission history

Access Paper:

References & Citations

DBLP - CS Bibliography

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:Revisiting Design Choices in Proximal Policy Optimization

Submission history

Access Paper:

References & Citations

DBLP - CS Bibliography

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators