Percentile Criterion Optimization in Offline Reinforcement Learning

Lobo, Elita A.; Cousins, Cyrus; Zick, Yair; Petrik, Marek

Computer Science > Machine Learning

arXiv:2404.05055 (cs)

[Submitted on 7 Apr 2024]

Title:Percentile Criterion Optimization in Offline Reinforcement Learning

Authors:Elita A. Lobo, Cyrus Cousins, Yair Zick, Marek Petrik

View PDF HTML (experimental)

Abstract:In reinforcement learning, robust policies for high-stakes decision-making problems with limited data are usually computed by optimizing the \emph{percentile criterion}. The percentile criterion is approximately solved by constructing an \emph{ambiguity set} that contains the true model with high probability and optimizing the policy for the worst model in the set. Since the percentile criterion is non-convex, constructing ambiguity sets is often challenging. Existing work uses \emph{Bayesian credible regions} as ambiguity sets, but they are often unnecessarily large and result in learning overly conservative policies. To overcome these shortcomings, we propose a novel Value-at-Risk based dynamic programming algorithm to optimize the percentile criterion without explicitly constructing any ambiguity sets. Our theoretical and empirical results show that our algorithm implicitly constructs much smaller ambiguity sets and learns less conservative robust policies.

Comments:	Accepted at Neurips 2023
Subjects:	Machine Learning (cs.LG); Artificial Intelligence (cs.AI)
Cite as:	arXiv:2404.05055 [cs.LG]
	(or arXiv:2404.05055v1 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2404.05055

Submission history

From: Elita Lobo [view email]
[v1] Sun, 7 Apr 2024 19:29:09 UTC (3,874 KB)

Computer Science > Machine Learning

Title:Percentile Criterion Optimization in Offline Reinforcement Learning

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:Percentile Criterion Optimization in Offline Reinforcement Learning

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators