@Workshop{Supelec888,
author = {Bruno Scherrer and Matthieu Geist},
title = {{Quand l'optimalité locale implique une garantie globale : recherche locale de politique dans un espace convexe et algorithme d'itération sur les politiques conservatif vu comme une montée de gradient }},
year = {2014},
booktitle = {{Journées Francophone de Plannification, Décision et Apprentissage (JFPDA)}},
abstract = {En apprentissage par renforcement, une approche usuelle pour
traiter les grands espaces d'état est la recherche directe
dans l'espace des politiques. Formellement, elle consiste à
chercher localement (typiquement grâce à une montée de
gradient) dans un espace de politiques paramétrées la
politique qui va maximiser l'espérance (selon une distribution
prédéfinie) de la fonction de valeur associée. En général, le
mieux que l'on puisse espérer d'une telle approche est
l'obtention d'un maximum local du critère optimisé. Cet
article commence par présenter un résultat surprenant : si
l'espace de politiques est convexe, tout optimum
local (approché) jouit d'une garantie de performance globale.
Toutefois, cette hypothèse de convexité est forte : elle n'est
pas satisfaite par les paramétrisations communément utilisées,
et trouver une représentation qui satisfait cette propriété
semble ardu. Une solution naturelle pour traiter ce problème
consiste à adopter une approche de type \textit{boosting}
(contrainte à la fermeture convexe d'un espace de politiques
arbitraire). Il s'avère que l'algorithme résultant est une
(légère) généralisation de la version conservative d'itération
sur les politiques proposée par Kakade et Langford. Ainsi,
notre seconde contribution est de mettre en lumière cette
connexion originale entre recherche directe dans l'espace des
politiques et programmation dynamique approchée.}
}