@Article{Supelec927,
author = {Bruno Scherrer and Matthieu Geist},
title = {{Recherche locale de politique dans un espace convexe}},
journal = {Revue d'Intelligence Artificielle (RIA)},
year = {2015},
volume = {29},
number = {6},
pages = {685-704},
url = {https://hal.archives-ouvertes.fr/hal-01275247/document},
abstract = {En apprentissage par renforcement, la recherche locale de
politique est une approche classique permettant de prendre en
compte de grands espaces d'�tat. Formellement, elle consiste �
chercher localement dans un espace de politiques param�tr�es la
solution qui va maximiser la fonction de valeur associ�e,
moyenn�e selon une loi pr�d�finie sur les �tats. La premi�re
contribution de cet article montre que si l'espace de politiques
est convexe, \emph{tout optimum local} (approch�) pr�sente une
\emph{garantie globale de performance}. Malheureusement, supposer
la convexit� de l'espace de recherche est une hypoth�se forte :
elle n'est pas satisfaite par les repr�sentations usuelles des
politiques et d�finir une param�trisation non triviale qui
satisfasse cette propri�t� est difficile. Une solution naturelle
pour palier ce probl�me est d'optimiser la fonction objectif
associ�e gr�ce � une mont�e de gradient fonctionnel, la recherche
�tant contrainte � l'enveloppe convexe de l'espace de politiques.
Il s'av�re que l'algorithme r�sultant est une l�g�re
g�n�ralisation du sch�ma d'it�ration conservative de la
politique. Ainsi, notre seconde contribution consiste � souligner
cette connexion originale entre recherche locale de politique et
programmation dynamique approch�e.}
}