@Workshop{Supelec702,
author = {Edouard Klein and Matthieu Geist and Olivier Pietquin},
title = {{Apprentissage par imitation étendu au cas batch, off-policy et sans modèle}},
year = {2011},
booktitle = {{Sixièmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2011)}},
pages = {9 pages},
month = {June},
address = {Rouen (France)},
url = {http://www.metz.supelec.fr/~geist_mat/pdfs/Supelec702.pdf},
abstract = {Ce papier s'intéresse au problème de l'apprentissage par
imitation, c'est à dire la résolution du problème du contrôle
optimal à partir de données tirées d'une démonstration d'expert.
L'apprentissage par renforcement inverse (IRL) propose un cadre
efficace pour résoudre ce problème. En se basant sur l'hypothèse
que l'expert maximise un critère, l'IRL essaie d'apprendre la
récompense qui définit ce critère à partir de trajectoires
d'exemple. Beaucoup d'algorithmes d'IRL font l'hypothèse de
l'existence d'un bon approximateur linéaire pour la fonction de
récompense et calculent l'attribut moyen (le cumul moyen pondéré
des fonctions de base, relatives à la paramétrisation linéaire
supposée de la récompense, évaluées en les états d'une
trajectoire associée à une certaine politique) via une
estimation de Monte-Carlo. Cela implique d'avoir accès à des
trajectoires complète de l'expert ainsi qu'à au moins un modèle
génératif pour tester les politiques intermédiaires. Dans ce
papier nous introduisons une méthode de différence temporelle,
LSTD-$\mu$, pour calculer cet attribut moyen. Cela permet
d'étendre l'apprentissage par imitation aux cas batch et off-policy.}
}