@Workshop{Supelec703,
author = {Matthieu Geist and Bruno Scherrer},
title = {{Moindres carrés récursifs pour l'évaluation off-policy d'une politique avec traces d'éligibilité}},
year = {2011},
booktitle = {{Sixièmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2011)}},
pages = {22 pages},
month = {June},
address = {Rouen (France)},
url = {http://www.metz.supelec.fr/~geist_mat/pdfs/Supelec703.pdf},
abstract = {Dans le cadre des processus de décision Markoviens (MDPs), nous nous
intéressons à l'apprentissage d'une \emph{approximation
linéaire} de
la fonction de valeur d'une politique fixe, lorsque les données
sont
constituées d'une unique trajectoire générée par une autre
politique, c'est-à-dire que nous considérons le cas
\emph{off-policy}. Nous présentons une manière systématique
d'adapter l'ensemble des algorithmes de type moindres carrés
proposés dans la littérature dans le cas \emph{on-policy} et
n'utilisant pas nécessairement de traces d'éligibilité
(LSTD~\citep{Boyan:2002}, LSPE)~\citep{Nedic:2003},
FPKF~\citep{Choi:2006} et
BRM/GPTD~\citep{Engel:2005}/KTD~\citep{geist:jair}), de sorte à ce
qu'ils puissent être appliqués dans le cas \emph{off-policy} avec
des traces. Nous dérivons les formules pour une implémentation
récursive de ces algorithmes, étudions leur convergence
asymptotique et illustrons expérimentalement leur
comportement. Si nous retrouvons les algorithmes off-policy
LSTD($\lambda$)/LSPE($\lambda$) récemment proposés par
\citet{Yu:2010}, les deux autres sont à notre connaissance
nouveaux. }
}