@Workshop{Supelec780,
author = {Matthieu Geist and Bruno Scherrer and Alessandro Lazaric and Mohammad Ghavamzadeh},
title = {{Un sélecteur de Dantzig pour l'apprentissage par différences temporelles}},
year = {2012},
booktitle = {{Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite des systèmes (JFPDA)}},
url = {http://www.metz.supelec.fr//metz/personnel/geist_mat/pdfs/Supelec780.pdf},
abstract = {En apprentissage par renforcement, LSTD est l'un des algorithmes
d'approximation de la fonction de valeur les plus populaires.
Lorsqu'il y a plus de fonctions de base que d'exemples, un problème
se pose, qui peut être traité en combinant LSTD avec une forme de
régularisation. En particulier, les méthodes de régularisation
L1 tendent à sélectionner les fonctions de base (en favorisant
la parcimonie des solutions) et sont donc particulièrement adaptées
pour les problèmes de grande dimension. Toutefois, LSTD n'est pas un
simple algorithme de régression; il résout un problème de point
fixe, l'intégration d'une régularisation L1 n'est pas évidente
et peut entraîner certains inconvénients (comme l'hypothèse de
P-matrice pour LASSO-TD). Cette contribution introduit un nouvel
algorithme qui intègre LSTD au sélecteur de Dantzig, généralisant ce
dernier à l'apprentissage par différences temporelles. En
particulier, nous étudions les performances de l'algorithme proposé
ainsi que son lien avec les approches de l'état de l'art, notamment
la façon dont il surmonte certains inconvénients des solutions
existantes.}
}