@InProceedings{Supelec422,
author = {Matthieu Geist and Olivier Pietquin and Gabriel Fricout},
title = {{Filtrage bayésien de la récompense}},
year = {2008},
booktitle = {{actes des Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2008)}},
pages = {113-122},
month = {June},
address = {Metz (France)},
url = {http://www.metz.supelec.fr/metz/recherche/publis_pdf/Supelec422.pdf},
abstract = {Une large variété de schémas d’approximation de la fonction de
valeur a été appliquée à l’apprentissage par renforcement.
Cependant les approches par filtrage bayésien, qui se sont
pourtant montrées efficaces dans d’autres domaines comme
l’apprentissage de paramètres pour les réseaux neuronaux, ont
été
peu étudiées jusqu’à présent. Cette contribution introduit un
cadre de travail général pour l’apprentissage par renforcement
basé sur le filtrage bayésien, ainsi qu’une implémentation
spécifique basée sur un filtre de Kalman à sigma-points et une
paramétrisation par noyaux. Cela nous permet de proposer un
algorithme de différences temporelles pour des espaces d’état
et/ou d’action continus qui soit model-free et off-policy. Il
sera illustré sur deux problèmes simples.}
}