@InProceedings{Supelec422,
author = {Matthieu Geist and Olivier Pietquin and Gabriel Fricout},
title = {{Filtrage bayésien de la récompense}},
year = {2008},
booktitle = {{actes des Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2008)}},
pages = {113-122},
month = {June},
address = {Metz (France)},
url = {http://www.metz.supelec.fr/metz/recherche/publis_pdf/Supelec422.pdf},
abstract = {Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail général pour l’apprentissage par renforcement basé sur le filtrage bayésien, ainsi qu’une implémentation spécifique basée sur un filtre de Kalman à sigma-points et une paramétrisation par noyaux. Cela nous permet de proposer un algorithme de différences temporelles pour des espaces d’état et/ou d’action continus qui soit model-free et off-policy. Il sera illustré sur deux problèmes simples.}
}