@Workshop{Supelec512,
author = {Matthieu Geist and Olivier Pietquin and Gabriel Fricout},
title = {{Différences Temporelles de Kalman}},
year = {2009},
booktitle = {{Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2009)}},
month = {June},
note = {20 pages},
address = {Paris (France)},
url = {http://hal-supelec.archives-ouvertes.fr/hal-00437002/en/},
abstract = {Cette contribution traite de l’approximation de la fonction de valeur ainsi que de la Q-fonction dans des processus décisionnels de Markov déterministes. Un cadre de travail statistique général inspiré du filtrage de Kalman est introduit. Son principe est d’adopter une représentation paramétrique de la fonction de valeur (ou de la Q-fonction), de modéliser le vecteur de paramètres associé comme une variable aléatoire et de minimiser l’erreur quadratique sur les paramètres conditionnée aux récompenses observées depuis l’origine des temps. De ce paradigme général, que nous nommons Différences Temporelles de Kalman (KTD pour Kalman Temporal Differences), et en utilisant un schéma d’approximation appelé transformation non-parfumée, une famille d’algorithmes est dérivée, à savoir KTD-V, KTD-SARSA et KTD-Q, qui ont respectivement comme objectif l’évaluation de la fonction de valeur pour une politique donnée, l’évaluation de la Q-fonction pour une politique donnée, et l’évaluation de la Q-fonction optimal. Cette approche présente un certain nombre d’avantages tels que la capacité à prendre en compte une paramétrisation non-linéaire, l’efficacité de l’apprentissage en terme d’échantillons observés, la prise en compte d’environnements non-stationnaires ou encore la possibilité d’obtenir une information d’incertitude, que nous utiliserons pour proposer une forme d’apprentissage actif. Ces différents aspects seront discutés et illustrés au travers de plusieurs expériences.}
}