@Workshop{Supelec512,
author = {Matthieu Geist and Olivier Pietquin and Gabriel Fricout},
title = {{Différences Temporelles de Kalman}},
year = {2009},
booktitle = {{Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2009)}},
month = {June},
note = {20 pages},
address = {Paris (France)},
url = {http://hal-supelec.archives-ouvertes.fr/hal-00437002/en/},
abstract = {Cette contribution traite de l’approximation de la fonction de
valeur ainsi que de la Q-fonction dans des processus
décisionnels
de Markov déterministes. Un cadre de travail statistique général
inspiré du filtrage de Kalman est introduit.
Son principe est d’adopter une représentation paramétrique de la
fonction de valeur (ou de la Q-fonction), de modéliser le
vecteur
de paramètres associé comme une variable aléatoire et de
minimiser l’erreur quadratique sur les paramètres conditionnée
aux récompenses observées depuis l’origine des temps.
De ce paradigme général, que nous nommons Différences
Temporelles
de Kalman (KTD pour Kalman Temporal Differences), et en
utilisant
un schéma d’approximation appelé transformation non-parfumée,
une
famille d’algorithmes est dérivée, à savoir KTD-V, KTD-SARSA et
KTD-Q, qui ont respectivement comme objectif l’évaluation de la
fonction de valeur pour une politique donnée, l’évaluation de la
Q-fonction pour une politique donnée, et l’évaluation de la
Q-fonction optimal. Cette approche présente un certain nombre
d’avantages tels que la capacité à prendre en compte une
paramétrisation non-linéaire, l’efficacité de l’apprentissage en
terme d’échantillons observés, la prise en compte
d’environnements non-stationnaires ou encore la possibilité
d’obtenir une information d’incertitude, que nous utiliserons
pour proposer une forme d’apprentissage actif. Ces différents
aspects seront discutés et illustrés au travers de plusieurs
expériences.}
}