@Workshop{Supelec513,
author = {Matthieu Geist and Olivier Pietquin and Gabriel Fricout},
title = {{Différences Temporelles de Kalman : le cas stochastique}},
year = {2009},
booktitle = {{Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2009)}},
month = {June},
note = {13 pages},
address = {Paris (France)},
url = {http://hal-supelec.archives-ouvertes.fr/hal-00437006/en/},
abstract = {Les différences temporelles de Kalman (KTD pour Kalman Temporal
Differences) sont un cadre de travail statistique qui traite de
l’approximation de la fonction de valeur et de qualité en
apprentissage par renforcement. Son principe est d’adopter une
représentation paramétrique de la fonction de valeur, de
modéliser les paramètres associés comme des variables aléatoires
et de minimiser l’espérance de l’erreur quadratique moyenne des
paramètres conditionnée à l’ensemble des récompenses observées.
Ce paradigme s’est montré efficace en terme d’échantillons (i.e.
convergence rapide), capable de prendre en compte la
non-stationnarité ainsi que de fournir une information
d’incertitude. Cependant ce cadre de travail était restreint au
processus décisionnels de Markov bénéficiant de transitions
déterministes. Dans cette contribution nous proposons d’étendre
le modèle au transitions stochastiques à l’aide d’un bruit
coloré, ce qui mène aux différences temporelles de Kalman
étendues (XKTD pour eXtended KTD). L’approche proposée est
illustrée sur des problèmes usuels en apprentissage par
renforcement.}
}