@Article{Supelec558,
author = {Matthieu Geist and Olivier Pietquin and Gabriel Fricout},
title = {{Différences temporelles de Kalman : cas déterministe}},
journal = {Revue d'Intelligence Artificielle},
year = {2010},
volume = {24},
number = {4},
pages = {423-442},
month = {September},
url = {http://www.metz.supelec.fr/metz/personnel/geist_mat/pdfs/Supelec558.pdf},
doi = {10.3166/ria.24.423-443},
abstract = {Un des thèmes importants de l’apprentissage par renforcement
est l’approximation
en ligne de la fonction de valeur. En plus de leur capacité à
prendre en compte de grands
espaces d’état, les algorithmes associées devraient présenter
certaines caractéristiques comme
un apprentissage rapide, la faculté de traquer la solution
plutôt que de converger vers elle (particulièrement
en raison de l’entrelacement entre contrôle et apprentissage)
ou encore la gestion
de l’incertitude relative aux estimations faites. Dans cette
optique, nous introduisons un cadre
de travail général inspiré du filtrage de Kalman que nous
nommons différences temporelles
de Kalman. Une forme d’apprentissage actif utilisant
l’information d’incertitude est également
introduite, et comparaison est faite à l’état de l’art sur des
problèmes classiques.}
}