@InProceedings{Supelec594,
author = {Matthieu Geist and Olivier Pietquin},
title = {{Gestion de l'incertitude dans le cadre de l'approximation de la fonction de valeur pour l'apprentissage par renforcement}},
year = {2010},
booktitle = {{actes de la conférence francophone sur l'apprentissage automatique (CAP 2010)}},
publisher = {PUG},
pages = {101-112},
month = {May},
address = {Clermont-Ferrand (France)},
url = {http://www.metz.supelec.fr//metz/personnel/pietquin/pdf/RIA10_Xcap_MGOP.pdf},
abstract = {Le dilemme entre exploration et exploitation est un problème
important en apprentissage par renforcement (AR). Les approches
associées les plus efficaces utilisent généralement une
information d’incertitude des valeurs estimées pendant
l’apprentissage. D’un autre côté, la prise en compte de grands
espaces d’état est problématique en AR et l’approximation de la
fonction de valeur est devenue un domaine de recherche
important. Ces deux problèmes co-existent dans la plupart des
applications. Cependant, peu d’approches permettent à la fois
d’approcher la fonction de valeur et d’en déduire une
information d’incertitude sur les estimations. Dans cet
article, nous montrons comment une telle information
d’incertitude se déduit naturellement d’un cadre de travail
basé sur les différences temporelles et le filtrage de Kalman.
Nous introduisons un schéma d’apprentissage actif pour un
algorithme du second ordre du type itération de la valeur
(nommément KTD-Q). Nous proposons également l’adaptation de
quelques méthodes traitant du dilemme entre exploration et
exploitation initialement conçues pour le cas tabulaire.}
}