@Workshop{Supelec889,
author = {Bilal PIOT and Matthieu Geist and Olivier Pietquin},
title = {{Méthode de minimisation du résidu de Bellman boostée qui tient compte des démonstrations expertes}},
year = {2014},
booktitle = {{Journées Francophone de Plannification, Décision et Apprentissage (JFPDA)}},
abstract = {Ce papier traite du problème d'Apprentissage par Renforcement
avec des Démonstrations Expertes (ARDE). Contrairement
à l'Apprentissage par Renforcement (AR) où le but est de
trouver une politique optimale d'un Processus Décisionnel de
Markov (PDM) seulement à partir de transitions
échantillonnées du PDM, en ARDE on dispose en plus de
transitions échantillonnées expertes.
Ainsi, le but de cet article est de proposer différents
algorithmes qui prennent en compte la spécificité de ces
données expertes. L'idée que l'on propose dans cet article
diffère du cadre classique de Programmation Dynamique
Approchée (PDA) dans le sens où l'on cherche à minimiser
directement le Résidu Optimal de Bellman (ROB); la
minimisation étant guidée par des contraintes définies par les
transitions échantillonnées
expertes. Ce choix est motivé par le fait que le contrôle du
ROB implique le contrôle de la distance entre la fonction de
qualité optimale et son estimée. Cependant, cette méthode
présente plusieurs difficultés comme le fait que le critère
empirique à minimiser est non-convexe, non-différentiable et
biaisé. Ces difficultés seront surmontées via l'utilisation
d'un plongement d'une probabilité dans un Espace d'Hilbert à
Noyau
Reproduisant (EHNR) et d'une méthode de boosting qui permet
d'obtenir des algorithmes non-paramétriques.
Finalement, nos algorithmes seront comparés à l'unique
algorithme de l'état de l'art, Approximate Policy Iteration
with Demonstrations (APID), dans différentes expériences. }
}