@Workshop{Supelec904,
author = {Bilal PIOT and Matthieu Geist and Olivier Pietquin},
title = {{Classification régularisée par la récompense pour l'Apprentissage par Imitation}},
year = {2013},
booktitle = {{Journées Francophones de Plannification, Décision et Apprentissage (JFPDA)}},
month = {jul},
address = {Lille (FRANCE)},
abstract = {Cet article traite le problème d'Apprentissage par
Démonstrations (AD) dans lequel un agent appelé apprenti
cherche à apprendre à partir des démonstrations d'un autre
agent appelé expert. Pour aborder ce problème assez
général,
il est commun d'adopter le paradigme des Processus
Décisionnels de Markov (PDM) qui est approprié pour les
problèmes de prises de décisions séquentielles. Dans la
littérature, il y a principalement deux façons de traiter ce
problème (en faisant appel aux PDM) qui sont l'Apprentissage
par Imitation (AI) où l'apprenti cherche directement Ã
imiter
la politique de l'expert et l'Apprentissage par Renforcement
Inverse (ARI) où l'apprenti essaye d'apprendre une
récompense
qui pourrait expliquer la politique de l'expert. Ici, nous
introduisons un paradigme inédit, appelé cadre de travail
des
politiques d'ensembles ( set-policy framework ), pour lequel
il y a un lien naturel entre les méthodes d'AI et d'ARI. Ce
paradigme permet de dériver des nouveaux algorithmes qui
nécessitent uniquement la connaissance de couples état-
action
experts et d'exemples de transitions du PDM. Des expériences
sont réalisés sur un problème qui fait référence (un
simulateur de trafic routier) et sur une tâche plus
générique
(les Garnets) qui permet une comparaison plus générale des
algorithmes. Mots-clés : Apprentissage par Renforcement
Inverse, Apprentissage par Imitation.}
}