BibTex

@Workshop{Supelec904,
author = {Bilal PIOT and Matthieu Geist and Olivier Pietquin},
title = {{Classification régularisée par la récompense pour l'Apprentissage par Imitation}},
year = {2013},
booktitle = {{Journées Francophones de Plannification, Décision et Apprentissage (JFPDA)}},
month = {jul},
address = {Lille (FRANCE)},
abstract = {Cet article traite le problème d'Apprentissage par Démonstrations (AD) dans lequel un agent appelÃ© apprenti cherche Ã apprendre Ã partir des dÃ©monstrations d'un autre agent appelÃ© expert. Pour aborder ce problÃ¨me assez gÃ©nÃ©ral, il est commun d'adopter le paradigme des Processus DÃ©cisionnels de Markov (PDM) qui est appropriÃ© pour les problÃ¨mes de prises de dÃ©cisions sÃ©quentielles. Dans la littÃ©rature, il y a principalement deux faÃ§ons de traiter ce problÃ¨me (en faisant appel aux PDM) qui sont l'Apprentissage par Imitation (AI) oÃ¹ l'apprenti cherche directement Ã imiter la politique de l'expert et l'Apprentissage par Renforcement Inverse (ARI) oÃ¹ l'apprenti essaye d'apprendre une rÃ©compense qui pourrait expliquer la politique de l'expert. Ici, nous introduisons un paradigme inÃ©dit, appelÃ© cadre de travail des politiques d'ensembles ( set-policy framework ), pour lequel il y a un lien naturel entre les mÃ©thodes d'AI et d'ARI. Ce paradigme permet de dÃ©river des nouveaux algorithmes qui nÃ©cessitent uniquement la connaissance de couples Ã©tat- action experts et d'exemples de transitions du PDM. Des expÃ©riences sont rÃ©alisÃ©s sur un problÃ¨me qui fait rÃ©fÃ©rence (un simulateur de trafic routier) et sur une tÃ¢che plus gÃ©nÃ©rique (les Garnets) qui permet une comparaison plus gÃ©nÃ©rale des algorithmes. Mots-clÃ©s : Apprentissage par Renforcement Inverse, Apprentissage par Imitation.}
}