@InProceedings{Supelec773,
author = {Edouard Klein and Bilal PIOT and Matthieu Geist and Olivier Pietquin},
title = {{Classification structurée pour l’apprentissage par renforcement inverse}},
year = {2012},
booktitle = {{Actes de la Conférence Francophone sur l'Apprentissage Automatique (Cap 2012)}},
pages = {1-16},
month = {May},
address = {Nancy, France},
url = {http://cap2012.loria.fr/pub/Papers/13.pdf},
abstract = {Cette contribution traite du problème de l’apprentissage par
imitation par
le biais de l’apprentissage par renforcement inverse (ARI). Dans
ce contexte, un expert
accomplit une tâche qu’un agent artificiel doit essayer de
reproduire. L’ARI part du
postulat que l’expert optimise avec succès une fonction
d’utilité
; le problème consiste
à deviner cette fonction (appelée récompense) à partir de traces
du comportement de
l’expert. Les algorithmes d’ARI existants nécessitent une ou
plusieurs des conditions
suivantes pour fonctionner : trajectoires complètes de la part
de
l’expert, un modèle
génératif pour les estimations de type Monte-Carlo, la
connaissance des probabilités de
transition, la capacité de résoudre le problème direct (celui de
l’apprentissage par ren-
forcement) de manière répétée ou l’accès à la strategie complète
de l’expert. Notre con-
tribution consiste en un nouvel algorithme d’ARI levant
l’ensemble de ces contraintes.
En utilisant une méthode supervisée dans laquelle nous
introduisons implicitement la
structure du processus décisionnel de Markov (PDM) sous-jacent,
nous créons un algorithme basé sur une descente de sous-
gradient,
possédant une faible complexité tant
en échantillons que calculatoire et surtout ne nécessitant pas
la
résolution du problème
direct. }
}