@Article{Supelec809,
author = {Edouard Klein and Bilal PIOT and Matthieu Geist and Olivier Pietquin},
title = {{Classification structurée pour l'apprentissage par renforcement inverse}},
journal = {Revue d'Intelligence Artificielle},
year = {2013},
volume = {27},
number = {2/2013},
pages = {155-170},
month = {Mai},
note = {pdf},
url = {http://ria.revuesonline.com/article.jsp\'earticleId=18374},
abstract = {Cette contribution traite le problème de l’Apprentissage par
Renforcement Inverse (ARI), défini comme la recherche d’une
fonction de récompense pour laquelle le comportement d’un
expert (connu par le biais d’une démonstration) est optimal.
Nous introduisons SCIRL, un nouvel algorithme qui utilise la
grandeur dénommée attribut moyen de l’expert comme la
paramétrisation d’une fonction de score pour un classifieur
multi-classe. Cette approche donne une fonction de récompense
pour laquelle la politique de l’expert est (nous le démontrons)
quasi-optimale. Contrairement à la plupart des algorithmes
d’ARI existants, SCIRL n’a pas besoin de résoudre le problème
direct de l’Apprentissage par Renforcement. De plus, en
utilisant une heuristique il est utilisable uniquement avec des
trajectoires échantillonnées par l’expert.
Nous illustrons cela sur un simulateur de conduite.}
}