@InProceedings{Supelec758,
author = {Lucie Daubigney and Matthieu Geist and Olivier Pietquin},
title = {{Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO}},
year = {2012},
booktitle = {{Actes du 18ème congrès francophone sur la Reconnaissance de Formes et l'Intelligence Artificielle (RFIA 2012)}},
month = {January},
address = {Lyon (France)},
url = {http://hal.archives-ouvertes.fr/docs/00/65/64/96/PDF/rfia2012_submission_40.pdf},
abstract = {L’apprentissage par renforcement (AR) fait maintenant
partie de l’´etat de l’art dans le domaine de l’optimisation
de syst`eme de dialogues vocaux. La plupart des
m´ethodes appliqu´ees aux syst`emes de dialogue bas´ees
sur l’AR, comme par exemple celles qui utilisent des
processus gaussiens, requi`erent de tester des changements
plus ou moins al´eatoires dans la politique. Cette
mani`ere de proc´eder est appel´ee apprentissage « onpolicy
». N´eanmoins, celle-ci peut induire des comportements
de la part du syst`eme incoh´erents aux yeux de
l’utilisateur. Les algorithmes devraient id´ealement trouver
la politique optimale d’apr`es l’observation d’interactions
g´en´er´ees par une politique sous-optimale mais proposant
un comportement coh´erent `a l’utilisateur : c’est
l’apprentissage
« off-policy ». Dans cette contribution, un algorithme
efficace sur les ´echantillons permettant l’apprentissage
off-policy et en ligne la politique optimale est propos´e.
Cet algorithme combin´e `a une repr´esentation compacte,
non-lin´eaire de la fonction de valeur (un perceptron
multicouche)
permet de g´erer des syst`emes `a grande ´echelle.}
}