@Workshop{Supelec701,
author = {Lucie Daubigney and Matthieu Geist and Olivier Pietquin},
title = {{Gestion de l’incertitude pour l’optimisation en ligne d’un gestionnaire de dialogues parlés à grande échelle basé sur les POMDP}},
year = {2011},
booktitle = {{Sixièmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes (JFPDA 2011)}},
pages = {7 pages},
month = {June},
address = {Rouen (France)},
url = {http://www.metz.supelec.fr//metz/personnel/pietquin/pdf/JFPDA_2011_LDMGOP.pdf},
abstract = { L’utilisation de l’apprentissage par renforcement (AR)
fait
maintenant partie de l’état de l’art dans le domaine de
l’optimisation de gestionnaires de dialogues parlés. Cependant
avec cette méthode, entraîner un gestionnaire de dialogues
requiert la génération de nombreuses données. C’est pourquoi
beaucoup d’attention a été portée à la simulation d’utilisateurs
ces dix dernières années. L’optimisation
est donc faite avant de confronter le système à des utilisateurs
réels et l’apprentissage est soit stoppé ou soit très lent
durant
l’utilisation pratique. Pendant ce temps-là, la recherche en AR
a
développé des algorithmes efficaces en termes d’échantillons.
Par
exemple les processus gaussiens pour l’AR ont récemment été
appliqués aux gestionnaires de dialogues. Pour augmenter la
vitesse l’apprentissage, l’incertitude sur les estimations
calculées durant l’apprentissage est utilisée pour diriger
l’exploration. Une comparaison entre différents schémas
d’exploration montre que des améliorations significatives
peuvent
être apportées et qu’une optimisation en ligne rapide et sûre
est
possible, même sur une tâche
complexe.}
}