@PhdThesis{Supelec686,
author = {Constantinos Makassikis},
title = {{Conception d'un modèle et de frameworks de distribution d'applications sur grappes de PCs avec tolérance aux pannes à faible coût}},
year = {2011},
month = {feb},
school = {Université Henri Poincaré - Nancy-I},
type = {Thèse en Informatique},
url = {http://tel.archives-ouvertes.fr/tel-00591083/},
abstract = {Les grappes de PCs constituent des architectures distribuées dont
l'adoption se répand à cause de leur faible coût mais aussi de
leur extensibilité en termes de noeuds. Notamment, l'augmentation
du nombre des noeuds est à l'origine d'un nombre croissant de
pannes par arrêt qui mettent en péril l'exécution d'applications
distribuées. L'absence de solutions efficaces et portables
confine leur utilisation à des applications non critiques ou sans
contraintes de temps. MoLOToF est un modèle de tolérance aux
pannes de niveau applicatif et fondée sur la réalisation de
sauvegardes. Pour faciliter l'ajout de la tolérance aux pannes,
il propose une structuration de l'application selon des
squelettes tolérants aux pannes, ainsi que des collaborations
entre le programmeur et le système de tolérance des pannes pour
gagner en efficacité. L'application de MoLOToF à des familles
d'algorithmes parallèles SPMD et Maître-Travailleur a mené aux
frameworks FT-GReLoSSS et ToMaWork respectivement. Chaque
framework fournit des squelettes tolérants aux pannes adaptés aux
familles d'algorithmes visées et une mise en oeuvre originale.
FT-GReLoSSS est implanté en C++ au-dessus de MPI alors que
ToMaWork est implanté en Java au-dessus d'un système de mémoire
partagée virtuelle fourni par la technologie JavaSpaces.
L'évaluation des frameworks montre un surcoût en temps de
développement raisonnable et des surcoûts en temps d'exécution
négligeables en l'absence de tolérance aux pannes. Les
expériences menées jusqu'à 256 noeuds sur une grappe de PCs
bi-coeurs, démontrent une meilleure efficacité de la solution de
tolérance aux pannes de FT-GReLoSSS par rapport à des solutions
existantes de niveau système (LAM/MPI et DMTCP).}
}