Outils

Agenda de l'ENS de Lyon

Resilient scheduling algorithms for large-scale platforms

Date
jeu 18 juin 2020
Horaires

14H00

Lieu(x)
Intervenant(s)

Soutenance de M. Valentin LE FEVRE du LIP sous la direction de M. Yves ROBERT

Organisateur(s)
Langue(s) des interventions
Description générale

Cette thèse se concentre sur deux problèmes majeurs dans le contexte du calcul haute performance : la résilience et la consommation d’énergie. Les machines de calcul étant de plus en plus grosses pour viser les 1018 opérations de calcul par seconde (exascale), celles-ci sont sujettes à de nombreuses pannes en plus de consommer de plus en plus d’énergie. La réduction de la consommation d’énergie, la réduction du temps de calcul et la gestion du nombre nombre de fautes sont trois problématiques étroitement liées : par exemple la réplication (redondance de calcul) permet de subir moins d’erreurs mais induit un surcoût énergétique important ainsi qu’une diminution du nombre de ressources disponibles.
En particulier, cette thèse se concentre sur divers mécanismes de “checkpoint/restart“ (sauvegarde de l’état d’une application pour repartir de celle-ci lors d’une panne) : la première partie traite de checkpoints sur plusieurs niveaux, de l’enrollement de ressources supplémentaires pour palier la latence des systèmes et de checkpoint dans des graphes de tâches quelconques. La deuxième partie traite de stratégies optimales de checkpoint quand elles sont couplées avec de la réplication (dans des chaines de tâches, sur des plate-formes hétérogènes et enfin avec de la duplication de processus).
La dernière partie explore quelques problèmes d’ordonnancement liés aux perturbations croissantes dans les plate-formes à large échelle.
 

Gratuit

Mots clés

Disciplines