Outils

Agenda de l'ENS de Lyon

Détection d'anomalies de latence dans les systèmes distribués avec eBPF

Date
mer 18 déc 2024
Horaires

10:00

Intervenant(s)

Soutenance de Théophile DUBUC sous la codirection nationale de Pascale VICAT-BLANC et Alain TCHANA.

Organisateur(s)
Langue(s) des interventions
Description générale

Le Cloud Computing est en plein essor pour répondre à une demande croissante de puissance de calcul dans l'industrie, tout en conservant des coûts modérés. 
Les technologies émergentes, comme la réalité virtuelle ou augmentée, ou les jumeaux numériques apportent de nouvelles contraintes et exigences pour pouvoir être portées dans le Cloud. Le temps de réponse de ces applications doit être le plus faible possible, ce qui se traduit par de fortes exigences sur la latenced'accès aux ressources virtuelles et aux données des fournisseurs d'infrastructure et de service Cloud tels qu'Outscale.  Les technologies modernes de virtualisation permettent d'atteindre des latences proches de celles des machines physiques pour la plupart des composants d'une machine virtuelle, dont le processeur et la mémoire. En revanche, la pile de stockage des machines virtuelles a souvent des performances limitées en raison de sa complexité.
Les fournisseurs de Cloud ont donc intérêt à optimiser leur architecture de stockage. Cela implique de diagnostiquer ses défauts et d'évaluer l'impact des changements de configuration et de matériel. Cela passe par la mesure des performances du stockage, dont les métriques critiques sont la latence (temps de réponse) et les IOps (opérations d'entrée/sortie par seconde), qui sont sujettes à des garanties de la part du fournisseur vis-à-vis de ses clients. 
Cependant, le contexte particulier d'un fournisseur de Cloud rend les outils traditionnels inadaptés, car il requiert des informations spécifiques, avec des contraintes supplémentaires dues à l'architecture des datacenters, l'opacité des applications executées et au matériel industriel utilisé. 
Cette thèse se consacre à l'étude de l'observabilité et la détection d'anomalies de latence dans les systèmes distribués et en particulier du stockage dans le contexte d'un fournisseur de Cloud. 
Elle explore l'utilisation de eBPF, une technologie qui permet de placer des sondes dans le noyau de Linux de manière sécurisée et efficace, afin de construire des outils d'observabilité du stockage qui remplissent les contraintes d'un fournisseur de Cloud. 
Ce manuscrit présente trois contributions principales. Une première se concentre sur la surveillance en continu du système de stockage, typiquement NFS (Network File System), pour détecter rapidement les problèmes et alimenter la prise de certaines décisions. Cette méthode est implémentée dans un outil nommé TrackIOPs, qui extrait la latence et les IOps de NFS en temps réel, avec un surcoût négligeable sur les performances de l’architecture de stockage. 
La seconde contribution est une méthode et pour estimer l’état de la connexion réseau entre un client (typiquement une machine hôte du Cloud) et un serveur RPC (Remote Procedure Call, un protocole de transport sur lequel se basent de nombreux services distribués dont NFS). En extrayant des informations de latence sur le réseau depuis la couche RPC directement, cette méthode permet d’améliorer la qualité des traceurs surveillant n’importe quelle application basée sans nécessiter de filtres réseau intrusifs. Un outil appelé TrackRPC a été developpé et intégré à TrackIOPs d'après cette méthode pour enrichir les métriques extraites par celui-ci. 
Enfin, l’objectif de la troisième contribution est de faciliter l’accès à la technologie eBPF pour comprendre et inspecter le comportement des sous systèmes du noyau de Linux, sans avoir besoin d'écrire de code, et donc sans nécessiter de grande expertise du noyau ni de eBPF. 
Autograph génère un traceur eBPF sur un ou plusieurs sous-sysèmes choisis par l'utilisateur. Le traceur généré donne une visualisation du workflow du noyau lors de l’exécution d’une application cible, et surveille les latences dans le noyau pour signaler toute anomalie durant l’exécution.

Gratuit

Mots clés

Disciplines