S'abonner au fil des news (flux RSS)

Fil des news

20240514 / slurmctl and array jobs

slurmctl is back ONLINE

TL;DR:

There is a known bug in our version of slurm, where in a large array job, if two subtasks fail at the same time, one will be left stuck in FAIL/REQUEUE mode indefinitely. This can segfault the slurm controller at restart (like when rotating log, for example).

And things go sideways in the accounting database very fast (it took only 3 seconds to hang the database and segfault the controller).

Workaround:

  • on our part, a daily script to cleanup the jobs states
  • on YOUR part : do not submit job arrays on multiples partitions, stick to one only.
2024/05/14 14:03 · ltaulell

20240513 / Network failure

  • BOFH excuses, Chapter 6 -Solar Flares-

So, following an “electronic shower” of some sort, a network device decided to stop last night, cutting access to ssh gateways. It has been handled, with hammer force.

  • slurm controller is DOWN, we are working on it

database badly corrupted by a job array, manual cleaning in progress.

2024/05/13 08:26 · ltaulell

20240503 / Notre stratégie pour réduire la consommation énergétique du PSMN

Chers toutes et tous,

Voici quelques mots d'explication sur les modifications du fonctionnement du PSMN, qui est expérimenté depuis le début de la crise énergétique et que l'on est en train d'implémenter.

La hausse des prix d’électricité par un facteur 7 est responsable de la moitié des déficits considérables, que l'école affiche en 2023 et 2024 et qu'elle ne pourra pas porter au-delà. La part de nos activités est non-négligeable et nous travaillons sur un ensemble de pistes pour la réduire avec un impact MINIMAL sur vos recherches :

1) Mieux refroidir

Avec son PUE de 1,3 en moyenne sur l'année la salle SING du DCENSL est à l'état de l'art (https://en.wikipedia.org/wiki/Power_usage_effectiveness), mais le développement technique ne s’arrête pas. Comme vous le savez peut-être nous expérimentons (dans la salle AutoCom) le refroidissement de serveurs informatiques par immersion dans des bains d'huile. Si vous vous rendez sur

  https://www.cbp.ens-lyon.fr/python/forms/CloudCBP

et choisissez un serveur appelé “…oil..” du CBP@Cloud, vous pouvez travailler sur un serveur immergé. Ça fonctionne aussi bien ou même mieux que les mêmes serveurs hébergés dans la salle SING (“…air…”). Cette technologie devrait nous permettre de faire du “free cooling” pendant toute l'année. L'école a mis en priorité l'aménagement d'une nouvelle salle informatique “Immersion” ou on pourrait pratiquer le HPC 25% moins cher et approcher un PUE voisin de 1.0.

2) Valoriser la chaleur produite …

… pour réduire notre facture de chauffage. La manière la plus simple est de placer des serveurs de calcul dans des bureaux pendant l'hiver (les “anchiales” du Cloud@CBP). Pour la salle SING il nous faudrait une “grosse” pompe à chaleur pour injecter la chaleur fatale des calculs dans le chauffage du site Monod. Cela devrait être plus simple pour la future salle Immersion, car l'eau dans le circuit extérieur de refroidissement est beaucoup plus chaude.

3) Renouveler les serveurs

Nous avons un financement CPER commun avec nos partenaire du site et la part de l'école va nous permettre de remplacer nos plus anciens serveurs par des modèles plus efficaces. Malheureusement pas disponible tout de suite.

4) Calculer au bon moment

Nous essayons en ce moment d'exploiter la difference actuelle d'un facteur trois à cinq (!) entre les prix d'électricité pendant la journée et la nuit en:

a) réduisant la fréquence des serveurs pendant la journée (sauf pour les partitions “performance”(“flix”) pour des clients payants, que vous pouvez continuer à utiliser pour des jobs courts et des tests)

b) empêchant le démarrage de calcul pendant la journée (vous voyez l'effet, si vous regardez les stats hebdomadaire du PSMN sur https://www.ens-lyon.fr/PSMN/doku.php?id=news:stats on concentre les calculs pendant la nuit, quand ils coûtent moins cher)

Il y aura sûrement quelques couacs et je vous demande un peu de patience pendant la phase de tests. L'adaptation de la durée maximale des jobs est en cours et on doit identifier les queues, qui doivent rester ouvertes pour des tests pendant la journée.

J'espère que ces explications sur ce qu'on fait pour vous vous donnent une meilleure idée de nos préoccupations et contraintes. On doit économiser et c'est d'autant plus important, car le déficit réduit la capacité de l'école à financer les investissements nécessaires pour réaliser des reductions supplémentaires de coûts.

Si vous vous posez la question, si il y a aussi quelque chose que vous pouvez faire pour nous tous, voilà quelques idées:

1) Calculer mieux

Faites un effort pour paramétrer vos calculs de manière qu'ils fassent le meilleur usage du matériel (ne pas réserver tout un noeud, quand vos avez besoin d'un coeur; optimiser le nombre de coeurs et noeud pour des calculs parallèles (https://en.wikipedia.org/wiki/Amdahl%27s_law); …). On fait notre mieux de vous aider.

2) Inclure des co-financements pour nos plateformes de calcul et données dans vos contrats de recherche

C'est quelque chose, que les plus actifs parmi vous ont l'habitude de faire et votre succès est une des raisons qui font que le CBPsmn est devenu un des plus grand mesocentre académique de calcul en France:

  https://calcul.math.cnrs.fr/pages/mesocentres_en_france.html

Traditionnellement vous avez cherché à financer des investissements dans du nouveau matériel et l'école assumait le fonctionnement (i.e. la meilleure partie des RH au CBPsmn, les aménagements successifs du data center pour assurer son fonctionnement à l'état de l'art et les coûts d'électricité). Avant la crise énergétique ces derniers, accumulés sur 5 ou même 10 ans de fonctionnement, n'arrivaient pas à la hauteur de l'investissement initial. Or maintenant ils la dépassent au bout de 2 ou 3 ans. C'est pour ça que nous avons maintenant mis en place des formules, qui nous permettent de vous facturer pour des heures de calcul ou les hébergement de serveurs achetés.

3) Faire savoir “en haut” (vice présidence recherche <vice.presidence.recherche @ ens-lyon.fr>) à quel point l'accès aux plateformes du CBPsmn est important pour votre recherche. Je le dis toujours et nos VPR le savent bien, mais ça ne peut pas faire de mal de le rappeler, quand il y a des arbitrages à faire au niveau de l'école.

Bien cordialement,

Ralf Everaers

Directeur du CBPsmn

2024/05/03 15:37 · ltaulell

20240502 / Reminder

Pour rappel : l'usage de nos formulaires web n'est PAS optionnel, c'est notre moyen de créer et suivre nos tickets d'intervention. Merci d'y penser pour la prochaine fois.

As a reminder: the use of our web forms is NOT optional, it is our way of creating and tracking our intervention tickets. Thank you for using it next time.

Formulaires du PSMN

2024/05/02 10:13 · ltaulell

20240425 / Energy crisis

As a test, starting tonight, following partitions will no longer start jobs between 6h and 22h (on hold, PartitionDown).

Jobs will only be started at night. Running jobs will continue running.

In test : E5 Lake Lake-bigmem Epyc Cascade

2024/04/25 13:41 · ltaulell
news/blog.txt · Dernière modification : 2020/08/25 15:58 de 127.0.0.1