Ceci est une ancienne révision du document !
Calendrier prévisionnel des Évolutions
Évolutions 2019
Clusters
Novembre à Décembre 2019 :
Opérations en cours sur le cluster X5:
arrêt des serveurs r422:
arrêt des serveurs sl390:
arrêt des queues matlab et matlabbig du 20/12/2019 jusqu'à début 2020. Fait le 20/12/2019 de nouveau up
arrêt des queues piv_debianA, B et C et regroupement en une seule queue piv_debian début 2020. Fait le 20/12/2019 piv_debian up
arrêt des serveurs r815:
Opérations en cours sur le cluster E5:
déplacement physique des R730 GPU (E5 vers Lake)
La Queue r730gpuRTX2080ti est arrêtée pour déplacement des serveurs jusqu'au 15/11/2019 Fait le 16/12/2019
r730gpuRTX2080ti back online, NO SCRATCH
déplacement physique de chassis C82 (E5)
déplacement physique des scratch Chimie (E5 vers Lake) et Themiss (Lake)
arrêt pour déplacement dans la semaine du 18 au 22/11/2019 :
des files d'attente M6142 C et D OK le 26/11/2019
des compilateurs e5-2670comp[1-2] OK le 27/11/2019
des files d'attente h48-E5 (partiel) et E5-2670 F (partiel) OK le 28/11/2019
des compilateurs m6142comp[1-2] vers Lake OK le 02/12/2019
nouveau scratch Bio sur Lake : OK (28/11/2019)
nouvelles frontales, cl6242comp1 et cl6242comp2 : OK (27/11/2019)
arrêt/redémarrage des serveurs de visualisation pour changement de carte infiniband (dual connect)
Nouveau cluster "Lake" (en cours d'installation)
Nouveau scratch “Lake” :
/scratch/
├── Lake/ (à venir, common to Lake cluster)
├── disk/ (local to some servers)
├── Chimie (reserved to chimie usage)
├── Bio (reserved to biologie usage)
...
└── Project_name (reserved to some servers, with dedicated hardware)
Avril 2019 :
files d'attentes M6142 renommées en SG6142
upgrade système, passage en Debian 9.8 [coupure du 20/04/2019] OK
upgrade CUDA (driver 418 et CUDA 9.0 + 9.2) [coupure du 20/04/2019] OK
Unified scratch
, new scratchs hierarchy, enabling easy inclusions of upcoming hardware OK
Here's the new scratch :
/scratch/
├── E5/ (existing E5 scratch, available to E5 cluster)
├── nvme/ (local to some servers)
├── ssd/ (local to some servers)
├── Project_name (local to some servers, with dedicated hardware)
...
└── X5/ (existing X5 scratch, available to X5 cluster)
Stockage
2019 :
mise en production data9 (transfert geol, +600To brut)
migration home du cral sur data8 OK
achat serveur de bases de données (hors garantie)
achat data10, renouvellement chimie (hors garantie)
Évolutions 2018
Clusters
Juillet - août 2018
Nouvelle queue x5570deb48C 80 coeurs Intel x5570 à 2,9Ghz et 6Go par coeur ⇒ OK 15/07
Nouvelle queue x5570deb24A 112 coeurs Intel x5570 à 2,9Ghz et 3Go par coeur ⇒ OK 23/07
Mai - juin 2018
Suppression de la queue E5-2667v4deb128nl ⇒ OK 07/05
Remplacement de la queue E5-2667v4deb128nl par la queue E5-2667v2deb128nl ⇒ OK 09/05
Suppression de la queue E5-2667v2h6deb128 ⇒ OK 07/05
Remplacement de la queue E5-2667v2h6deb128 par la queue E5-2667v4h6deb128 ⇒ OK 07/05
Nouvelle queue x5570deb48A 192 coeurs Intel x5570 à 2,9Ghz et 6Go par coeur ⇒ OK 15/05
Nouvelle queue x5570deb48B 192 coeurs Intel x5570 à 2,9Ghz et 6Go par coeur ⇒ OK 15/05
Nouvelle queue privée PhotoChimieB, 8 serveurs 192 coeurs Intel 6142 à 2,6Ghz, 16Go par coeur et 2To de /ssdscratch par serveur ⇒ OK 31/05
Remise en service de la queue x5650lin24ibA ⇒ OK 15/05
Remise en service de la queue x5650lin24ibB ⇒ OK 15/05
Mars - avril 2018
Suppression de la queue piv_debian ⇒ en cours.
Suppression de la queue x5570deb24A 192 coeurs Intel x5570 à 2,9Ghz et 3Go par coeur ⇒ OK 30/03
Suppression de la queue x5570deb24E 192 coeurs Intel x5570 à 2,9Ghz et 3Go par coeur ⇒ OK 23/03
Suppression des queues privées E5-2670deb256A ⇒ OK 30/04
Suppression des queues privées E5-2670deb256B et E5-2670deb256C ⇒ en cours.
Suppression de la queue M6142deb384C 384 coeurs Intel 6142 à 2,6Ghz et 12Go par coeur ⇒ en cours.
Nouvelles queues privées piv_debianA et piv_debianB ⇒ en cours d'installation.
Nouvelle queue x5570deb48A 192 coeurs Intel x5570 à 2,9Ghz et 6Go par coeur ⇒ en cours d'installation.
Nouvelle queue x5570deb48B 192 coeurs Intel x5570 à 2,9Ghz et 6Go par coeur ⇒ en cours d'installation.
Nouvelle queue E5-2670deb256 256 coeurs E5-2670 à 2,6Ghz et 16Go par coeur ⇒ OK 16/03
Nouvelle queue M6142deb384B 768 coeurs Intel 6142 à 2,6Ghz et 12Go par coeur ⇒ OK 30/04
Nouvelle queue privée PhotoChimieA 8 serveurs 192 coeurs Intel 6142 à 2,6Ghz, 16Go par coeur et 2TO de /ssdscratch par serveur ⇒ OK 30/04
Nouveau serveur de compilation M6142comp2 32 coeurs Intel 6142 à 2,6Ghz et 12Go par coeur ⇒ OK 30/04
Janvier - février 2018
re-démarrage dans le nouveau datacenter ⇒ bientôt terminé (il reste des x5nnn à ré-installer)
Nouvelle queue M6142deb384A 768 coeurs Intel 6142 à 2,6Ghz et 12Go par coeur ⇒ OK 13/02
Nouvelle queue M6142deb384B 768 coeurs Intel 6142 à 2,6Ghz et 12Go par coeur ⇒ en cours d'installation.
Nouvelle queue M6142deb384C 384 coeurs Intel 6142 à 2,6Ghz et 12Go par coeur ⇒ OK 13/02
Nouveau serveur de compilation M6142comp1 32 coeurs Intel 6142 à 2,6Ghz et 12Go par coeur ⇒ OK 13/02
Nouveau serveur de compilation M6142comp2 32 coeurs Intel 6142 à 2,6Ghz et 12Go par coeur ⇒ bientôt.
Stockage
Évolutions 2017
novembre-décembre 2017
mai 2017
avril 2017
Évolution à 384 coeurs de la queue E5-2697Av4deb256 ⇒ OK 05/02
Installation de deux serveurs de compilation E5-2667v4comp1 et comp2 ⇒ OK 26/04
Suppression de deux serveurs de compilation E5-2670comp3 et comp4 ⇒ OK 25/04
Reprise à zéro du scratch E5
janvier 2017
Retour à 384 coeurs de la queue E5-2670deb128A en cours ⇒ 31/01 ⇒ OK 01/01
Retour à 384 coeurs de la queue E5-2670deb128B en cours ⇒ 31/01 ⇒ OK 01/01
Retour à 384 coeurs de la queue E5-2670deb128C en cours ⇒ 31/01 ⇒ OK 01/01
Retour à 384 coeurs de la queue E5-2670deb128D en cours ⇒ 31/01 ⇒ OK 01/01
Stockage
Annuaire utilisateurs
Dans le cadre du CPER CIDRA (contrat de plan état-région), obtenu via la FLMSN
(Fédération Lyonnaise de Modélisation et Sciences Numériques), un annuaire unique
des utilisateurs (des ressources de la FLMSN) va être mis en place. Dès déblocage du financement,
le système d'authentification du PSMN sera lourdement modifié pour s'appuyer sur cet annuaire unique.
Évolutions 2016
Clusters
décembre 2016
Suppression de la queue E5-2670_test ⇒ OK
Suppression de la queue x5650_ib_test ⇒ OK
Suppression de la queue x5570_ib_test ⇒ OK
Création de la queue E5-test ⇒ OK
Suppression de la queue E5-2667v2deb128 ⇒ OK
Création de la queue E5-2667v2d2deb128 ⇒ OK
Création de la queue E5-2667v2h6deb128 ⇒ OK
Suppression de la queue E5-2670h3deb128 ⇒ OK
Suppression de la queue E5-2670d3deb128 ⇒ OK
Suppression de la queue E5-2670deb128bio ⇒ OK
Queue E5-2670deb128F portée à 384 coeurs ⇒ OK
novembre 2016
Queue E5-2670gpuM2070deb64 transformée en E5-2670gpuM2070deb128 ⇒ OK
Queue E5-2670gpuM2090deb64 transformée en E5-2670gpuM2090deb128 ⇒ OK
Queue E5-2670gpuK20deb64 transformée en E5-2670gpuK20deb128 ⇒ OK
Queue monointeldeb64 supprimée au profit de monointeldeb128 ⇒ OK
Acquisition et installation de nouveaux serveurs
24 serveurs bi-sockzt E5-2667v4 128GO de mémoire ⇒ OK
16 serveurs bi-sockzt E5-2667v4 256GO de mémoire ⇒ OK
octobre 2016
Création queue E5-2697Av4deb256 ⇒ OK
Acquisition et installation de nouveaux serveurs
8 serveurs bi-socket E5-2697Av4 256Go de mémoire ⇒ OK
septembre 2016
Transformation de la queue E5-2670deb128E en E5-2670deb128F ⇒ OK
Transformation de la queue E5-2670deb64A en E5-2670deb128E ⇒ OK
Transformation de la queue E5-2670deb64nl en E5-2670deb128nl ⇒ OK
Août 2016
Juillet 2016
Transformation de la queue E5-2670deb64B en E5-2670deb128B ⇒ OK
Transformation de la queue E5-2670deb64C en E5-2670deb128C ⇒ OK
Création de la queue E5-2670deb128E ⇒ OK
Juin 2016
Transformation de la queue E5-2670deb64E en E5-2670deb128A ⇒ OK
Transformation de la queue E5-2670deb128 en E5-2670deb128B ⇒ OK
Transformation de la queue E5-2670deb64D en E5-2670deb128RNO (avec autorisation) ⇒ OK
Stockage
Q1 2017
Test du réseau Intel OmniPath
Mise en production de r730data8 (+stockage de 240TB)
Remise en service de r720data5 (+stockage de 240TB)
Mise en production de r720visucral (+stockage de 24TB)
Septembre 2016
Mise à jour du GlusterFS de /scratch E5
Mise à jour du GlusterFS de /scratch x55
Mise en production de r730gpgpu3
Mise en production de r730gpgpu4
Août 2016
Juin 2016
Les données des groupes “biologie” (igfl,lbmc,ciri,rdp) transférées de r720data1 vers r730data7 (+stockage de 240TB)
Groupe collision transféré de r720data1 vers r730data6
Autres
Avec l'augmentation constante des volumétries de stockage demandées au PSMN, nous atteignons
les limites physiques nous permettant de dupliquer (sauvegarder) vos données dans une fenêtre de 24h.
Nous allons donc arrêter le système automatique actuel de sauvegarde de l'intégralité des volumes
et vous proposer un espace de sauvegarde individuel et manuel, soumis à quota.
Le système de snapshots étant propre à chaque volume, il fonctionnera toujours et nous serons
en mesure de récupérer les erreurs datant de moins d'une semaine.
Évolutions 2015
Clusters
arrêt définitif des m600 au second trimestre 2015 ⇒ OK
arrêt définitif des r410 (Centos5) en septembre 2015 ⇒ OK
arrêt définitif des dl165 en septembre 2015 ⇒ OK
arrêt définitif des r610 en septembre 2015 ⇒ OK
arrêt des frontales correspondantes ⇒ OK
refonte des r815 (accès au scratch global x56) ⇒ OK
redémarrage des sl390-48 en (fin) octobre 2015 ⇒ dédié mono
extension à 384 coeurs de la queue E5-2667v2deb128 en septembre 2015 ⇒ OK
extension à 384 coeurs et ouverture à tous de la queue E5-2670deb64nl en septembre 2015 ⇒ OK
extension à 256 coeurs de la queue E5-2667v2deb128nl (avec autorisation) en septembre 2015 ⇒ OK
retour à 384 coeurs de la queue E5-2670deb64A en septembre 2015 ⇒ OK
retour à 384 coeurs de la queue E5-2670deb64B en septembre 2015 ⇒ OK
retour à 384 coeurs de la queue E5-2670deb64C en septembre 2015 ⇒ OK
passage à 192 coeurs des queues x5570deb24A,B,C,D et E en septembre 2015
passage à 288 coeurs de la queue monointeldeb24 en septembre 2015
passage à 102 coeurs de la queue monointeldeb48 en septembre 2015
création de la queue E5-2670deb256D (128 coeurs avec autorisation) en septembre 2015 ⇒ OK
création de la queue r730deb128 (40 coeurs) en septembre 2015 ⇒ OK
création de la queue r7x0deb128gpu (20 slots avec autorisation) en septembre 2015 ⇒ OK
Autres
Avec l'augmentation constante des volumétries de stockage demandées au PSMN, nous atteignons
les limites physiques nous permettant de dupliquer (sauvegarder) vos données dans une fenêtre de 24h.
Nous allons donc arrêter le système automatique actuel de sauvegarde de l'intégralité des volumes
et vous proposer un espace de sauvegarde individuel et manuel, soumis à quota.
Le système de snapshots étant propre à chaque volume, il fonctionnera toujours et nous serons
en mesure de récupérer les erreurs datant de moins d'une semaine.
Dans le cadre du CPER CIDRA (contrat de plan état-région), obtenu via la FLMSN
(Fédération Lyonnaise de Modélisation et Sciences Numériques), un annuaire unique
des utilisateurs (des ressources de la FLMSN) va être mis en place. Début 2016,
le système d'authentification du PSMN sera lourdement modifié pour s'appuyer sur cet annuaire unique.
Le PSMN envisage, en remplacement du vieillissant SGE (qui n'évolue plus), de changer de gestionnaire
de jobs. Le logiciel slurm sera testé prochainement (déjà utilisé au P2CHPD-Lyon1 et au CBP).
Évolutions 2014
Évolutions 2013
Afin de préparer le matériel Équip@méso dont la livraison est terminée, les clusters actuels vont être réorganisés par petits blocs.
Semaine 27/2013
Semaine 26/2013
Lundi 24 juin et mardi 25 juin 2013, intervention électrique sur les diffuseurs de froid.
À partir du mardi 25 juin au soir, re-démarrage progressif de tous les clusters.
Semaine 25/2013
Lundi 17 juin 2013, arrêt des serveurs dl165 et r410 séquentiels (r410lin100 à 106).
Lundi 17 juin 2013, arrêt des serveurs x41z et de x41zcomp.
Mardi 18 juin 2013, re-démarrage des dl165 si tout se passe bien.
Mardi 18 juin 2013, re-démarrage d'une dizaine de serveurs x41z si tout va bien.
Vendredi 21 juin au matin, arrêt de tous les serveurs sous
OS Debian (sl230, dl165, dl175, m600) et de tous les serveurs
sl390 et
c6100.
Vendredi 21 juin dans la journée arrêt de tous les autres serveurs et de tous les services du PSMN.
Vendredi 21 juin en fin d'après-midi, arrêt électrique total.
Samedi 22 juin coupure générale de l'alimentation électrique pour maintenance.
Semaine 20~22/2013
Re-organisation des interconnexions infiniband des queues sl390 et c6100.
Installation du second cube “allée chaude” = arrêt des sl390, c6100 et sl230.
Déplacement physique des dl165.
Déplacement physique des r410-48 (séquentiel).
Semaine(s) 16~24/2013
Changement des plus anciens serveurs de /home dans la seconde quinzaine du mois d'avril 2013 : Des interruptions de service sont à prévoir par groupe d'utilisateurs,
Re-organisation des interconnexions infiniband des queues sl390 et c6100.
Semaine 12/2013
Certains serveurs dl165 (4) sont devenu 100% séquentiels, vous pouvez y accéder via la queue monoamd_debian24.
Les autres serveurs dl165 (23) sont maintenant accessible via la queue dl165_debian24.
Voir les détails sur la page suivante.
Les serveurs dl175 sont maintenant 100% parallèles, et accessible via la queue dl175_debian32_ib.
Voir les détails sur la page suivante.
NOTA BENE : Tous ces serveurs fonctionnent maintenant avec le nouveau système d'exploitation du PSMN (Debian 7).
PS: Le compilateur dl175comp-pub reste encore à re-installer en Debian 7. Le compilateur dl175comp-pub a aussi été installé en Debian 7, voir 20130402 / dl175comp-pub.
Les nouveaux serveurs à bases de processeurs Intel Sandy-bridge sont dans une période de test. Ils seront ouverts petit à petit à certains utilisateurs contactés personnellement (Ces utilisateurs essuyant les plâtres). Lorsque les tests seront terminés, vous en serez informés, et les noms des nouvelles queues seront officialisés.
Semaine 11/2013
Les serveurs dl165
vont devenir 100% séquentiels, et inversement, les dl175
vont récupérer l'interconnexion InfiniBand, pour devenir 100% parallèles.
Pour ce faire, nous allons arrêter ces serveurs afin de tranférer les cartes d'interconnexion et certains disques.
Les queues:
dl165_debian_ib
dl175lin32gb
vont donc être bloquées dimanche 3 mars 2013 afin que les jobs soient terminés lundi 11 mars 2013.
Dès que l'opération sera terminée, les serveurs seront re-démarrés et vous serez avertis des éventuelles modifications apportées.
La même semaine, si tout va bien, 16 nouveaux serveurs à bases de processeurs Intel Sandy-bridge seront accessibles. La version d'OS sera la même que pour les futurs serveurs Équip@méso (Debian 7).