| 2013/03/22 14:46 | | 20130108 / r410comp2-pub
Problème récurrent avec r410comp2-pub.
Il peut ne plus répondre à l'adresse r410comp2-pub, mais vous pouvez toujours le joindre à l'adresse r410comp2.
Merci de prévenir les admistrateurs lorsque vous rencontrez ce problème. | hard |
| 2013/03/22 14:47 | | 20130312 / C6100 + matlab
La machine C6100lin40 (dédiée matlab) n'a plus de /scratch (disque HS).
hard soft | hard,
soft |
| 2013/03/22 14:48 | | 20130322 / Semaine 12 2013
Certains serveurs dl165 (4) sont devenu 100% séquentiels, vous pouvez y accéder via la queue monoamd_debian24.
Les autres serveurs dl165 (23) sont maintenant accessible via la queue dl165_debian24.
Voir les détails sur la page suivante.
Les serveurs dl175 sont maintenant 100% parallèles, et accessible via la queue | hard,
batch |
| 2013/04/02 15:28 | | 20130402 / dl175comp-pub
dl175comp-pub est de nouveau accessible, et dans le nouvel OS du PSMN (Debian “Wheezy” 7).
hard | hard |
| 2013/04/04 06:40 | | 20130404 / C6100
C6100lin40 : disque /scratch en panne, réparation en cours.
hard | hard |
| 2013/04/08 08:37 | Loïs Taulelle | 20130408 / SL230
* SL230lin64
Problème sur un disjoncteur ce WE, un bloc de 8 noeuds SL230 s'est arrêté. Problème réglé ce matin.
* SL230lin64
La carte infiniband HS du noeud sl230lin12 (groupe SL230lin64) est -enfin- réparée.
hard | hard |
| 2013/04/10 10:14 | Loïs Taulelle | 20130410 / SL230, OpenMPI
* SL230lin64
Encore un problème électrique sur un bloc de 12 noeuds. Machines redémarrées...
* OpenMPI
Nouvelles versions d'OpenMPI, disponibles pour l'environnement Centos 5, compilées avec Intel-12.0.084 :
* | hard,
soft |
| 2013/04/19 09:26 | Loïs Taulelle | 20130419 / Coupure électrique générale
Suite à la coupure électrique d'hier (jeudi 18/04/2013), nous rencontrons des soucis avec la passerelle allo-psmn.
Les noeuds de calculs se sont éteind brutalement, tous les calculs en cours ont été perdus. | hard |
| 2013/04/22 14:06 | Loïs Taulelle | 20130422 / Reprise progressive
Suite à la coupure du 18/04, voici un rapide état des lieux :
* le serveur de fichier du groupe cral a un disque HS. Ses performances ne sont pas dégradées. SAV en cours.
* 5 noeuds de calculs, dont r410comp2, sont en panne, et en cours d'analyse. | hard,
batch |
| 2013/04/24 08:59 | Loïs Taulelle | 20130424 / Reprise progressive (suite & fin)
* Le disque en panne du serveur de fichier du groupe cral a été remplacé. Ses performances sont légèrement dégradées par la vérification du système de fichier (en cours, ~6h),
* Seul r410comp2-pub | hard,
batch |
| 2013/05/13 14:17 | Loïs Taulelle | 20130507 / Travaux salle informatique du LR6
Afin d'effectuer des travaux dans la salle informatique du LR6 (installation d'une allée chaude et de matériel de diffusion du froid), un arrêt de certains serveurs et de certaines queues est prévu. | hard,
batch |
| 2013/05/13 14:22 | Loïs Taulelle | 20130513 / dl165
En fonction de l'avancement des travaux sur la nouvelle allée chaude, nous pourrons être amenés à déplacer physiquement (donc, power off, jeudi 16/05 ou vendredi 17/05 ) les noeuds de calculs du groupe dl165.
edit : raté. Ces machines seront déplacés avant la coupure electrique du 22/06/2013. | hard,
batch |
| 2013/08/27 09:46 | Loïs Taulelle | 20130608 / Problème de disjoncteur
Un disjoncteur a sauté vendredi 7 juin vers 15h10 et un switch infiniband
a été arrêté quelques minutes. Les queues affectées ont été:
* pemfcnl
* sl230_debian64_ib_phy
* sl230_debian64_ib_spe
* sl230_debian64_spe | hard,
batch |
| 2013/06/21 12:31 | Loïs Taulelle | 20130621 / Arrêt électrique
RAPPEL
* Arrêt de toutes les machines de services (allo-psmn, compilateurs et serveurs de fichiers)
* Arrêt de tous les noeuds de calculs
hard batch soft
20130621 / Modification du système de queues
L'arrêt de l'alimentation électrique est mis à profit pour modifier le système de queues:
Sont supprimées: | hard,
batch,
soft |
| 2013/06/25 15:40 | Loïs Taulelle | 20130625
Contrairement aux prévisions, les travaux sur le système de climatisation ne sont toujours pas terminés.
L'ensemble des serveurs et noeuds de calcul reste donc éteint...
hard batch soft | hard,
batch,
soft |
| 2013/06/26 13:12 | Loïs Taulelle | 20130626
La passerelle (allo-psmn), les compilateurs et les serveurs de fichiers sont démarrés.
Les files d'attentes r410*, r815 et sl390-48 sont en cours de démarrage. L'ensemble des noeuds de calculs n'ayant pas été redémarré, les informations données par qstat sont fausses. | hard,
soft,
batch |
| 2013/06/28 11:13 | Loïs Taulelle | 20130628
Les files d'attentes E5-2670deb64_test, E5-2670deb64F, x5650_ib_test, x5650lin24ibA et x5650lin24ibB sont ouvertes pour ce week-end.
Potentiellement, il y a des plâtres a essuyer. Et elles seront surement stoppées dans la semaine.
hard batch | hard,
batch |
| 2013/08/27 09:44 | Loïs Taulelle | 20130702 / Queues x5650lin24ibA, B et C
Les files d'attentes x5650_ib_test, x5650lin24ibA, x5650lin24ibB et x5650lin24ibC sont en cours
d'ouverture. Attention, les serveurs sur lesquels sont envoyés les jobs sont maintenant sous OS Debian 7; il faut donc utiliser
les environnements parallèle (sous-queues): | hard,
batch |
| 2013/07/11 14:21 | Loïs Taulelle | 20130709 / E5-2670...
Après quelques soucis techniques, les files d'attente E5-2670deb64A, E5-2670deb64B, E5-2670deb64C et E5-2670deb64D vont être ouvertes jeudi dans la journée. Les compilateurs pour cette architecture E5-2670comp1, E5-2670comp2 | hard,
batch |
| 2013/07/11 14:51 | Loïs Taulelle | 20130711 / Mise en service **temporaire**
Les files d'attente suivantes sont ouvertes en l'état pour la période juillet-août :
* E5-2670deb64A
* E5-2670deb64B
* E5-2670deb64C
* E5-2670deb64D
* E5-2670deb64F (:!: /scratch local de seulement 140Go) | hard,
batch |
| 2013/08/27 09:43 | Loïs Taulelle | 20130826 / Mise en service semaine du 26/08 au 30/08
Durant cette semaine, les serveurs de connexion et de compilation vont être re-configurés;
cela commencera lundi 26/08 par:
* les R410comp...
* les E5-2670comp*
puis les autres suivront pendant la semaine.
Ne vous étonnez-donc pas si un serveur de connexion/compilation ne répond pas. | hard |
| 2013/08/27 09:48 | Loïs Taulelle | 20130827 / Serveurs de fichiers (physique, chimie)
* Le serveur de fichiers du groupe physique est plein à ras bord. Des opérations de nettoyage et d'effacement sont en cours, mais cela va prendre du temps. Une resynchronisation des backups sera necessaire (~ 48 à 72h, il y a 16To à traiter). Le système est vu actuellement comme | batch,
hard |
| 2013/08/30 11:24 | Loïs Taulelle | 20130830 / Serveurs de fichiers suite
Le serveur de fichiers du groupe physique a été rempli à ras bord. Les opérations de nettoyage et d'effacement sont terminées.
La resynchronisation des backups est en cours (~ 48h , il reste ~ 10To à traiter).
Le NFS est toujours en read-only le temps de la synchronisation.
Les jobs qui doivent écrire ne fonctionneront pas. Soyez patients. | hard,
batch |
| 2013/09/02 09:40 | Loïs Taulelle | 20130831 / Serveurs de fichiers : fin de l'intervention
Les serveurs de fichiers des groupes physique et chimie sont de nouveau en fonctionnement normal
(grâce à Loïs) et les jobs peuvent être exécutés.
hard batch | hard,
batch |
| 2013/09/04 06:48 | Loïs Taulelle | 20130904 / Saturation réseau
Nous subissons actuellement, et pour des raisons encore indéterminées, d'énormes saturations du réseau NFS (ie: allo-psmn, compilateurs, noeuds de calculs). Les conséquences actuelles les plus visible sont que les /homes deviennent trés difficilement accessibles et que les jobs plantent. | hard |
| 2013/09/09 14:06 | Loïs Taulelle | 20130909 / scratch commun et files d'attentes E5-2670*
Nous rencontrons actuellement, suite aux problèmes réseaux de la semaine dernière, des soucis avec le /scratch commun glusterfs du nouveau cluster.
Nous allons redémarrer les serveurs du /scratch | hard,
batch |
| 2013/09/10 09:58 | Loïs Taulelle | 20130910 / Effets de seuils...
Suite à la mise en route du nouveau (gros) cluster, nous rencontrons un ensemble de problèmes récurrents, ou épisodiques, sur l'ensemble de l'infrastructure.
Nous avons déjà identifié et (partiellement) résolus des problèmes due au passage à l'échelle du réseau NFS (serveurs de fichiers). | hard |
| 2013/09/16 09:14 | Loïs Taulelle | 20130916 / scratch commun glusterfs (E5-2670*)
La reconfiguration du /scratch sur le nouveau cluster va commencer. Les files d'attentes E5-* seront redémarrées ensuite, pour le prendre en compte, dans le courant de la journée.
Mise à jour à 18h00: Les files d'attentes E5-* sont libérées. | hard,
batch |
| 2013/09/20 10:07 | Loïs Taulelle | 20130920 / Saturation réseau
Le réseau du PSMN est engorgé à saturation (depuis plusieurs jours), sans que nous soyons capables pour l'instant d'en trouver l'origine et donc de régler le problème.
Merci pour votre patience et votre compréhension. | hard,
batch |
| 2013/09/24 06:18 | Hervé Gilquin | 20130924 / Réseau suite
Bonjour, les travaux d'investigation sur le réseau se poursuivent, tous les switchs sont re-configurés,
vous serez informés dès que la situation sera redevenue normale.
Pour le staff
Hervé Gilquin
EDIT: Le problème réseau est maintenant sous contrôle (les explications viendront plus tard). Cependant, la malchance nous poursuivant, un serveur indispensable au fonctionnement du PSMN est tombé en panne | hard,
batch |
| 2013/09/25 16:51 | Loïs Taulelle | 20130925 / Réseau, suite, mais pas fin
Ce qui ne marche pas encore :
* les r410
* neptune
Ce qui remarche :
* presque tout le reste...
Il est encore possible que 2~3 choses ne fonctionnent pas de manière optimale, cela sera réglé dans les prochains jours. | hard,
batch |
| 2013/10/15 14:01 | Hervé Gilquin | 20131015 / Réseau
15h30 Problèmes réseau sous investigation (particulièrement pour le groupe chimie).
17h00 Problème résolu avec l'aide d'Emmanuel Quemener, le serveur de /home dédié au groupe
chimie avait une interface 10Gb facétieuse, un reboot a été nécessaire, des jobs ont pu en
souffrir. | hard,
batch |
| 2013/10/24 08:53 | Loïs Taulelle | 20131024 / Coupure électrique générale samedi 26/10/2013
RAPPEL
La totalité des serveurs du PSMN sera arrêtée.
Le staff va profiter de cette coupure électrique complète pour réaliser la migration des serveurs de /home (à partir de dimanche matin, et sans doute jusqu'à lundi dans la journée). | hard |
| 2013/10/29 10:29 | Loïs Taulelle | 20131029 / Migration des home
Les transferts se passent bien, mais prennent un peu plus de temps que
prévu (~190To de data à déplacer).
Dans l'état actuel des vitesses de transfert, le redémarrage de la
plate-forme n'aura lieu que mercredi, au mieux. | hard |
| 2013/10/31 15:08 | Hervé Gilquin | 20131031 / Migration des home
Redemarrage !!
La plus grande partie des clusters est redemarrée, le reste suivra dans la journée,
hors machines en panne...
Migration des /home
Certains transferts sont très lents. Les utilisateurs des groupes suivants ne
pourront pas travailler ce week-end : lasim, dpm, lmfa et cecam. | hard |
| 2013/12/17 08:01 | Hervé Gilquin | 20131217 / Coupure alimentation eau glacée
Une coupure de l'alimentation en eau glacée a lieu aujourd'hui mardi 17/12 toute la journée en relation avec l'aménagement de la salle blanche. La salle des serveurs ne sera pas assez refroidie, en conséquence les queues seront arrêtées au fur et à mesure de la montée de la température, dans l'ordre suivant: | hard,
batch |
| 2014/01/06 08:31 | Loïs Taulelle | 20140106 / Problème sur la climatisation
Il s'est produit une panne de clim dans la nuit de samedi à dimanche (environ 6h sans eau froide). Une partie des clusters (principalement les E5-2670) se sont éteinds automatiquement, y compris une partie des serveurs du | hard |
| 2014/01/14 11:12 | Loïs Taulelle | 20140114 / Climatisation again
Nous venons de nous rendre compte que la majorité des noeuds E5-2670 fonctionnaient à mi-vitesse (mesure automatique de protection contre la surchauffe) depuis le dernier pic de chaleur (dimanche 5/01/2014).
Le problème est identifié et réglé. | hard |
| 2014/01/22 16:28 | Loïs Taulelle | 20140122 / scratch commun glusterfs E5-2670deb*
Le /scratch commun glusterfs (des E5-2670deb*) est actuellement dans un état... préoccupant. Des process sont en cours pour essayer de le rendre cohérent. Si demain matin, ils n'ont pas abouti, nous serons dans l'obligation de redémarrer les serveurs du | hard |
| 2014/01/30 16:27 | Loïs Taulelle | 20140130 / Alerte climatisation
Une des pompes de circulation du circuit de climatisation a une fuite ce qui entraine l'arrêt des groupes froids (mise en protection).
Nous sommes contraint d'arrêter une partie des clusters pour éviter la surchauffe généralisée : r410, x5650 et une partie des E5-2670. | hard |
| 2014/01/31 11:08 | Loïs Taulelle | 20140131 / Climatisation (suite)
Une plaque d'étanchéité a été fixée à la place de la pompe défectueuse (réparation provisoire). Les clusters ont été relancés.
A sealing plate was attached in place of the defective pump (temporary repair). Clusters are now back on. | hard |
| 2014/03/24 15:53 | Loïs Taulelle | 20140324 / Plantage serveur de fichiers
Plantage vers 15h00, suite à une erreur encore indéterminée, du serveur de fichiers hébergeant les homes de geol, ilm, insa, ipag, lasim, lmfa, lmfaecl, phys.
Les jobs ont été perdus.
hard | hard |
| 2014/03/25 14:04 | Hervé Gilquin | 20140325 / Plantage serveur de fichiers
Plantage vers 15h00, suite à une erreur encore indéterminée (la même qu'hier apparemment), du serveur de fichiers hébergeant les homes de geol, ilm, insa, ipag, lasim, lmfa, lmfaecl, phys.
Le staff travaille sur le problème. | hard |
| 2014/03/26 15:40 | Hervé Gilquin | 20140326 / Plantage serveur de fichiers once again
Plantage vers 16h00, suite à une erreur encore indéterminée (la même que précédemment apparemment), du serveur de fichiers hébergeant les homes de geol, ilm, insa, ipag, lasim, lmfa, lmfaecl, phys. | hard |
| 2014/03/31 08:05 | Loïs Taulelle | 20140331 / Plantage serveur de fichiers
Plantage vendredi 28/03 vers 12h00, suite à “l'erreur encore indéterminée (la même que les fois précédente)”, du serveur de fichiers hébergeant les homes de geol, ilm, insa, ipag, lasim, lmfa, lmfaecl, phys. | hard |
| 2014/04/01 09:50 | Loïs Taulelle | 20140401 / Loi de l'emmerdement maximum
Ceci n'est pas un poisson d'avril
Une coupure électrique (imprévue et... involontaire) a eu lieu (vers 10h30) sur la baie principale de contrôle du PSMN (réseau 10G, serveur d'OS, supervision). Cela a entrainé le plantage, plus ou moins rapide, des compilateurs, noeuds de calculs et serveurs glusterfs (scratch commun E5) | hard,
soft,
batch |
| 2014/04/16 16:49 | Loïs Taulelle | 20140416 / Panne d'onduleur
L'onduleur protégeant le coeur de réseau, les serveurs de fichiers, la passerelle et les frontales s'est mis en panne.
EDIT: le coeur de réseau, les serveurs de fichiers, la passerelle, les frontales et le /scratch gluster ont été redémarrés. | hard |
| 2014/05/01 16:43 | Hervé Gilquin | 20140501 Panne d'une alimentation
Une alimentation est tombée en panne entre mercredi 30/04/2014 au soir et jeudi 01/05/2014 dans la matinée.
L'alimentation a été changée vers 18h00 le 01/05/204; les serveurs C8220node89 à 96 ont été impactés et les jobs
qui s'exécutaient dessus ont été perdus. | hard |
| 2014/05/12 09:11 | Loïs Taulelle | 20140512 / Clim un jour, clim toujours...
* Deux serveurs de fichiers ont planté durant le looong WE du 7/05 au 12/05
* Cela a entrainé un plantage du client NFS sur allo-psmn
* Donc des problèmes de login, d'accès aux /home et de plantages des calculs | hard |
| 2014/06/11 09:13 | Loïs Taulelle | 20140611 / reboot serveur r720data2
Le serveur hébergeant les homes de chimie, photochimie, cbp, icbms, isa, rmn, ondesint et igfldb a été surchargé par un job. Il a du être redémarré. Des jobs ont été perdus.
hard batch | hard,
batch |
| 2014/06/13 08:28 | Loïs Taulelle | 20140613 / r720data3 et frontales
Le serveur de fichier hébergeant les homes des groupes phys, geol, ilm, insa, ipag, lasim, lmfa et lmfaecl a planté cette nuit, entrainant aussi le plantage d'un certain nombre de compilateurs.
Désolé pour les désagréments. | hard |
| 2014/07/11 07:08 | Loïs Taulelle | 20140711 / r720data3
Le serveur de fichier hébergeant les homes des groupes phys, geol, ilm, insa, ipag, lasim, lmfa et lmfaecl a planté cette nuit, entrainant aussi le plantage d'un certain nombre de jobs...
hard batch | hard,
batch |
| 2014/09/17 15:01 | Loïs Taulelle | 20140917 / Climatisation
Une pompe à chaleur du groupe énergie sud (alimentant notre batiment en froid) est en panne. Notre capacité froid est diminuée de moitié environ.
hard | hard |
| 2014/09/18 09:41 | Loïs Taulelle | 20140918 / Climatisation (suite)
Les travaux sur les PAC (pompes à chaleur) de l'école vont être long (> 1 semaine).
Nous avons donc bloqués des coeurs sur différentes files pour éviter une trop forte augmentation de la température. De même, les machines diminuent automatiquement leur fréquence processeur pour éviter la surchauffe. Ce faisant, des baisses de performances sont à prévoir cette semaine | hard,
batch |
| 2014/09/29 07:26 | Loïs Taulelle | 20140929 / Panne générale
Une partie des serveurs centraux du PSMN (OS, /applis, authentification) est tombée en panne vendredi 29/09/2014 vers 18h00. Cela a entrainé le plantage successif d'une grande partie des noeuds de calculs.
Nous travaillons actuellement a tout remettre en service. | hard,
soft,
batch |
| 2014/10/03 10:10 | Loïs Taulelle | 20141002 / re-Panne générale
Le serveur OS et applis a encore planté mercredi 01/10/2014 vers 19h30 (la cause en est partiellement identifiée). Cela a entrainé le le reboot d'une grande partie des noeuds de calculs.
Le cluster E5-2670 souffre encore de problèmes. Le /scratch commun est inaccessible (un serveur en panne). | hard,
soft,
batch |
| 2014/10/03 10:15 | Loïs Taulelle | 20141003 / scratch e5-2670
Le reboot massif a mis en avant un problème sur l'ensemble du réseau infiniband (IB) du cluster E5-2670. Sa résolution nécessite une mise à jour des cartes IB, des switchs IB et potentiellement des bios de certains noeuds | hard |
| 2014/10/07 10:39 | Loïs Taulelle | 20141007 / /scratch on E5-2670
Explanations will be long, take a coffee, a tea, or quit ;o)
Last week, we experienced a threshold effect (again) while adding new nodes to E5 cluster. It lead us to reboot a big part of debian nodes. Doing this open a Murphy's box (you know the law ? It's the same, with a ribbon on it). | hard,
batch,
soft |
| 2014/10/08 10:18 | Loïs Taulelle | 20141008 / r720data1
Le serveur des homes de bio (bio igfl cbvi ibcp lbmc rdp evs ixxi lip maply umpa et psmn) s'est arrêté cette nuit. Il est de nouveau accessible.
hard | hard |
| 2014/10/09 09:11 | Loïs Taulelle | 20141009 / Coupure éléctrique le samedi 25 octobre 2014
Pour info, la prochaine coupure electrique generale pour l'ENS lyon (site Monod) est prevue le samedi 25 octobre 2014.
Nous allons profiter de cette coupure pour tout casser reconfigurer les clusters X56 et X55.
Ils seront arretes en avance (vendredi matin). Plus d'informations sur cette nouvelle configuration
seront disponible ulterieurement sur la page web du PSMN. | hard,
batch |
| 2014/10/27 11:06 | Loïs Taulelle | 20141027 / retour de coupure
Comme on pouvait s'y attendre, le retour après coupure complète se passe mal.
EDIT 13h30
* /home OK
* /scratch E5 OK
* petits clusters OK
* centos5 : r815, sl390-48 et r410C
* debian7 : monoamd*, monointel* | hard,
batch |
| 2014/10/29 08:32 | Loïs Taulelle | 20141029 / redémarrage clusters
Les noeuds E5-2670 GPU, 256G et 128G sont disponibles.
Les noeuds E5-2670 64G ont été redémarrés et seront traités par petits lots jusqu'à fin novembre.
Les noeuds X55/X56 sont en cours de remontage, sur un arbre infiniband commun, ainsi qu'un /scratch glusterfs commun. | hard |
| 2014/10/30 17:01 | Loïs Taulelle | 20141030 / probleme electrique
Une Power Distribution Unit est tombé en panne (fondue). Elle alimentait la grappe sl230 (E5-2670deb64B, E5-2670deb64nl) et les compilateurs e5-2670comp1 à 4...
hard | hard |
| 2014/11/05 10:15 | Loïs Taulelle | 20141105 / Avancement des travaux
Le r820 (à 768Go de mémoire) est de nouveau en service.
La reconfiguration des clusters X5570 et x5650 sur un même arbre infiniband suit son cours. Le glusterfs est prêt. Les tests sont en cours (avec arrêt, reboot et autre | hard |
| 2014/12/08 10:15 | Loïs Taulelle | 20141208 / Plantage serveurs de home
Un plantage “commun” a affecté 3 serveurs de home cette nuit (dimanche à lundi). Des jobs ont plantés.
La raison du plantage est encore inconnue.
hard batch | hard,
batch |
| 2014/12/15 15:34 | Loïs Taulelle | 20141215 / Many Problems
* From last Thursday (12/11/2014), we are experiencing cooling problems (T° goes high and down without warnings)
* Which leads scratch server to malfunction, or worse, hang...
* Which leads some home server to crash (chimie, cbp, icbms, isa, rmn, phys, bio, igfl, rdp, photochimie share, ondesint share) | hard,
batch |
| 2014/12/22 17:08 | Hervé Gilquin | 20141222 / Problème /scratch E5-2670
* Deux serveurs de /scratch étaient tombés.
* Ils ont été re-démarrés avec l'aide de Loïs depuis chez lui.
* Tout semble OK maintenant.
hard batch | hard,
batch |
| 2015/01/26 08:35 | Loïs Taulelle | 20150126 / Probleme electrique
Suite à une surcharge, une prise electrique (2x16A) alimentant des blocs du cluster E5 a fondu.
hard | hard |
| 2015/03/18 10:25 | Loïs Taulelle | 20150318 / Prochaine coupure éléctrique - Next main power outage
Bonjour a tous,
Pour info, la prochaine coupure electrique generale pour l'ENS lyon est prevue le samedi 18 avril 2015.
Nous allons profiter de cette coupure pour realiser les operations suivantes : | hard,
soft,
batch |
| 2015/03/19 09:15 | Loïs Taulelle | 20150319 / Frontales
Mise en service de deux nouvelles frontales de compilation : x5570comp1-pub et x5570comp2-pub.
Ces machines permettent d'accéder au /scratch/x5570-gfs-scratch des clusters suivants : c6100lin24, sl390lin24, r422
hard | hard |
| 2015/03/25 17:18 | Loïs Taulelle | 20150325 / scratch du cluster E5
Problème sur le /scratch du cluster E5-2670 (/scratch/e5-2670-gfs-scratch). Un noeud est en panne. Réparations en cours (processus long, genre 10~12h...).
hard | hard |
| 2015/03/26 16:15 | Loïs Taulelle | 20150326 / Emergency poweroff
Suite à des travaux sur le circuit principal d'eau glacée de l'école, une (grosse) fuite a été detectée, entrainant des travaux d'urgence et la coupure immédiate du circuit.
Notre circuit de refroidissement dépend pour sa majeure partie du circuit principal de l'école. Nous avons donc éteint en urgence l'ensemble des noeuds de calculs. Les serveurs de fichiers et les frontales/compilateurs restent en service (pour le moment). | hard,
soft,
batch |
| 2015/03/30 14:43 | Hervé Gilquin | 20150330 / Slow poweron
EDIT 30/03/2015 16h30 par Hervé Gilquin : Information officielle: “Redémarrage en douceur possible”. En conséquence, les
serveurs du PSMN sont démarrés en douceur. Les serveurs accédant au /scratch E5-2670 restent arrêtés jusqu'à demain. | hard,
soft,
batch |
| 2015/03/31 11:43 | Loïs Taulelle | 20150331 / glusterfs scratch on E5-26xx cluster
TL;DR: scratch filesystem on E5-26xx cluster id dead. It will be restarted from zero.
A silent corruption have made his way into the /scratch glusterfs filesystem
of the E5-26xx cluster. The glusterfs filesystem is beyond repair. | hard |
| 2015/04/01 12:58 | Loïs Taulelle | 20150401 / Full restart
Apart from 2~5 nodes (and r815 cluster), all main clusters are started.
Remember : next big shutdown, due to power outage, in a couple of weeks : Saturday April 18th 2015.
hard | hard |
| 2015/04/16 13:00 | Loïs Taulelle | 20150416 / Plantage home chimie
Le serveur des homes chimie, photochimie, cbp, isa, icbms et rmn vient de redémarrer tout seul...
hard | hard |
| 2015/04/21 09:54 | Loïs Taulelle | 20150504 / passerelle allo.psmn
La passerelle allo.psmn a été redémarrée
Suite à un problème réseau, depuis vendredi matin, la passerelle allo.psmn est arrêtée.
En conséquence, elle sera redémarrée dès que le problème réseau sera résolu. | hard |
| 2015/05/11 08:23 | Hervé Gilquin | 20150511 / Problème de serveur de /home
Problème de serveur de /home
Le serveur de /home (notamment pour les utilisateurs des groupes phys, cbp,...) a un problème
qui se traduit par le non montage du home des utilisateurs sur allo-psmn.
Ce problème est en cours de résolution: patience. | hard |
| 2015/05/28 14:45 | Loïs Taulelle | 20150528 / Reboot serveur de home Chimie + allo-psmn
1 ou plusieurs jobs ont surchargé le serveur de home Chimie (Chimie, Photochimie). Le serveur a du être redémarré.
Dans la foulée, la passerelle allo-psmn a du être redémarrée.
hard | hard |
| 2015/06/08 13:33 | Loïs Taulelle | 20150608 / Problème serveur de home + allo-psmn
Le serveur des $HOME des groupes geol, ilm, insa, ipag, lasim, lmfa, lmfaecl et auboeuf a du être redémarré.
La passerelle allo-psmn a aussi été redémarrée, suite à une surcharge de connexions. | hard |
| 2015/06/22 07:24 | Loïs Taulelle | 20150622 / Problème serveur de home
Le serveur des $HOME des groupes geol, ilm, insa, ipag, lasim, lmfa, lmfaecl et auboeuf est en cours de redémarrage. Le volume des homes geol est plein (100%) ce qui entraine des problèmes.
EDIT: serveur online, homes OK. | hard |
| 2015/07/08 08:31 | Loïs Taulelle | 20150708 / Problème serveur de home
Un disque système du serveur des $HOME cral, craldb, tofu, phoenix est tombé en panne cette nuit. Son remplacement a nécessité un redémarrage du serveur ce matin, vers 9h30 (~15mn de coupure totale).
hard | hard |
| 2015/08/26 08:52 | Loïs Taulelle | 20150826 / Problèmes sur le /scratch E5
Suite à une manip, qui aurait du être sans conséquences, les noeuds de calcul du cluster E5-26* font n'importe quoi avec le /scratch. Le reboot des noeuds est en cours...
RAPPEL : Merci de préciser le nom des noeuds lors de la soumission de vos problèmes. | hard |
| 2015/09/28 07:43 | Hervé Gilquin | 20150928 / problème serveurs de home
Des serveurs de /home ont eu des problèmes ce WE, conséquence : pas de connexion possible pour certains utilisateurs.
Le staff est en train d'intervenir.
EDIT: 28/09 - 10:00
r720data2 (chimie, partage photochimie) et r720data3 (geol, ilm, insa, ipag, lasim, lmfaecl, partage auboeuf) sont de nouveau opérationnels. | hard,
soft |
| 2015/09/29 09:02 | Loïs Taulelle | 20150929 / Problème sur scratch x55
2 serveurs du /scratch/x5570-gfs-scratch des clusters x55 sont actuellement inopérant : Une bonne partie des fichiers et répertoires de ce scratch sont indisponible.
Le staff est en train d'intervenir.
hard | hard |
| 2015/10/12 10:32 | Loïs Taulelle | 20151012 / Problème serveur de home
Le serveur des homes des groupes geol, ilm, insa, ipag, lasim, lmfa, lmfaecl et partage auboeuf a planté suite à une trop forte charge.
EDIT 17h00~17h50 : Mêmes causes, mêmes conséquences : Trop de jobs tuent le serveur | hard |
| 2015/10/20 06:40 | Hervé Gilquin | 20151020 / Arrêt pour cause de maintenance électrique
Une coupure totale d'alimentation électrique de 7h00 à 13h00 et une coupure de production d'eau glacée
de 6h00 à 18h00 sont programmées pour le samedi 24 octobre 2015 sur le site Monod.
En conséquence, les serveurs du PSMN seront arrêtés dans l'après-midi du vendredi 23 octobre.
Le redémarrage aura lieu dans la matinée du lundi 26 octobre 2015. | hard,
soft |
| 2015/10/26 10:32 | Hervé Gilquin | 20151026 / Redémarrage après arrêt pour cause de maintenance électrique
Le redémarrage aura lieu dans l'après-midi (au mieux) du lundi 26 octobre 2015.
Le staff du PSMN
EDIT 26/10/2015 17h00 : Tout semble OK. GO!
EDIT 27/10/2015 08h30 : Problème de serveur d' | hard,
soft |
| 2015/10/27 09:33 | Loïs Taulelle | 20151027 / Serveur OS et applis
Le serveur principal d'OS et d'applications pour les noeuds de calcul s'est planté cette nuit. Sa remise en route a été plus longue que prévue (~2h30). Le qmaster SGE, ainsi que le scratch E5 ont été coupé pendant cette panne. | hard,
soft,
sge |
| 2015/11/06 09:26 | Loïs Taulelle | 20151106 / Serveur OS et applis
PANNE MATÉRIELLE : Le serveur principal d'OS et d'applications pour les noeuds de calcul est en panne depuis ce matin ~6h (disques système).
Sa remise en route est plus longue que prévue (panne disque, OS master en reconstruction). Le scratch E5 est impacté par cette panne. | hard,
scratch |
| 2015/11/09 16:33 | Loïs Taulelle | 20151109 / Panne de climatisation
Le circuit d'eau froide est en panne. Une partie des noeuds de calcul s'est éteinte pour éviter la surchauffe.
EDIT 09/11/2015 18:10 : Retour à la normale sur le circuit d'eau froide. Les noeuds seront redémarrés demain matin pour laisser le temps à la salle de reprendre une température normale. | hard |
| 2015/11/12 07:23 | Hervé Gilquin | 20151112 / Problème réseau + serveur OS
Un problème réseau est apparu le 11/11 dans la matinée, il est en cours de traitement.
EDIT 12/11/2015 11h00 : De plus, un bug système est apparu sur le serveur d'OS. Loïs et Emmanuel sont en train d'investiguer pour un retour à la normale le plus rapidement possible. | hard,
soft |
| 2015/11/26 13:15 | Loïs Taulelle | 20151126 / Nouveau, machine de visualisation
Une nouvelle machine permettant d'éxécuter les logiciels x2go et VirtualGL a été mise en place au PSMN, avec le modèle qui a été réalisé sur le plateau “Visualisation 3D” du CBP.
La documentation est disponible ici. N'hésitez pas à venir dans les bureaux du PSMN pour une démo. | hard,
soft |
| 2015/12/01 07:31 | Hervé Gilquin | 20151201 : Problème /scratch E5
Un disjoncteur s'est ouvert cette nuit, il alimentait les serveurs de /scratch
qui se sont arrêtés. Le staff traite le problème.
EDIT 01/12/2015 10h30 : Le problème a été résolu par Loïs Taulelle.
hard soft | hard,
soft |
| 2015/12/04 08:25 | Hervé Gilquin | 20151204 / Problème quota dépassé home chimie
Suite à un dépassement du quota sur le home chimie et à une manoeuvre
hasardeuse de H. Gilquin pour y remédier, le serveur est en maintenance.
Il sera re-démarré le plus rapidement possible.
EDIT 11:40 : filesystem is in repair mode (checking | hard,
soft |
| 2015/12/11 09:50 | Loïs Taulelle | 20151211 / Rappel coupure de courant
Une coupure de courant (pour travaux) impacte le batiment dans lequel le PSMN est hébergé pour le WE du 12/12.
La totalité des infrastructures du PSMN et du CBP sont arrêtées pendant cette période (vendredi 11/12 10h jusqu'à lundi 14/12 12h). | hard |
| 2015/12/16 08:06 | Loïs Taulelle | 20151216 / Panne scratch global E5 + Clim
Le scratch global des clusters du groupe E5 est en panne. Nous rencontrons aussi des problèmes avec la climatisation.
EDIT: Le scratch E5 est de nouveau up & running. La clim, par contre...
hard | hard |
| 2016/01/13 17:04 | Hervé Gilquin | 20160113 / problème de disjoncteur
Les noeuds r422node109 à 120 ont été privés d'alimentation électrique suite à
l'ouverture d'un disjoncteur entre 17h00 et 18h00.
hard | hard |
| 2016/01/21 10:00 | Loïs Taulelle | 20160121 / Plantage serveur de fichier
Le serveur de fichier des homes igfl, bio, cbvi, ciri, ibcp, lbmc, rdp et des partages igfldb et collision a planté ce matin. Probablement une surcharge de jobs.
hard | hard |
| 2016/02/03 14:28 | Hervé Gilquin | 20160203 / travaux sur certains serveurs
Le staff va changer de place certains serveurs; en conséquence certaines queues
vont être temporairement indisponibles; ce seront:
- r815lin128ib
- x5570deb24E
- x5570deb24C
EDIT le 11/02/2016 à 17h00 | hard |
| 2016/02/08 15:57 | Loïs Taulelle | 20160208 / Plantage serveur de fichier
Le serveur de fichiers des home chimie et photochimie vient de redémarrer (tout seul, comme un grand) après une forte surcharge système, probablement un job qui travaillait directement dans le home...
Le filesystem est en cours de vérification. | hard |
| 2016/02/25 14:19 | Loïs Taulelle | 20160216 / Problème serveur de home "bio"
Le serveur des homes de bio (igfl, rdp, lbmc, ciri) a subit une trés forte charge cette nuit (backup + jobs>200) et a planté. Il est de nouveau up & running.
hard | hard |
| 2016/02/24 13:28 | Loïs Taulelle | 20160224 / Problèmes électriques
Des problèmes d'alimentation électrique ont affecté les queues x5570deb24A, B et C. Des jobs ont été perdus.
Désolé. Le Staff
hard
/usr/local reminder
This path (/usr/local) is DEPRECATED in our clusters since the Debian7 migration. It should not appear in any environment variable (PATH, LD_LIBRARY_PATH, LIBRARY_PATH, CPATH, FPATH, INCLUDE, PREFIX) except special known cases. | hard,
soft |
| 2016/03/21 13:16 | Loïs Taulelle | 20160321 / Spring cleaning (scratches)
Scratch performances decrease as it become full. We are above 80%
filling on both x55 and E5 scratches. And some files are more than a
year old.
It's time to clean up !!
See scratch documentation for scratches access.
hard soft | hard,
soft |
| 2016/04/07 06:52 | Loïs Taulelle | 20160407 / Cooling problem
Due to problems on the main cooling system (since ~6h this morning), submitting job is bloqued until further notice.
EDIT 9h05: Cooling system is back to normal, qsub is also available again.
hard | hard |
| 2016/04/18 14:32 | Loïs Taulelle | 20160418 / Coupure électrique
Du vendredi 29 avril au lundi 02 mai 2016
Coupure électrique générale du site Monod de l'ENS de Lyon pour maintenance et travaux divers.
Du vendredi 29 avril 10h00 au samedi 30 avril 10h00 : intervention sur le circuit d'eau glacée. | hard |
| 2016/05/17 14:08 | Loïs Taulelle | 20160517 / Reboot home chimie
Suite a un problème hardware (résolu), le serveur des homes chimie/photochimie a été rebooté en fin de matinée.
Des jobs ont sans doute été perdus.
hard | hard |
| 2016/05/23 07:26 | Hervé Gilquin | 20160523 Problème switch tête de réseau
Suite a un problème hardware (résolu) sur un switch en tête de réseau ce WE, de nombreux serveurs se sont trouvés sans connexion.
Les jobs tournant sur ces serveurs ont sans doute été perdus.
EDIT 10:50 | hard |
| 2016/06/01 08:16 | Loïs Taulelle | 20160601 / Cooling problem
Due to problems on the main cooling system (since ~5h AM), submitting job is bloqued until further notice.
Queues & nodes have also been blocked (running jobs will not be affected... we hope)
EDIT 10:30
Everything is back to normal (or in 15mn max) | hard |
| 2016/06/10 08:48 | Loïs Taulelle | 20160610 / Saison des transferts
Dans le cadre de la mutualisation des moyens au PSMN, et suite à des financements de stockages spécifiques, la saison des transferts commence :
* Les données (/home et partages /Xnfs) du lbmc, ciri, igfl, cbvi et | stockage,
hard |
| 2016/09/07 12:21 | Loïs Taulelle | 20160907 / Cooling problem
Due to cooling system down, we are experiencing some problems (latency on home, job crashs...)
EDIT 20160908: everything was back to normal at 15:00 yesterday.
hard | hard |
| 2016/09/19 08:30 | Loïs Taulelle | 20160919 / Réservation spéciale pendant 3 mois
4 x 288 coeurs sont réservés pendant trois mois pour une utilisation spéciale ;
ce sont des coeurs E5-2670. Les queues E5-2670… vont donc être très chargées jusqu'à
la fin de l'année. Pensez à utiliser les queues x5570 | hard,
soft |
| 2016/09/23 06:59 | Loïs Taulelle | 20160923 / Évolution des files d'attente
Tous les noeuds E5 à 64GB de RAM (sauf GPU, encore à venir) ont été upgradés à 128GB. Les files d'attentes changent aussi de nom.
hard sge | hard,
sge |
| 2016/11/23 09:46 | Loïs Taulelle | 20161123 / Évolution des files d'attente (suite)
Les derniers noeuds E5 GPU ont été upgradés à 128GB de RAM. Les files d'attentes ont changé de nom.
hard sge | hard,
sge |
| 2016/12/26 10:07 | Loïs Taulelle | 20161226 / Coupure électrique générale
Il y aura une coupure générale (climatisation et électricité) sur le site le 28/12/2016, entraînant l'arrêt du PSMN du 27/12/2016 (dans l'après-midi) jusqu'au 29/12/2016 (dans la journée).
hard | hard |
| 2017/01/17 15:12 | Loïs Taulelle | 20170117 / Maintenance non maitrisée sur un onduleur
Une maintenance non maitrisée par le prestataire sur un onduleur a entraîné une interruption d'alimentation
électrique de tous les serveurs (fichiers, qmaster, services). Le redémarrage va prendre un certain temps. | hard |
| 2017/01/19 12:21 | Loïs Taulelle | 20170119 / Micro-coupure ERDF
Une micro-coupure ERDF a entraîné une interruption d'alimentation électrique de tous les serveurs (fichiers, qmaster, services). Le redémarrage va prendre un certain temps.
Le staff. EDIT 14h30: retour à la normale. | hard |
| 2017/02/20 09:20 | Loïs Taulelle | 20170220 / Gateway hang
For a unknown reason, gateways went down this week-end.
hard | hard |
| 2017/03/07 07:51 | Hervé Gilquin | 20170307 / Scratch E5
Le scratch E5 connaît quelques difficultés techniques (6 disques HS)
le staff procède a leur remplacement les uns après les autres, ce qui prend du temps
et ralenti le fonctionnement.
hard | hard |
| 2017/03/21 15:26 | Loïs Taulelle | 20170321 / Erreur de manipulation
Une mauvaise commande, sur la mauvaise machine, a entraîné une reconfiguration des routes et un reboot d'allo-psmn... My bad.
hard network | hard,
network |
| 2017/04/10 10:23 | Loïs Taulelle | 20170410 / Problème sur le serveur d'OS
Le serveur d'OS rencontre des problèmes, le Staff s'en occupe, pour l'instant certains fichiers
ne sont plus accessibles.
EDIT 12:00
La partition système du serveur OS/Gluster/applis est HS. Nous faisons notre possible pour tout remettre en service au plus vite. | hard,
network |
| 2017/06/12 08:23 | Loïs Taulelle | 20170612 / Power surge side effect problem
Following the power surge incident, compute nodes (may) have scratch access problems. We are currently checking them, and rebooting when possible/necessary.
hard | hard |
| 2017/06/20 09:47 | Loïs Taulelle | 20170620 / Hardware error on front machines
x5570comp1-pub and x5570comp2-pub are down due to hardware problems. We will bring up new servers (same names) ASAP.
hard | hard |
| 2017/06/22 15:50 | Loïs Taulelle | 20170622 / x5570comp
x5570comp1-pub and x5570comp2-pub are up.
hard | hard |
| 2017/07/10 08:02 | Loïs Taulelle | 20170710 / Filesystem panic on bio fileserver
Due to a massive load of jobs (> 500), all writing/erasing on /home at the same time, fileserver goes to panic mode on saturday evening. We had to reboot it this morning.
Many of this week end writing may have been lost. | hard |
| 2017/07/11 07:56 | Loïs Taulelle | 20170711 / Power surge on nodes's chassis
A power surge on a frame rack have shutdown/reboot/shutdown again a bunch of nodes (c8220node17 to 24).
Chassis is OK now, as for the nodes involved. Jobs have been lost.
hard power | hard,
power |
| 2017/07/13 13:39 | Loïs Taulelle | 20170713 / scratch E5
The E5 /scratch encountered some issues since yesterday around 12:00 am.
The network issues,-that were concomitantly encountered on the ENS yesterday-, slowed the investigation, however the problems were resolved this morning and the causes are still under investigation. | scratch,
hard |
| 2017/07/31 06:34 | Hervé Gilquin | 20170731 / scratch E5
Un problème a été détecté sur le /scratch E5, il est sous investigation
scratch hard | scratch,
hard |
| 2017/08/16 09:24 | Loïs Taulelle | 20170816 / epidemic failures of disks
As expected, after the warm spring and summer (in real, the cooling failures in spring and summer), we now have an epidemic failures of disks in home servers and gluster systems (/scratch).
We are currently changing them. As a result, you may encountered slower responses on | hard,
disk |
| 2017/09/13 10:10 | Loïs Taulelle | 20170913 / General poweroff Saturday, September 23th 2017
Hi all,
FYI, next planified main power outage for ENS lyon is scheduled for Saturday, September 23th 2017.
Planned stops are :
* stop of all queues on Friday, September 22th (before 15h), | hard,
power,
cooling |
| 2017/10/24 09:45 | Loïs Taulelle | 20171024 / Arrêt et déménagement du PSMN
Bonjour à tous,
l'ensemble des équipements du PSMN déménage dans le nouveau Datacenter de L'ENS de Lyon (construit dans le cadre du Plan Campus) !
Pas moins de 7 sociétés sont impliquées dans les opérations de déménagement et d'installation. | hard |
| 2017/11/07 10:29 | Loïs Taulelle | 20171107 / Surtension sur le réseau électrique ENSL
Bonjour,
une surtension sur le réseau électrique de l'École a provoqué, entre autres :
* un reboot généralisé du réseau de l'École,
* la disjonction de la protection aval d'un de nos onduleurs principaux avec pour résultat la moitié des noeuds de calculs éteints, | hard |
| 2017/11/08 13:55 | Loïs Taulelle | 20171108 / Coupure électrique
Les jours se suivent et se ressemblent... Une coupure électrique a impacté notre batiment, son circuit de secours et le circuit général de la climatisation.
La totalité des machines a été touchée.
Nous sommes en train de redémarrer | hard |
| 2017/11/21 11:08 | Loïs Taulelle | 20171121 / J-3 Arrêt et déménagement
D'ici 3 jours (vendredi 24/11/2017), l'ensemble des équipements du PSMN déménage dans le nouveau Datacenter de L'ENS de Lyon.
Pour ce faire, nous devrons éteindre les machines en début d'après-midi ce vendredi, afin de commencer le démontage. | hard,
sing |
| 2017/11/22 12:46 | Loïs Taulelle | 20171122 / J-2 before poweroff
Within 2 days (friday 24th of november 2017), all of PSMN's equipment is moving to the brand new ENS de Lyon's Datacenter.
Hence, we will have to turn off all the machines this friday in the early afternoon (13h30 ~ 14h00). | hard,
sing |
| 2017/11/24 17:35 | Loïs Taulelle | 20171124 / PSMN is OFF
Hi folks,
We are off until 4th of december, at best. We will keep you posted.
hard | hard |
| 2018/04/11 13:51 | Loïs Taulelle | 20180411 / Scratch E5 degraded
Une baie de disque du scratch E5 est morte. Le SAV est en cours.
EDIT 12/04/2018: rebuild in progress...
EDIT 12/04/2018: rebuild terminé.
hard scratch | hard,
scratch |
| 2018/04/17 12:03 | Loïs Taulelle | 20180417 / Scratch E5 degraded mode
2 disks in FAILED mode on E5 scratch. Rebuild in progress.
hard gluster | hard,
gluster |
| 2018/04/27 12:48 | Loïs Taulelle | 20180427 / General poweroff
Next planified main power outage for ENS Lyon (Monod site) is scheduled for Saturday, April 28th 2018.
Planned stops for PSMN are:
* stop of all queues on Friday, April 27th (before 12h)
* stop of allo-psmn *at 12h* on Friday, April 27th | poweroff,
hard |
| 2018/04/30 06:50 | Loïs Taulelle | 20180430 / Restart in progress
Services are OK. Gluster (scratch) are OK. All restartable nodes are OK.
We're UP.
poweroff hard | poweroff,
hard |
| 2018/05/18 08:28 | Hervé Gilquin | 20180518 / problème électrique
Une alimentation électrique a fondu, 8 serveurs sont impactés.
Les jobs 2163858 2247579 2258665 2275082 2163971 2259013 2166883 2258498 ont été perdus
alim hard | alim,
hard |
| 2018/05/23 14:35 | Hervé Gilquin | 20180523 / problème alimentation électrique
Une “micro-coupure” générale d'alimentation électrique a eu lieu aujourd'hui vers 16h30,
le staff travaille au re-démarrage des serveurs impactés.
alimentation electrique hard | alimentation,
electrique,
hard |
| 2018/06/05 07:04 | Loïs Taulelle | 20180605 / Problème alimentation électrique
Une “micro-coupure” de l'alimentation électrique a eu lieu hier soir vers 20h00 (probablement due aux orages), le staff travaille au re-démarrage des serveurs impactés.
Nous attendons des informations de la DirPat. | hard |
| 2018/06/06 06:50 | Coraline Petit | 20180606 / Problème alimentation électrique
Une “micro-coupure” de l'alimentation électrique a eu lieu hier soir vers 19h00 (probablement toujours due aux orages), le staff travaille au re-démarrage des serveurs impactés.
hard | hard |
| 2018/07/09 08:19 | Loïs Taulelle | 20180709 / Problèmes réseaux
Un problème sur une alimentation électrique d'un des switchs 10Gb du backbone PSMN a entraîné l'arrêt de l'interconnection entre ces switchs (Samedi 7/07, vers 23h45). Nous avons du redémarrer la pile réseau. Des jobs ont été perdus. | network,
hard |
| 2018/09/03 13:42 | Loïs Taulelle | 20180830 / Problèmes réseaux
Un problème sur une alimentation électrique d'un des switchs 10Gb du backbone PSMN a entraîné l'arrêt de l'interconnection entre ces switchs (Jeudi 30/08, vers 7h00). Le staff s'occupe du problème.
EDIT 10:45 | network,
hard |
| 2018/12/21 08:21 | Loïs Taulelle | 20181001 / Problèmes réseaux
Un problème est apparu sur un des switchs 10Gb du backbone PSMN et a entraîné l'arrêt de l'interconnection entre ces switchs (Dimanche 30/09, vers 19h00). Le staff s'occupe du problème.
EDIT 10:30
Problème résolu par Coraline Petit et Loïs Taulelle. | network,
hard |
| 2018/10/22 15:56 | Loïs Taulelle | 20181022 / Start Up
Things weren't as smooth as expected... But our half-yearly upgrade is (finally) done.
Last compute servers will be started tomorrow (after x55 scratch reboot).
hard reboot | hard,
reboot |
| 2018/12/21 08:25 | Loïs Taulelle | 20181221 / Panne alimentation électrique
Bonjour, une panne d'alimentation électrique a causé l'arrêt de huit serveurs:
C8220node25, 26, 27, 28, 201, 202, 249 et celera.
Des jobs ont été perdus.
L'alimentation a été remplacée.
hard | hard |
| 2019/02/14 13:53 | Loïs Taulelle | 20190214 / Baie de disques bio EN PANNE
La baie de disques des volumes de biologie (lbmc, rdp, ciri, igfl) vient de tomber en panne.
EDIT 15:15 : Le volume est à nouveau accessible, en mode dégradé, une reconstruction est en cours.
hard | hard |
| 2019/02/19 15:28 | Loïs Taulelle | 20190219 / r730visu -> r740visu
La machine r730visu a été remplacée par r740visu.
hard visualisation | hard,
visualisation |
| 2019/03/05 07:58 | Loïs Taulelle | 20190305 / Coupure électrique imprévue
Nous subissons actuellement une coupure électrique non-prévue sur le CC. Redémarrage ASAP.
Tous les serveurs de calculs sont éteints. Les jobs ont été perdus.
EDIT 11h30: Redémarrage terminé.
hard power | hard,
power |
| 2019/03/18 08:17 | Loïs Taulelle | 20190315 / allo-psmn down
Bonjour, le serveur allo-psmn réseau PSMN ne répond plus, le problème est traité par le staff.
EDIT 10h30
Cela semble venir de la liaison interne entre le réseau de l'ENS de Lyon et le réseau du PSMN.
EDIT 13h00: Problème résolu grâce à Micaël Calvas, avec l'aide de Loïs Taulelle depuis ses congés. | soft,
hard |
| 2019/04/08 14:14 | Loïs Taulelle | 20190405 / Next power outage Saturday, April 20th 2019.
Hi all,
FYI, next planified main power outage for ENS Lyon (Monod site) is
scheduled for Saturday, April 20th 2019.
Planned stops for PSMN are:
* stop of all queues on Friday, April 19th (before 10h AM) | hard,
power,
upgrade |
| 2019/04/20 13:59 | Loïs Taulelle | 20190420 / Restart
We are up, except for some nodes not mounting homes and scratch E5 FUBAR.
Maintenance operations will occur next week.
hard scratch | hard,
scratch |
| 2019/04/24 14:55 | Loïs Taulelle | 20190424 / It's alive !!
Scratch E5 is back from the dead, as fresh as a new born (hence empty).
Reminder, new scratch hierarchy:
/scratch/
├── E5/ (existing E5 scratch, available to E5 cluster)
├── nvme/ (local to some servers)
├── ssd/ (local to some servers)
├── project_name (local to some servers, with dedicated hardware)
...
└── X5/ (existing X5 scratch, available to X5 cluster) | scratch,
hard |
| 2019/06/06 06:16 | Hervé Gilquin | 20190505 / incident alimentation électrique
Une alimentation a lâché sur un groupe de 4 serveurs. Les serveurs:
c6420node105
c6420node106
c6420node107
c6420node108
ont été impactés, les jobs ont été perdus.
L'incident est en cours de traitement. | hard,
|
| 2019/05/13 13:48 | Hervé Gilquin | 20190513 / Arrêt de E5-2670comp1 et E5-2670comp2
Bonjour, les serveurs de compilation E5-2670comp1 et E5-2670comp2 vont être arrêtés temporairement mardi 14/05/2019 pour permettre leur déplacement. L'arrêt durera au plus 2 heures.
Edit 2019/05/14 11h30 | hard |
| 2019/05/16 07:48 | Loïs Taulelle | 20190516 / Power outage
A short power outage occur this morning, before 7h. Reboot is done. Jobs have certainly been lost.
power hard | power,
hard |
| 2019/06/15 13:42 | Hervé Gilquin | 20190615 / Incident aduction alimentation électrique ENS de Lyon
Une interruption de l'alimentation électrique a eu lieu aujourd'hui samedi 15/06/2019 vers 15h15.
Beaucoup de serveurs se sont arrêtés, de très nombreux jobs ont été perdus.
Le redémarrage va prendre du temps, soyez patients. | power,
hard |
| 2019/07/29 07:50 | Hervé Gilquin | 20190729 / Modification des queues
Durant le mois d'août, les queues vont être modifiées; les modifications seront mises à jour sur cette page.
- la queue E5-2670gpuM2070deb128 va être supprimée -> OK le 29/07/2019
- la queue E5-2667v4deb128nl va être supprimée | hard,
|
| 2019/08/07 06:04 | Hervé Gilquin | 20190807 / Incident adduction alimentation électrique ENS de Lyon
À cause des orages, il y a eu une interruption de l'alimentation électrique le 06 août vers 19h00.
Soyez patients.
Edit 9h00
Les queues E5-2670deb128A et B sont OK.
Les queues E5-2667v4deb128 et E5-2667v4deb256A sont OK. | power,
hard |
| 2019/08/08 05:25 | Hervé Gilquin | 20190807 / Nouvel incident d'alimentation électrique
Hier Vers 16h00, il y a eu un nouvel incident d'alimentation électrique
Le /scratch/E5 est impacté, deux disques sont HS; nous examinons le problème et nous vous tenons informés, soyez de nouveau patients | power,
hard |
| 2019/09/26 09:34 | Loïs Taulelle | 20190926 / Scratch E5
Nombreux problèmes sur le /scratch/E5. Plusieurs disques durs sont HS depuis cette nuit, et deux sous-volumes sont en mode dégradé.
Des noeuds de calculs (c6420) ont bloqués, à tel point qu'ils ont du être redémarrés. Des jobs ont été perdus. | gluster,
hard |
| 2019/10/01 13:26 | Hervé Gilquin | 20191001 / Modification des queues
D'ici la fin de l'année, des queues vont être modifiées et/ou ajoutées et/ou supprimées.
Les modifications seront mises à jour sur cette page.
- les queues x5570..., x5670... seront supprimées ->
- les queues M6142deb384A,B,C et D seront renommées SLG6142deb384A,B,C et D | hard,
|
| 2019/11/21 13:45 | Loïs Taulelle | 20191121 : E5-2670comp1 en panne
La carte infiniband soudée sur la carte mère de la machine E5-2670comp1 est morte. Ce serveur fonctionne encore, sans accés au scratch.
Il sera remplacé par un nouveau matériel, sans changement de nom ASAP.
hard | hard |
| 2019/11/25 17:04 | Loïs Taulelle | 20191125 / Panne électrique sur scratch E5
Une panne électrique est survenue sur un chassis du scratch E5. La moitié des serveurs sont indisponibles. Le problème sera résolu dès que possible.
EDIT 2019/11/26 18:00 : Nous avons cannibalisé un chassis des noeuds monointeldeb128 pour remonter le service. Qui sera remplacé sous peu | hard |
| 2019/12/09 10:24 | Loïs Taulelle | 20191209 / Problème électrique
Un PDU (Power Distribution Unit) est tombé en panne, et a disjoncté. Les files d'attentes M6142deb384A et M6142deb384B sont bloquées en attendant le changement du PDU.
Des jobs ont été perdus...
EDIT 09/12/2019 11:30 : | hard,
batch |
| 2020/01/23 10:48 | Loïs Taulelle | 20200123 / Scheduled power outage
There will be a short, but necessary, power outage next Thursday (30/01/2020) morning.
Some clusters (parts) will be rebooted.
hard power | hard,
power |
| 2020/01/28 13:24 | Loïs Taulelle | 20200128 / Scheduled power outage
A scheduled power outage is planned Thursday morning. Following queues will be shutdown:
* E5-2670deb128E, E5-2670deb128F
* E5-2670v2deb128 & E5-2670v2deb128nl
* SSD-E5-*
* h48-E5-2670deb128
* r815*
* r820deb768 | power,
hard |
| 2020/01/30 11:01 | Loïs Taulelle | 20200130 / Electrical work
Electrical operations are done. Queues are unlocked (or will be) as checked OK.
power hard | power,
hard |
| 2020/03/20 13:42 | Loïs Taulelle | 20200320 / data servers
Murphy's law:
* r730data6, which serve home for phys, psmn, cbp... and Xnfs for physic's groups, has crashed around noon.
EDIT: back online.
* r720data4 (craldb, phoenix) is in read-only mode for craldb data (too many disks with errors) | hard |
| 2020/04/06 08:17 | Loïs Taulelle | 20200406 / homes Chimie
Le serveur hébergeant les volumes homes et Xnfs pour la Chimie est down (pour le moment).
Nous mettons tout en oeuvre pour le remettre en service, dans les circonstances actuelles...
EDIT: 12h15. server is back online. Go easy and go slow | hard,
home |
| 2020/04/29 15:22 | Loïs Taulelle | 20200428 / Problème de disjoncteur
Un disjoncteur a sauté, 12 serveurs des queues CLG6242deb384A et B ont été impactés.
Le problème a été résolu le 29/04 au matin.
hard | hard |
| 2020/08/24 09:55 | Loïs Taulelle | 20200727 / r820deb768
Bonjour, l'alimentation interne du serveur r820node253 est HS, le serveur aussi et la queue est donc fermée.
hard | hard |
| 2020/09/03 09:30 | Loïs Taulelle | 20200903 / Arrêt définitif du cluster X5
Le cluster X5 est définitivement arrêté ce jour. Il vous reste jusqu'au 11/09/2020 pour récupérer vos données dans le scratch X5 (via x5570comp1 et x5570comp2).
cluster hard | cluster,
hard |
| 2020/09/21 11:12 | Loïs Taulelle | 20200921 / R740sirod
La passerelle avec le CC-IN2P3 a toujours des problèmes de stockage. Le SAV est en cours, nombreuses déconnexions prévues.
irods hard | irods,
hard |
| 2020/10/07 14:26 | Loïs Taulelle | 20201007 / R740sirod
La passerelle avec le CC-IN2P3 est en cours de maintenance. Le service de gateway est indisponible.
gateway hard irods | gateway,
hard,
irods |
| 2020/10/12 11:42 | Loïs Taulelle | 20201012 / r740sirod (suite en fin)
Bonjour,
la maintenance sur cette machine est terminée. Le cache local est de nouveau disponible, la liaison avec l'IN2P3 est rétablie.
hard storage in2p3 | hard,
storage,
in2p3 |
| 2020/10/15 10:04 | Loïs Taulelle | 20201015 / microcoupures de courant
Suite à une microcoupure sur l'ensemble du site Monod, deux machines (dont r740visu) se sont éteintes. Elles étaient mal branchées... (my bad).
EDIT 13:00 : yep, another one, longer.
power hard | power,
hard |
| 2020/10/26 08:34 | Loïs Taulelle | 20201026 / PowerOff
Some tests on cooling system were canceled, BUT we still have a lot of updates/upgrades to do.
We hope that PSMN will restart sooner than expected.
EDIT: Some PSMN Staff members are contact-cases for Covid-19, and working from home. Which doesn't help for cabling purposes | poweroff,
hard,
covid19 |
| 2020/10/27 13:12 | Loïs Taulelle | 20201027 / PowerOff
(reminder: some staff member are working from home, from covid19 precautions)
all fileservers, and allo-psmn are UP. ssh.psmn is UP.
comps and nodes will follow, ASAP.
poweroff hard covid19 | poweroff,
hard,
covid19 |
| 2020/10/28 10:29 | Loïs Taulelle | 20201028 / PowerOn
(reminder: some staff member are working from home, from covid19 precautions. Big thanks to some lab members who came to help finishing cabling.)
only
EDIT 14h00: jobs submissions ARE open.
Lake cluster will be started as soon as physical reconfiguration and cabling has been done. | poweroff,
poweron,
hard,
covid19 |
| 2020/11/02 15:25 | Loïs Taulelle | 20201102 / PowerOn
(reminder: staff members are working partially from home, covid19 confinement)
Lake cluster has partially started (~2/3 is up & running).
jobs submissions ARE open.
hard lake poweron | hard,
lake,
poweron |
| 2020/11/04 09:03 | Loïs Taulelle | 20201104 / Infiniband, MPI et volumes bio
There are still instabilities on HPC network (mostly on Lake cluster) as of today. We are on it.
EDIT 16h40: Suite à une erreur, le serveur hébergeant les volumes et home des bio (lbmc, rdp, ciri, igfl) a été redémarré. Désolé | hard,
infiniband |
| 2020/11/10 07:17 | Hervé Gilquin | 20201109 / Infiniband, MPI et /scratch Lake
There are still a lot of instabilities on HPC network (mostly on Lake cluster). We are on it.
Sorry...
EDIT 18h00 10/11/2020: The instabilities on HPC network seems to be resolved
EDIT 8h00 12/11/2020: The instabilities are bad memory | hard,
infiniband |
| 2020/12/07 10:28 | Loïs Taulelle | 20201207 / Problème électrique
Un disjoncteur général a sauté ce matin, entrainant l'arrêt brutal des files d'attente CLG6226Rdeb192C et CLG6226Rdeb192D. Les jobs sont perdus. Désolé.
power hard | power,
hard |
| 2021/01/04 15:25 | Loïs Taulelle | 20210104 / arrêt PSMN (compute)
As planned, PSMN computing is going down for two days for acoustic measurements. Most front machines will stay up.
Scratches on cluster Lake may go down as well (infiniband upgrades) for short periods of time.
Reboot is planned for 06/01/2021 in the morning. | hard,
poweroff |
| 2021/01/12 13:20 | Loïs Taulelle | 20210112 / Networks
ENS IT service had to perform some updates (and reboot) of our main network link.
It may have timeouted some connections. It is now up & running.
hard network | hard,
network |
| 2021/03/17 09:33 | Loïs Taulelle | 20210317 / storage (phys)
Yesterday, some volumes in the dedicated bay for physic lab data went full.
We are migrating data to ensure space for erasing operations.
kind reminder: PSMN volumes are for live data, not long-term storage, not backups. | hard,
storage |
| 2021/04/30 08:06 | Loïs Taulelle | 20210430 / some queues out
CLG6226Rdeb192A and B are out. Reasons unknow at the moment (probably electrical).
As there is nobody onsite today, problem will be taken care of Monday, at best.
Edit 2021/05/03: The electrical problem is solved. Everything is OK but jobs are lost. | hard |
| 2021/07/02 07:52 | Loïs Taulelle | 20210702 / Restart
Acoustics measurements went well. Clusters are restarting. Submissions are open.
hard | hard |
| 2021/10/11 12:56 | Loïs Taulelle | 20211011 / Power outage
A massive power outage, from 12h30 to 13h30, occured on ENS de Lyon (Monod Site) today.
It lasted long enough to drain UPS batteries. Everything went off badly.
all infrastructure is power off
Please be patient as we are trying to restart PSMN. | hard,
power |
| 2021/10/12 09:25 | Loïs Taulelle | 20211012 / Power outage (suite)
All storage services are still in heavy scan (and allready have dead disks).
The gateway-out has died, which force us to apply a new network configuration.
We will restart services along the day, stay tune.
EDIT 11h30: | hard,
power,
restart |
| 2021/10/15 08:01 | Loïs Taulelle | 20211022 / Maintenance électrique d'Octobre
A power outage (planned, this time) will occur Saturday, October 23th 2021,
on ENS de Lyon Monod site.
There will be large operations on electrical systems over the week-end, and
PSMN Staff will also perform usual background upgrades. | power,
maintenance,
hard |
| 2021/10/25 10:15 | Loïs Taulelle | 20211025 / PSMN Restart
Network upgrades takes waaaay longer than expected.
We are not ready to restart. Sorry for the inconvenience.
EDIT 16h00: PSMN is up & running.
SGE will be started tomorrow morning.
poweroff hard startup | poweroff,
hard,
startup |
| 2022/06/13 12:08 | Loïs Taulelle | 20220613 / Acoustic measurements
“Sous réserve de conditions météorologiques favorables, la réalisation des mesures acoustiques MLE / SING est programmée dans la nuit du jeudi 16 au vendredi 17 juin 2022.”
Under favorable weather conditions, acoustic measurements (yes, again) will occur during the night from Thursday 16th of june to Friday 17th of june 2022. | hard,
poweroff |
| 2022/08/16 09:01 | Loïs Taulelle | 20220816 / Divers
* scratch Bio
Le scratch Bio était planté depuis “un certain temps”. Il est de nouveau pleinement fonctionnel et plein à ras-bord. Pour ceux présent : faites du ménage.
* cl6226comp[1-2]
plantés, reboot OK
scratch hard | scratch,
hard |
| 2022/11/28 10:31 | Loïs Taulelle | 20221128 / scratch/Cral
A storage node for /scratch/Cral is having issues. This result in a partial unavailability (not loss) of data.
Formulaires du PSMN
scratch hard | scratch,
hard |
| 2023/01/18 15:59 | Loïs Taulelle | 20230118 / data7 is slow
“resilver in progress” since replacement of a dead disk today.
impacts on all bio accounts (lbmc, rdp, igfl, ciri...)
hard disk | hard,
disk |
| 2023/03/16 16:11 | Loïs Taulelle | 20230316 / m6142comp1
Login node m6142comp1 is back online.
hard comp | hard,
comp |
| 2023/04/17 06:14 | Loïs Taulelle | 20230417 / Network problem
We have an internal network problem since friday evening. We are working on it.
EDIT 9:10: problem solved. Situation back to norminal.
network hard | network,
hard |
| 2023/04/19 08:15 | Loïs Taulelle | 20230419 / rebuild on data7
We have a rebuild ongoing on all users volumes on data7 (bio: ciri, igfl, lbmc, rdp) since yesterday (sorry, forgot to warn)
hard rebuild zfs | hard,
rebuild,
zfs |
| 2023/06/13 14:28 | Loïs Taulelle | 20230613 / volume highenergy
Two disks arrays in this volume are having problems. We are working on it. In the meantime, this volume is unavailable.
disk hard | disk,
hard |
| 2023/06/15 16:32 | Loïs Taulelle | 20230615 / volume highenergy (S01E02)
/Xnfs/highenergy volume is back online. Go easy, a scan/rebuild is still ongoing...
hard disk | hard,
disk |
| 2023/07/11 08:55 | Loïs Taulelle | 20230711 / Urgent upgrades
We have to make urgent hardware upgrades on a few fileservers. These need a reboot afterward, fileservers will be unavailable a few minutes, at most. Expect lags and delays during these upgrades.
impacted services: $HOME and /Xnfs shares (mostly everyone) | hard,
nfs,
upgrades,
reboot |
| 2024/01/18 10:30 | Loïs Taulelle | 20240118 / scratches on Cascade
We have a problem on 2 servers for scratches on Cascade cluster : one from /scratch/Cral, one from /scratch/Cascade.
They both have a dead infiniband network card. We are waiting for resupply to repair.
Symptoms: Files and/or directories are not available from both | hard,
network,
infiniband |