Ceci est une ancienne révision du document !


Les pannes & incidents

Hardware

2013/03/22 14:46 20130108 / r410comp2-pub Problème récurrent avec r410comp2-pub. Il peut ne plus répondre à l'adresse r410comp2-pub, mais vous pouvez toujours le joindre à l'adresse r410comp2. Merci de prévenir les admistrateurs lorsque vous rencontrez ce problème.
2013/03/22 14:47 20130312 / C6100 + matlab La machine C6100lin40 (dédiée matlab) n'a plus de /scratch (disque HS). hard soft,
2013/03/22 14:48 20130322 / Semaine 12 2013 Certains serveurs dl165 (4) sont devenu 100% séquentiels, vous pouvez y accéder via la queue monoamd_debian24. Les autres serveurs dl165 (23) sont maintenant accessible via la queue dl165_debian24. Voir les détails sur la page suivante. Les serveurs dl175 sont maintenant 100% parallèles, et accessible via la queue,
2013/04/02 15:28 20130402 / dl175comp-pub dl175comp-pub est de nouveau accessible, et dans le nouvel OS du PSMN (Debian “Wheezy” 7). hard
2013/04/04 06:40 20130404 / C6100 C6100lin40 : disque /scratch en panne, réparation en cours. hard
2013/04/08 08:37Loïs Taulelle20130408 / SL230 * SL230lin64 Problème sur un disjoncteur ce WE, un bloc de 8 noeuds SL230 s'est arrêté. Problème réglé ce matin. * SL230lin64 La carte infiniband HS du noeud sl230lin12 (groupe SL230lin64) est -enfin- réparée. hard
2013/04/10 10:14Loïs Taulelle20130410 / SL230, OpenMPI * SL230lin64 Encore un problème électrique sur un bloc de 12 noeuds. Machines redémarrées... * OpenMPI Nouvelles versions d'OpenMPI, disponibles pour l'environnement Centos 5, compilées avec Intel-12.0.084 : *,
2013/04/19 09:26Loïs Taulelle20130419 / Coupure électrique générale Suite à la coupure électrique d'hier (jeudi 18/04/2013), nous rencontrons des soucis avec la passerelle allo-psmn. Les noeuds de calculs se sont éteind brutalement, tous les calculs en cours ont été perdus.
2013/04/22 14:06Loïs Taulelle20130422 / Reprise progressive Suite à la coupure du 18/04, voici un rapide état des lieux : * le serveur de fichier du groupe cral a un disque HS. Ses performances ne sont pas dégradées. SAV en cours. * 5 noeuds de calculs, dont r410comp2, sont en panne, et en cours d'analyse.,
2013/04/24 08:59Loïs Taulelle20130424 / Reprise progressive (suite & fin) * Le disque en panne du serveur de fichier du groupe cral a été remplacé. Ses performances sont légèrement dégradées par la vérification du système de fichier (en cours, ~6h), * Seul r410comp2-pub,
2013/05/13 14:17Loïs Taulelle20130507 / Travaux salle informatique du LR6 Afin d'effectuer des travaux dans la salle informatique du LR6 (installation d'une allée chaude et de matériel de diffusion du froid), un arrêt de certains serveurs et de certaines queues est prévu.,
2013/05/13 14:22Loïs Taulelle20130513 / dl165 En fonction de l'avancement des travaux sur la nouvelle allée chaude, nous pourrons être amenés à déplacer physiquement (donc, power off, jeudi 16/05 ou vendredi 17/05 ) les noeuds de calculs du groupe dl165. edit : raté. Ces machines seront déplacés avant la coupure electrique du 22/06/2013.,
2013/08/27 09:46Loïs Taulelle20130608 / Problème de disjoncteur Un disjoncteur a sauté vendredi 7 juin vers 15h10 et un switch infiniband a été arrêté quelques minutes. Les queues affectées ont été: * pemfcnl * sl230_debian64_ib_phy * sl230_debian64_ib_spe * sl230_debian64_spe,
2013/06/21 12:31Loïs Taulelle20130621 / Arrêt électrique RAPPEL * Arrêt de toutes les machines de services (allo-psmn, compilateurs et serveurs de fichiers) * Arrêt de tous les noeuds de calculs hard batch soft 20130621 / Modification du système de queues L'arrêt de l'alimentation électrique est mis à profit pour modifier le système de queues: Sont supprimées:, ,
2013/06/25 15:40Loïs Taulelle20130625 Contrairement aux prévisions, les travaux sur le système de climatisation ne sont toujours pas terminés. L'ensemble des serveurs et noeuds de calcul reste donc éteint... hard batch soft, ,
2013/06/26 13:12Loïs Taulelle20130626 La passerelle (allo-psmn), les compilateurs et les serveurs de fichiers sont démarrés. Les files d'attentes r410*, r815 et sl390-48 sont en cours de démarrage. L'ensemble des noeuds de calculs n'ayant pas été redémarré, les informations données par qstat sont fausses., ,
2013/06/28 11:13Loïs Taulelle20130628 Les files d'attentes E5-2670deb64_test, E5-2670deb64F, x5650_ib_test, x5650lin24ibA et x5650lin24ibB sont ouvertes pour ce week-end. Potentiellement, il y a des plâtres a essuyer. Et elles seront surement stoppées dans la semaine. hard batch,
2013/08/27 09:44Loïs Taulelle20130702 / Queues x5650lin24ibA, B et C Les files d'attentes x5650_ib_test, x5650lin24ibA, x5650lin24ibB et x5650lin24ibC sont en cours d'ouverture. Attention, les serveurs sur lesquels sont envoyés les jobs sont maintenant sous OS Debian 7; il faut donc utiliser les environnements parallèle (sous-queues):,
2013/07/11 14:21Loïs Taulelle20130709 / E5-2670... Après quelques soucis techniques, les files d'attente E5-2670deb64A, E5-2670deb64B, E5-2670deb64C et E5-2670deb64D vont être ouvertes jeudi dans la journée. Les compilateurs pour cette architecture E5-2670comp1, E5-2670comp2,
2013/07/11 14:51Loïs Taulelle20130711 / Mise en service **temporaire** Les files d'attente suivantes sont ouvertes en l'état pour la période juillet-août : * E5-2670deb64A * E5-2670deb64B * E5-2670deb64C * E5-2670deb64D * E5-2670deb64F (:!: /scratch local de seulement 140Go),
2013/08/27 09:43Loïs Taulelle20130826 / Mise en service semaine du 26/08 au 30/08 Durant cette semaine, les serveurs de connexion et de compilation vont être re-configurés; cela commencera lundi 26/08 par: * les R410comp... * les E5-2670comp* puis les autres suivront pendant la semaine. Ne vous étonnez-donc pas si un serveur de connexion/compilation ne répond pas.
2013/08/27 09:48Loïs Taulelle20130827 / Serveurs de fichiers (physique, chimie) * Le serveur de fichiers du groupe physique est plein à ras bord. Des opérations de nettoyage et d'effacement sont en cours, mais cela va prendre du temps. Une resynchronisation des backups sera necessaire (~ 48 à 72h, il y a 16To à traiter). Le système est vu actuellement comme,
2013/08/30 11:24Loïs Taulelle20130830 / Serveurs de fichiers suite Le serveur de fichiers du groupe physique a été rempli à ras bord. Les opérations de nettoyage et d'effacement sont terminées. La resynchronisation des backups est en cours (~ 48h , il reste ~ 10To à traiter). Le NFS est toujours en read-only le temps de la synchronisation. Les jobs qui doivent écrire ne fonctionneront pas. Soyez patients.,
2013/09/02 09:40Loïs Taulelle20130831 / Serveurs de fichiers : fin de l'intervention Les serveurs de fichiers des groupes physique et chimie sont de nouveau en fonctionnement normal (grâce à Loïs) et les jobs peuvent être exécutés. hard batch,
2013/09/04 06:48Loïs Taulelle20130904 / Saturation réseau Nous subissons actuellement, et pour des raisons encore indéterminées, d'énormes saturations du réseau NFS (ie: allo-psmn, compilateurs, noeuds de calculs). Les conséquences actuelles les plus visible sont que les /homes deviennent trés difficilement accessibles et que les jobs plantent.
2013/09/09 14:06Loïs Taulelle20130909 / scratch commun et files d'attentes E5-2670* Nous rencontrons actuellement, suite aux problèmes réseaux de la semaine dernière, des soucis avec le /scratch commun glusterfs du nouveau cluster. Nous allons redémarrer les serveurs du /scratch,
2013/09/10 09:58Loïs Taulelle20130910 / Effets de seuils... Suite à la mise en route du nouveau (gros) cluster, nous rencontrons un ensemble de problèmes récurrents, ou épisodiques, sur l'ensemble de l'infrastructure. Nous avons déjà identifié et (partiellement) résolus des problèmes due au passage à l'échelle du réseau NFS (serveurs de fichiers).
2013/09/16 09:14Loïs Taulelle20130916 / scratch commun glusterfs (E5-2670*) La reconfiguration du /scratch sur le nouveau cluster va commencer. Les files d'attentes E5-* seront redémarrées ensuite, pour le prendre en compte, dans le courant de la journée. Mise à jour à 18h00: Les files d'attentes E5-* sont libérées.,
2013/09/20 10:07Loïs Taulelle20130920 / Saturation réseau Le réseau du PSMN est engorgé à saturation (depuis plusieurs jours), sans que nous soyons capables pour l'instant d'en trouver l'origine et donc de régler le problème. Merci pour votre patience et votre compréhension.,
2013/09/24 06:18Hervé Gilquin20130924 / Réseau suite Bonjour, les travaux d'investigation sur le réseau se poursuivent, tous les switchs sont re-configurés, vous serez informés dès que la situation sera redevenue normale. Pour le staff Hervé Gilquin EDIT: Le problème réseau est maintenant sous contrôle (les explications viendront plus tard). Cependant, la malchance nous poursuivant, un serveur indispensable au fonctionnement du PSMN est tombé en panne,
2013/09/25 16:51Loïs Taulelle20130925 / Réseau, suite, mais pas fin Ce qui ne marche pas encore : * les r410 * neptune Ce qui remarche : * presque tout le reste... Il est encore possible que 2~3 choses ne fonctionnent pas de manière optimale, cela sera réglé dans les prochains jours.,
2013/10/15 14:01Hervé Gilquin20131015 / Réseau 15h30 Problèmes réseau sous investigation (particulièrement pour le groupe chimie). 17h00 Problème résolu avec l'aide d'Emmanuel Quemener, le serveur de /home dédié au groupe chimie avait une interface 10Gb facétieuse, un reboot a été nécessaire, des jobs ont pu en souffrir.,
2013/10/24 08:53Loïs Taulelle20131024 / Coupure électrique générale samedi 26/10/2013 RAPPEL La totalité des serveurs du PSMN sera arrêtée. Le staff va profiter de cette coupure électrique complète pour réaliser la migration des serveurs de /home (à partir de dimanche matin, et sans doute jusqu'à lundi dans la journée).
2013/10/29 10:29Loïs Taulelle20131029 / Migration des home Les transferts se passent bien, mais prennent un peu plus de temps que prévu (~190To de data à déplacer). Dans l'état actuel des vitesses de transfert, le redémarrage de la plate-forme n'aura lieu que mercredi, au mieux.
2013/10/31 15:08Hervé Gilquin20131031 / Migration des home Redemarrage !! La plus grande partie des clusters est redemarrée, le reste suivra dans la journée, hors machines en panne... Migration des /home Certains transferts sont très lents. Les utilisateurs des groupes suivants ne pourront pas travailler ce week-end : lasim, dpm, lmfa et cecam.
2013/12/17 08:01Hervé Gilquin20131217 / Coupure alimentation eau glacée Une coupure de l'alimentation en eau glacée a lieu aujourd'hui mardi 17/12 toute la journée en relation avec l'aménagement de la salle blanche. La salle des serveurs ne sera pas assez refroidie, en conséquence les queues seront arrêtées au fur et à mesure de la montée de la température, dans l'ordre suivant:,
2014/01/06 08:31Loïs Taulelle20140106 / Problème sur la climatisation Il s'est produit une panne de clim dans la nuit de samedi à dimanche (environ 6h sans eau froide). Une partie des clusters (principalement les E5-2670) se sont éteinds automatiquement, y compris une partie des serveurs du
2014/01/14 11:12Loïs Taulelle20140114 / Climatisation again Nous venons de nous rendre compte que la majorité des noeuds E5-2670 fonctionnaient à mi-vitesse (mesure automatique de protection contre la surchauffe) depuis le dernier pic de chaleur (dimanche 5/01/2014). Le problème est identifié et réglé.
2014/01/22 16:28Loïs Taulelle20140122 / scratch commun glusterfs E5-2670deb* Le /scratch commun glusterfs (des E5-2670deb*) est actuellement dans un état... préoccupant. Des process sont en cours pour essayer de le rendre cohérent. Si demain matin, ils n'ont pas abouti, nous serons dans l'obligation de redémarrer les serveurs du
2014/01/30 16:27Loïs Taulelle20140130 / Alerte climatisation Une des pompes de circulation du circuit de climatisation a une fuite ce qui entraine l'arrêt des groupes froids (mise en protection). Nous sommes contraint d'arrêter une partie des clusters pour éviter la surchauffe généralisée : r410, x5650 et une partie des E5-2670.
2014/01/31 11:08Loïs Taulelle20140131 / Climatisation (suite) Une plaque d'étanchéité a été fixée à la place de la pompe défectueuse (réparation provisoire). Les clusters ont été relancés. A sealing plate was attached in place of the defective pump (temporary repair). Clusters are now back on.
2014/03/24 15:53Loïs Taulelle20140324 / Plantage serveur de fichiers Plantage vers 15h00, suite à une erreur encore indéterminée, du serveur de fichiers hébergeant les homes de geol, ilm, insa, ipag, lasim, lmfa, lmfaecl, phys. Les jobs ont été perdus. hard
2014/03/25 14:04Hervé Gilquin20140325 / Plantage serveur de fichiers Plantage vers 15h00, suite à une erreur encore indéterminée (la même qu'hier apparemment), du serveur de fichiers hébergeant les homes de geol, ilm, insa, ipag, lasim, lmfa, lmfaecl, phys. Le staff travaille sur le problème.
2014/03/26 15:40Hervé Gilquin20140326 / Plantage serveur de fichiers once again Plantage vers 16h00, suite à une erreur encore indéterminée (la même que précédemment apparemment), du serveur de fichiers hébergeant les homes de geol, ilm, insa, ipag, lasim, lmfa, lmfaecl, phys.
2014/03/31 08:05Loïs Taulelle20140331 / Plantage serveur de fichiers Plantage vendredi 28/03 vers 12h00, suite à “l'erreur encore indéterminée (la même que les fois précédente)”, du serveur de fichiers hébergeant les homes de geol, ilm, insa, ipag, lasim, lmfa, lmfaecl, phys.
2014/04/01 09:50Loïs Taulelle20140401 / Loi de l'emmerdement maximum Ceci n'est pas un poisson d'avril Une coupure électrique (imprévue et... involontaire) a eu lieu (vers 10h30) sur la baie principale de contrôle du PSMN (réseau 10G, serveur d'OS, supervision). Cela a entrainé le plantage, plus ou moins rapide, des compilateurs, noeuds de calculs et serveurs glusterfs (scratch commun E5), ,
2014/04/16 16:49Loïs Taulelle20140416 / Panne d'onduleur L'onduleur protégeant le coeur de réseau, les serveurs de fichiers, la passerelle et les frontales s'est mis en panne. EDIT: le coeur de réseau, les serveurs de fichiers, la passerelle, les frontales et le /scratch gluster ont été redémarrés.
2014/05/01 16:43Hervé Gilquin20140501 Panne d'une alimentation Une alimentation est tombée en panne entre mercredi 30/04/2014 au soir et jeudi 01/05/2014 dans la matinée. L'alimentation a été changée vers 18h00 le 01/05/204; les serveurs C8220node89 à 96 ont été impactés et les jobs qui s'exécutaient dessus ont été perdus.
2014/05/12 09:11Loïs Taulelle20140512 / Clim un jour, clim toujours... * Deux serveurs de fichiers ont planté durant le looong WE du 7/05 au 12/05 * Cela a entrainé un plantage du client NFS sur allo-psmn * Donc des problèmes de login, d'accès aux /home et de plantages des calculs
2014/06/11 09:13Loïs Taulelle20140611 / reboot serveur r720data2 Le serveur hébergeant les homes de chimie, photochimie, cbp, icbms, isa, rmn, ondesint et igfldb a été surchargé par un job. Il a du être redémarré. Des jobs ont été perdus. hard batch,
2014/06/13 08:28Loïs Taulelle20140613 / r720data3 et frontales Le serveur de fichier hébergeant les homes des groupes phys, geol, ilm, insa, ipag, lasim, lmfa et lmfaecl a planté cette nuit, entrainant aussi le plantage d'un certain nombre de compilateurs. Désolé pour les désagréments.
2014/07/11 07:08Loïs Taulelle20140711 / r720data3 Le serveur de fichier hébergeant les homes des groupes phys, geol, ilm, insa, ipag, lasim, lmfa et lmfaecl a planté cette nuit, entrainant aussi le plantage d'un certain nombre de jobs... hard batch,
2014/09/17 15:01Loïs Taulelle20140917 / Climatisation Une pompe à chaleur du groupe énergie sud (alimentant notre batiment en froid) est en panne. Notre capacité froid est diminuée de moitié environ. hard
2014/09/18 09:41Loïs Taulelle20140918 / Climatisation (suite) Les travaux sur les PAC (pompes à chaleur) de l'école vont être long (> 1 semaine). Nous avons donc bloqués des coeurs sur différentes files pour éviter une trop forte augmentation de la température. De même, les machines diminuent automatiquement leur fréquence processeur pour éviter la surchauffe. Ce faisant, des baisses de performances sont à prévoir cette semaine,
2014/09/29 07:26Loïs Taulelle20140929 / Panne générale Une partie des serveurs centraux du PSMN (OS, /applis, authentification) est tombée en panne vendredi 29/09/2014 vers 18h00. Cela a entrainé le plantage successif d'une grande partie des noeuds de calculs. Nous travaillons actuellement a tout remettre en service., ,
2014/10/03 10:10Loïs Taulelle20141002 / re-Panne générale Le serveur OS et applis a encore planté mercredi 01/10/2014 vers 19h30 (la cause en est partiellement identifiée). Cela a entrainé le le reboot d'une grande partie des noeuds de calculs. Le cluster E5-2670 souffre encore de problèmes. Le /scratch commun est inaccessible (un serveur en panne)., ,
2014/10/03 10:15Loïs Taulelle20141003 / scratch e5-2670 Le reboot massif a mis en avant un problème sur l'ensemble du réseau infiniband (IB) du cluster E5-2670. Sa résolution nécessite une mise à jour des cartes IB, des switchs IB et potentiellement des bios de certains noeuds
2014/10/07 10:39Loïs Taulelle20141007 / /scratch on E5-2670 Explanations will be long, take a coffee, a tea, or quit ;o) Last week, we experienced a threshold effect (again) while adding new nodes to E5 cluster. It lead us to reboot a big part of debian nodes. Doing this open a Murphy's box (you know the law ? It's the same, with a ribbon on it)., ,
2014/10/08 10:18Loïs Taulelle20141008 / r720data1 Le serveur des homes de bio (bio igfl cbvi ibcp lbmc rdp evs ixxi lip maply umpa et psmn) s'est arrêté cette nuit. Il est de nouveau accessible. hard
2014/10/09 09:11Loïs Taulelle20141009 / Coupure éléctrique le samedi 25 octobre 2014 Pour info, la prochaine coupure electrique generale pour l'ENS lyon (site Monod) est prevue le samedi 25 octobre 2014. Nous allons profiter de cette coupure pour tout casser reconfigurer les clusters X56 et X55. Ils seront arretes en avance (vendredi matin). Plus d'informations sur cette nouvelle configuration seront disponible ulterieurement sur la page web du PSMN.,
2014/10/27 11:06Loïs Taulelle20141027 / retour de coupure Comme on pouvait s'y attendre, le retour après coupure complète se passe mal. EDIT 13h30 * /home OK * /scratch E5 OK * petits clusters OK * centos5 : r815, sl390-48 et r410C * debian7 : monoamd*, monointel*,
2014/10/29 08:32Loïs Taulelle20141029 / redémarrage clusters Les noeuds E5-2670 GPU, 256G et 128G sont disponibles. Les noeuds E5-2670 64G ont été redémarrés et seront traités par petits lots jusqu'à fin novembre. Les noeuds X55/X56 sont en cours de remontage, sur un arbre infiniband commun, ainsi qu'un /scratch glusterfs commun.
2014/10/30 17:01Loïs Taulelle20141030 / probleme electrique Une Power Distribution Unit est tombé en panne (fondue). Elle alimentait la grappe sl230 (E5-2670deb64B, E5-2670deb64nl) et les compilateurs e5-2670comp1 à 4... hard
2014/11/05 10:15Loïs Taulelle20141105 / Avancement des travaux Le r820 (à 768Go de mémoire) est de nouveau en service. La reconfiguration des clusters X5570 et x5650 sur un même arbre infiniband suit son cours. Le glusterfs est prêt. Les tests sont en cours (avec arrêt, reboot et autre
2014/12/08 10:15Loïs Taulelle20141208 / Plantage serveurs de home Un plantage “commun” a affecté 3 serveurs de home cette nuit (dimanche à lundi). Des jobs ont plantés. La raison du plantage est encore inconnue. hard batch,
2014/12/15 15:34Loïs Taulelle20141215 / Many Problems * From last Thursday (12/11/2014), we are experiencing cooling problems (T° goes high and down without warnings) * Which leads scratch server to malfunction, or worse, hang... * Which leads some home server to crash (chimie, cbp, icbms, isa, rmn, phys, bio, igfl, rdp, photochimie share, ondesint share),
2014/12/22 17:08Hervé Gilquin20141222 / Problème /scratch E5-2670 * Deux serveurs de /scratch étaient tombés. * Ils ont été re-démarrés avec l'aide de Loïs depuis chez lui. * Tout semble OK maintenant. hard batch,
2015/01/26 08:35Loïs Taulelle20150126 / Probleme electrique Suite à une surcharge, une prise electrique (2x16A) alimentant des blocs du cluster E5 a fondu. hard
2015/03/18 10:25Loïs Taulelle20150318 / Prochaine coupure éléctrique - Next main power outage Bonjour a tous, Pour info, la prochaine coupure electrique generale pour l'ENS lyon est prevue le samedi 18 avril 2015. Nous allons profiter de cette coupure pour realiser les operations suivantes :, ,
2015/03/19 09:15Loïs Taulelle20150319 / Frontales Mise en service de deux nouvelles frontales de compilation : x5570comp1-pub et x5570comp2-pub. Ces machines permettent d'accéder au /scratch/x5570-gfs-scratch des clusters suivants : c6100lin24, sl390lin24, r422 hard
2015/03/25 17:18Loïs Taulelle20150325 / scratch du cluster E5 Problème sur le /scratch du cluster E5-2670 (/scratch/e5-2670-gfs-scratch). Un noeud est en panne. Réparations en cours (processus long, genre 10~12h...). hard
2015/03/26 16:15Loïs Taulelle20150326 / Emergency poweroff Suite à des travaux sur le circuit principal d'eau glacée de l'école, une (grosse) fuite a été detectée, entrainant des travaux d'urgence et la coupure immédiate du circuit. Notre circuit de refroidissement dépend pour sa majeure partie du circuit principal de l'école. Nous avons donc éteint en urgence l'ensemble des noeuds de calculs. Les serveurs de fichiers et les frontales/compilateurs restent en service (pour le moment)., ,
2015/03/30 14:43Hervé Gilquin20150330 / Slow poweron EDIT 30/03/2015 16h30 par Hervé Gilquin : Information officielle: “Redémarrage en douceur possible”. En conséquence, les serveurs du PSMN sont démarrés en douceur. Les serveurs accédant au /scratch E5-2670 restent arrêtés jusqu'à demain., ,
2015/03/31 11:43Loïs Taulelle20150331 / glusterfs scratch on E5-26xx cluster TL;DR: scratch filesystem on E5-26xx cluster id dead. It will be restarted from zero. A silent corruption have made his way into the /scratch glusterfs filesystem of the E5-26xx cluster. The glusterfs filesystem is beyond repair.
2015/04/01 12:58Loïs Taulelle20150401 / Full restart Apart from 2~5 nodes (and r815 cluster), all main clusters are started. Remember : next big shutdown, due to power outage, in a couple of weeks : Saturday April 18th 2015. hard
2015/04/16 13:00Loïs Taulelle20150416 / Plantage home chimie Le serveur des homes chimie, photochimie, cbp, isa, icbms et rmn vient de redémarrer tout seul... hard
2015/04/21 09:54Loïs Taulelle20150504 / passerelle allo.psmn La passerelle allo.psmn a été redémarrée Suite à un problème réseau, depuis vendredi matin, la passerelle allo.psmn est arrêtée. En conséquence, elle sera redémarrée dès que le problème réseau sera résolu.
2015/05/11 08:23Hervé Gilquin20150511 / Problème de serveur de /home Problème de serveur de /home Le serveur de /home (notamment pour les utilisateurs des groupes phys, cbp,...) a un problème qui se traduit par le non montage du home des utilisateurs sur allo-psmn. Ce problème est en cours de résolution: patience.
2015/05/28 14:45Loïs Taulelle20150528 / Reboot serveur de home Chimie + allo-psmn 1 ou plusieurs jobs ont surchargé le serveur de home Chimie (Chimie, Photochimie). Le serveur a du être redémarré. Dans la foulée, la passerelle allo-psmn a du être redémarrée. hard
2015/06/08 13:33Loïs Taulelle20150608 / Problème serveur de home + allo-psmn Le serveur des $HOME des groupes geol, ilm, insa, ipag, lasim, lmfa, lmfaecl et auboeuf a du être redémarré. La passerelle allo-psmn a aussi été redémarrée, suite à une surcharge de connexions.
2015/06/22 07:24Loïs Taulelle20150622 / Problème serveur de home Le serveur des $HOME des groupes geol, ilm, insa, ipag, lasim, lmfa, lmfaecl et auboeuf est en cours de redémarrage. Le volume des homes geol est plein (100%) ce qui entraine des problèmes. EDIT: serveur online, homes OK.
2015/07/08 08:31Loïs Taulelle20150708 / Problème serveur de home Un disque système du serveur des $HOME cral, craldb, tofu, phoenix est tombé en panne cette nuit. Son remplacement a nécessité un redémarrage du serveur ce matin, vers 9h30 (~15mn de coupure totale). hard
2015/08/26 08:52Loïs Taulelle20150826 / Problèmes sur le /scratch E5 Suite à une manip, qui aurait du être sans conséquences, les noeuds de calcul du cluster E5-26* font n'importe quoi avec le /scratch. Le reboot des noeuds est en cours... RAPPEL : Merci de préciser le nom des noeuds lors de la soumission de vos problèmes.
2015/09/28 07:43Hervé Gilquin20150928 / problème serveurs de home Des serveurs de /home ont eu des problèmes ce WE, conséquence : pas de connexion possible pour certains utilisateurs. Le staff est en train d'intervenir. EDIT: 28/09 - 10:00 r720data2 (chimie, partage photochimie) et r720data3 (geol, ilm, insa, ipag, lasim, lmfaecl, partage auboeuf) sont de nouveau opérationnels.,
2015/09/29 09:02Loïs Taulelle20150929 / Problème sur scratch x55 2 serveurs du /scratch/x5570-gfs-scratch des clusters x55 sont actuellement inopérant : Une bonne partie des fichiers et répertoires de ce scratch sont indisponible. Le staff est en train d'intervenir. hard
2015/10/12 10:32Loïs Taulelle20151012 / Problème serveur de home Le serveur des homes des groupes geol, ilm, insa, ipag, lasim, lmfa, lmfaecl et partage auboeuf a planté suite à une trop forte charge. EDIT 17h00~17h50 : Mêmes causes, mêmes conséquences : Trop de jobs tuent le serveur
2015/10/20 06:40Hervé Gilquin20151020 / Arrêt pour cause de maintenance électrique Une coupure totale d'alimentation électrique de 7h00 à 13h00 et une coupure de production d'eau glacée de 6h00 à 18h00 sont programmées pour le samedi 24 octobre 2015 sur le site Monod. En conséquence, les serveurs du PSMN seront arrêtés dans l'après-midi du vendredi 23 octobre. Le redémarrage aura lieu dans la matinée du lundi 26 octobre 2015.,
2015/10/26 10:32Hervé Gilquin20151026 / Redémarrage après arrêt pour cause de maintenance électrique Le redémarrage aura lieu dans l'après-midi (au mieux) du lundi 26 octobre 2015. Le staff du PSMN EDIT 26/10/2015 17h00 : Tout semble OK. GO! EDIT 27/10/2015 08h30 : Problème de serveur d',
2015/10/27 09:33Loïs Taulelle20151027 / Serveur OS et applis Le serveur principal d'OS et d'applications pour les noeuds de calcul s'est planté cette nuit. Sa remise en route a été plus longue que prévue (~2h30). Le qmaster SGE, ainsi que le scratch E5 ont été coupé pendant cette panne., ,
2015/11/06 09:26Loïs Taulelle20151106 / Serveur OS et applis PANNE MATÉRIELLE : Le serveur principal d'OS et d'applications pour les noeuds de calcul est en panne depuis ce matin ~6h (disques système). Sa remise en route est plus longue que prévue (panne disque, OS master en reconstruction). Le scratch E5 est impacté par cette panne.,
2015/11/09 16:33Loïs Taulelle20151109 / Panne de climatisation Le circuit d'eau froide est en panne. Une partie des noeuds de calcul s'est éteinte pour éviter la surchauffe. EDIT 09/11/2015 18:10 : Retour à la normale sur le circuit d'eau froide. Les noeuds seront redémarrés demain matin pour laisser le temps à la salle de reprendre une température normale.
2015/11/12 07:23Hervé Gilquin20151112 / Problème réseau + serveur OS Un problème réseau est apparu le 11/11 dans la matinée, il est en cours de traitement. EDIT 12/11/2015 11h00 : De plus, un bug système est apparu sur le serveur d'OS. Loïs et Emmanuel sont en train d'investiguer pour un retour à la normale le plus rapidement possible.,
2015/11/26 13:15Loïs Taulelle20151126 / Nouveau, machine de visualisation Une nouvelle machine permettant d'éxécuter les logiciels x2go et VirtualGL a été mise en place au PSMN, avec le modèle qui a été réalisé sur le plateau “Visualisation 3D” du CBP. La documentation est disponible ici. N'hésitez pas à venir dans les bureaux du PSMN pour une démo.,
2015/12/01 07:31Hervé Gilquin20151201 : Problème /scratch E5 Un disjoncteur s'est ouvert cette nuit, il alimentait les serveurs de /scratch qui se sont arrêtés. Le staff traite le problème. EDIT 01/12/2015 10h30 : Le problème a été résolu par Loïs Taulelle. hard soft,
2015/12/04 08:25Hervé Gilquin20151204 / Problème quota dépassé home chimie Suite à un dépassement du quota sur le home chimie et à une manoeuvre hasardeuse de H. Gilquin pour y remédier, le serveur est en maintenance. Il sera re-démarré le plus rapidement possible. EDIT 11:40 : filesystem is in repair mode (checking,
2015/12/11 09:50Loïs Taulelle20151211 / Rappel coupure de courant Une coupure de courant (pour travaux) impacte le batiment dans lequel le PSMN est hébergé pour le WE du 12/12. La totalité des infrastructures du PSMN et du CBP sont arrêtées pendant cette période (vendredi 11/12 10h jusqu'à lundi 14/12 12h).
2015/12/16 08:06Loïs Taulelle20151216 / Panne scratch global E5 + Clim Le scratch global des clusters du groupe E5 est en panne. Nous rencontrons aussi des problèmes avec la climatisation. EDIT: Le scratch E5 est de nouveau up & running. La clim, par contre... hard
2016/01/13 17:04Hervé Gilquin20160113 / problème de disjoncteur Les noeuds r422node109 à 120 ont été privés d'alimentation électrique suite à l'ouverture d'un disjoncteur entre 17h00 et 18h00. hard
2016/01/21 10:00Loïs Taulelle20160121 / Plantage serveur de fichier Le serveur de fichier des homes igfl, bio, cbvi, ciri, ibcp, lbmc, rdp et des partages igfldb et collision a planté ce matin. Probablement une surcharge de jobs. hard
2016/02/03 14:28Hervé Gilquin20160203 / travaux sur certains serveurs Le staff va changer de place certains serveurs; en conséquence certaines queues vont être temporairement indisponibles; ce seront: - r815lin128ib - x5570deb24E - x5570deb24C EDIT le 11/02/2016 à 17h00
2016/02/08 15:57Loïs Taulelle20160208 / Plantage serveur de fichier Le serveur de fichiers des home chimie et photochimie vient de redémarrer (tout seul, comme un grand) après une forte surcharge système, probablement un job qui travaillait directement dans le home... Le filesystem est en cours de vérification.
2016/02/25 14:19Loïs Taulelle20160216 / Problème serveur de home "bio" Le serveur des homes de bio (igfl, rdp, lbmc, ciri) a subit une trés forte charge cette nuit (backup + jobs>200) et a planté. Il est de nouveau up & running. hard
2016/02/24 13:28Loïs Taulelle20160224 / Problèmes électriques Des problèmes d'alimentation électrique ont affecté les queues x5570deb24A, B et C. Des jobs ont été perdus. Désolé. Le Staff hard /usr/local reminder This path (/usr/local) is DEPRECATED in our clusters since the Debian7 migration. It should not appear in any environment variable (PATH, LD_LIBRARY_PATH, LIBRARY_PATH, CPATH, FPATH, INCLUDE, PREFIX) except special known cases.,
2016/03/21 13:16Loïs Taulelle20160321 / Spring cleaning (scratches) Scratch performances decrease as it become full. We are above 80% filling on both x55 and E5 scratches. And some files are more than a year old. It's time to clean up !! See scratch documentation for scratches access. hard soft,
2016/04/07 06:52Loïs Taulelle20160407 / Cooling problem Due to problems on the main cooling system (since ~6h this morning), submitting job is bloqued until further notice. EDIT 9h05: Cooling system is back to normal, qsub is also available again. hard
2016/04/18 14:32Loïs Taulelle20160418 / Coupure électrique Du vendredi 29 avril au lundi 02 mai 2016 Coupure électrique générale du site Monod de l'ENS de Lyon pour maintenance et travaux divers. Du vendredi 29 avril 10h00 au samedi 30 avril 10h00 : intervention sur le circuit d'eau glacée.
2016/05/17 14:08Loïs Taulelle20160517 / Reboot home chimie Suite a un problème hardware (résolu), le serveur des homes chimie/photochimie a été rebooté en fin de matinée. Des jobs ont sans doute été perdus. hard
2016/05/23 07:26Hervé Gilquin20160523 Problème switch tête de réseau Suite a un problème hardware (résolu) sur un switch en tête de réseau ce WE, de nombreux serveurs se sont trouvés sans connexion. Les jobs tournant sur ces serveurs ont sans doute été perdus. EDIT 10:50
2016/06/01 08:16Loïs Taulelle20160601 / Cooling problem Due to problems on the main cooling system (since ~5h AM), submitting job is bloqued until further notice. Queues & nodes have also been blocked (running jobs will not be affected... we hope) EDIT 10:30 Everything is back to normal (or in 15mn max)
2016/06/10 08:48Loïs Taulelle20160610 / Saison des transferts Dans le cadre de la mutualisation des moyens au PSMN, et suite à des financements de stockages spécifiques, la saison des transferts commence : * Les données (/home et partages /Xnfs) du lbmc, ciri, igfl, cbvi et,
2016/09/07 12:21Loïs Taulelle20160907 / Cooling problem Due to cooling system down, we are experiencing some problems (latency on home, job crashs...) EDIT 20160908: everything was back to normal at 15:00 yesterday. hard
2016/09/19 08:30Loïs Taulelle20160919 / Réservation spéciale pendant 3 mois 4 x 288 coeurs sont réservés pendant trois mois pour une utilisation spéciale ; ce sont des coeurs E5-2670. Les queues E5-2670… vont donc être très chargées jusqu'à la fin de l'année. Pensez à utiliser les queues x5570,
2016/09/23 06:59Loïs Taulelle20160923 / Évolution des files d'attente Tous les noeuds E5 à 64GB de RAM (sauf GPU, encore à venir) ont été upgradés à 128GB. Les files d'attentes changent aussi de nom. hard sge,
2016/11/23 09:46Loïs Taulelle20161123 / Évolution des files d'attente (suite) Les derniers noeuds E5 GPU ont été upgradés à 128GB de RAM. Les files d'attentes ont changé de nom. hard sge,
2016/12/26 10:07Loïs Taulelle20161226 / Coupure électrique générale Il y aura une coupure générale (climatisation et électricité) sur le site le 28/12/2016, entraînant l'arrêt du PSMN du 27/12/2016 (dans l'après-midi) jusqu'au 29/12/2016 (dans la journée). hard
2017/01/17 15:12Loïs Taulelle20170117 / Maintenance non maitrisée sur un onduleur Une maintenance non maitrisée par le prestataire sur un onduleur a entraîné une interruption d'alimentation électrique de tous les serveurs (fichiers, qmaster, services). Le redémarrage va prendre un certain temps.
2017/01/19 12:21Loïs Taulelle20170119 / Micro-coupure ERDF Une micro-coupure ERDF a entraîné une interruption d'alimentation électrique de tous les serveurs (fichiers, qmaster, services). Le redémarrage va prendre un certain temps. Le staff. EDIT 14h30: retour à la normale.
2017/02/20 09:20Loïs Taulelle20170220 / Gateway hang For a unknown reason, gateways went down this week-end. hard
2017/03/07 07:51Hervé Gilquin20170307 / Scratch E5 Le scratch E5 connaît quelques difficultés techniques (6 disques HS) le staff procède a leur remplacement les uns après les autres, ce qui prend du temps et ralenti le fonctionnement. hard
2017/03/21 15:26Loïs Taulelle20170321 / Erreur de manipulation Une mauvaise commande, sur la mauvaise machine, a entraîné une reconfiguration des routes et un reboot d'allo-psmn... My bad. hard network,
2017/04/10 10:23Loïs Taulelle20170410 / Problème sur le serveur d'OS Le serveur d'OS rencontre des problèmes, le Staff s'en occupe, pour l'instant certains fichiers ne sont plus accessibles. EDIT 12:00 La partition système du serveur OS/Gluster/applis est HS. Nous faisons notre possible pour tout remettre en service au plus vite.,
2017/06/12 08:23Loïs Taulelle20170612 / Power surge side effect problem Following the power surge incident, compute nodes (may) have scratch access problems. We are currently checking them, and rebooting when possible/necessary. hard
2017/06/20 09:47Loïs Taulelle20170620 / Hardware error on front machines x5570comp1-pub and x5570comp2-pub are down due to hardware problems. We will bring up new servers (same names) ASAP. hard
2017/06/22 15:50Loïs Taulelle20170622 / x5570comp x5570comp1-pub and x5570comp2-pub are up. hard
2017/07/10 08:02Loïs Taulelle20170710 / Filesystem panic on bio fileserver Due to a massive load of jobs (> 500), all writing/erasing on /home at the same time, fileserver goes to panic mode on saturday evening. We had to reboot it this morning. Many of this week end writing may have been lost.
2017/07/11 07:56Loïs Taulelle20170711 / Power surge on nodes's chassis A power surge on a frame rack have shutdown/reboot/shutdown again a bunch of nodes (c8220node17 to 24). Chassis is OK now, as for the nodes involved. Jobs have been lost. hard power,
2017/07/13 13:39Loïs Taulelle20170713 / scratch E5 The E5 /scratch encountered some issues since yesterday around 12:00 am. The network issues,-that were concomitantly encountered on the ENS yesterday-, slowed the investigation, however the problems were resolved this morning and the causes are still under investigation.,
2017/07/31 06:34Hervé Gilquin20170731 / scratch E5 Un problème a été détecté sur le /scratch E5, il est sous investigation scratch hard,
2017/08/16 09:24Loïs Taulelle20170816 / epidemic failures of disks As expected, after the warm spring and summer (in real, the cooling failures in spring and summer), we now have an epidemic failures of disks in home servers and gluster systems (/scratch). We are currently changing them. As a result, you may encountered slower responses on,
2017/09/13 10:10Loïs Taulelle20170913 / General poweroff Saturday, September 23th 2017 Hi all, FYI, next planified main power outage for ENS lyon is scheduled for Saturday, September 23th 2017. Planned stops are : * stop of all queues on Friday, September 22th (before 15h),, ,
2017/10/24 09:45Loïs Taulelle20171024 / Arrêt et déménagement du PSMN Bonjour à tous, l'ensemble des équipements du PSMN déménage dans le nouveau Datacenter de L'ENS de Lyon (construit dans le cadre du Plan Campus) ! Pas moins de 7 sociétés sont impliquées dans les opérations de déménagement et d'installation.
2017/11/07 10:29Loïs Taulelle20171107 / Surtension sur le réseau électrique ENSL Bonjour, une surtension sur le réseau électrique de l'École a provoqué, entre autres : * un reboot généralisé du réseau de l'École, * la disjonction de la protection aval d'un de nos onduleurs principaux avec pour résultat la moitié des noeuds de calculs éteints,
2017/11/08 13:55Loïs Taulelle20171108 / Coupure électrique Les jours se suivent et se ressemblent... Une coupure électrique a impacté notre batiment, son circuit de secours et le circuit général de la climatisation. La totalité des machines a été touchée. Nous sommes en train de redémarrer
2017/11/21 11:08Loïs Taulelle20171121 / J-3 Arrêt et déménagement D'ici 3 jours (vendredi 24/11/2017), l'ensemble des équipements du PSMN déménage dans le nouveau Datacenter de L'ENS de Lyon. Pour ce faire, nous devrons éteindre les machines en début d'après-midi ce vendredi, afin de commencer le démontage.,
2017/11/22 12:46Loïs Taulelle20171122 / J-2 before poweroff Within 2 days (friday 24th of november 2017), all of PSMN's equipment is moving to the brand new ENS de Lyon's Datacenter. Hence, we will have to turn off all the machines this friday in the early afternoon (13h30 ~ 14h00).,
2017/11/24 17:35Loïs Taulelle20171124 / PSMN is OFF Hi folks, We are off until 4th of december, at best. We will keep you posted. hard
2018/04/11 13:51Loïs Taulelle20180411 / Scratch E5 degraded Une baie de disque du scratch E5 est morte. Le SAV est en cours. EDIT 12/04/2018: rebuild in progress... EDIT 12/04/2018: rebuild terminé. hard scratch,
2018/04/17 12:03Loïs Taulelle20180417 / Scratch E5 degraded mode 2 disks in FAILED mode on E5 scratch. Rebuild in progress. hard gluster,
2018/04/27 12:48Loïs Taulelle20180427 / General poweroff Next planified main power outage for ENS Lyon (Monod site) is scheduled for Saturday, April 28th 2018. Planned stops for PSMN are: * stop of all queues on Friday, April 27th (before 12h) * stop of allo-psmn *at 12h* on Friday, April 27th,
2018/04/30 06:50Loïs Taulelle20180430 / Restart in progress Services are OK. Gluster (scratch) are OK. All restartable nodes are OK. We're UP. poweroff hard,
2018/05/18 08:28Hervé Gilquin20180518 / problème électrique Une alimentation électrique a fondu, 8 serveurs sont impactés. Les jobs 2163858 2247579 2258665 2275082 2163971 2259013 2166883 2258498 ont été perdus alim hard,
2018/05/23 14:35Hervé Gilquin20180523 / problème alimentation électrique Une “micro-coupure” générale d'alimentation électrique a eu lieu aujourd'hui vers 16h30, le staff travaille au re-démarrage des serveurs impactés. alimentation electrique hard, ,
2018/06/05 07:04Loïs Taulelle20180605 / Problème alimentation électrique Une “micro-coupure” de l'alimentation électrique a eu lieu hier soir vers 20h00 (probablement due aux orages), le staff travaille au re-démarrage des serveurs impactés. Nous attendons des informations de la DirPat.
2018/06/06 06:50Coraline Petit20180606 / Problème alimentation électrique Une “micro-coupure” de l'alimentation électrique a eu lieu hier soir vers 19h00 (probablement toujours due aux orages), le staff travaille au re-démarrage des serveurs impactés. hard
2018/07/09 08:19Loïs Taulelle20180709 / Problèmes réseaux Un problème sur une alimentation électrique d'un des switchs 10Gb du backbone PSMN a entraîné l'arrêt de l'interconnection entre ces switchs (Samedi 7/07, vers 23h45). Nous avons du redémarrer la pile réseau. Des jobs ont été perdus.,
2018/09/03 13:42Loïs Taulelle20180830 / Problèmes réseaux Un problème sur une alimentation électrique d'un des switchs 10Gb du backbone PSMN a entraîné l'arrêt de l'interconnection entre ces switchs (Jeudi 30/08, vers 7h00). Le staff s'occupe du problème. EDIT 10:45,
2018/12/21 08:21Loïs Taulelle20181001 / Problèmes réseaux Un problème est apparu sur un des switchs 10Gb du backbone PSMN et a entraîné l'arrêt de l'interconnection entre ces switchs (Dimanche 30/09, vers 19h00). Le staff s'occupe du problème. EDIT 10:30 Problème résolu par Coraline Petit et Loïs Taulelle.,
2018/10/22 15:56Loïs Taulelle20181022 / Start Up Things weren't as smooth as expected... But our half-yearly upgrade is (finally) done. Last compute servers will be started tomorrow (after x55 scratch reboot). hard reboot,
2018/12/21 08:25Loïs Taulelle20181221 / Panne alimentation électrique Bonjour, une panne d'alimentation électrique a causé l'arrêt de huit serveurs: C8220node25, 26, 27, 28, 201, 202, 249 et celera. Des jobs ont été perdus. L'alimentation a été remplacée. hard
2019/02/14 13:53Loïs Taulelle20190214 / Baie de disques bio EN PANNE La baie de disques des volumes de biologie (lbmc, rdp, ciri, igfl) vient de tomber en panne. EDIT 15:15 : Le volume est à nouveau accessible, en mode dégradé, une reconstruction est en cours. hard
2019/02/19 15:28Loïs Taulelle20190219 / r730visu -> r740visu La machine r730visu a été remplacée par r740visu. hard visualisation,
2019/03/05 07:58Loïs Taulelle20190305 / Coupure électrique imprévue Nous subissons actuellement une coupure électrique non-prévue sur le CC. Redémarrage ASAP. Tous les serveurs de calculs sont éteints. Les jobs ont été perdus. EDIT 11h30: Redémarrage terminé. hard power,
2019/03/18 08:17Loïs Taulelle20190315 / allo-psmn down Bonjour, le serveur allo-psmn réseau PSMN ne répond plus, le problème est traité par le staff. EDIT 10h30 Cela semble venir de la liaison interne entre le réseau de l'ENS de Lyon et le réseau du PSMN. EDIT 13h00: Problème résolu grâce à Micaël Calvas, avec l'aide de Loïs Taulelle depuis ses congés.,
2019/04/08 14:14Loïs Taulelle20190405 / Next power outage Saturday, April 20th 2019. Hi all, FYI, next planified main power outage for ENS Lyon (Monod site) is scheduled for Saturday, April 20th 2019. Planned stops for PSMN are: * stop of all queues on Friday, April 19th (before 10h AM), ,
2019/04/20 13:59Loïs Taulelle20190420 / Restart We are up, except for some nodes not mounting homes and scratch E5 FUBAR. Maintenance operations will occur next week. hard scratch,
2019/04/24 14:55Loïs Taulelle20190424 / It's alive !! Scratch E5 is back from the dead, as fresh as a new born (hence empty). Reminder, new scratch hierarchy: /scratch/ ├── E5/ (existing E5 scratch, available to E5 cluster) ├── nvme/ (local to some servers) ├── ssd/ (local to some servers) ├── project_name (local to some servers, with dedicated hardware) ... └── X5/ (existing X5 scratch, available to X5 cluster),
2019/06/06 06:16Hervé Gilquin20190505 / incident alimentation électrique Une alimentation a lâché sur un groupe de 4 serveurs. Les serveurs: c6420node105 c6420node106 c6420node107 c6420node108 ont été impactés, les jobs ont été perdus. L'incident est en cours de traitement.,
2019/05/13 13:48Hervé Gilquin20190513 / Arrêt de E5-2670comp1 et E5-2670comp2 Bonjour, les serveurs de compilation E5-2670comp1 et E5-2670comp2 vont être arrêtés temporairement mardi 14/05/2019 pour permettre leur déplacement. L'arrêt durera au plus 2 heures. Edit 2019/05/14 11h30
2019/05/16 07:48Loïs Taulelle20190516 / Power outage A short power outage occur this morning, before 7h. Reboot is done. Jobs have certainly been lost. power hard,
2019/06/15 13:42Hervé Gilquin20190615 / Incident aduction alimentation électrique ENS de Lyon Une interruption de l'alimentation électrique a eu lieu aujourd'hui samedi 15/06/2019 vers 15h15. Beaucoup de serveurs se sont arrêtés, de très nombreux jobs ont été perdus. Le redémarrage va prendre du temps, soyez patients.,
2019/07/29 07:50Hervé Gilquin20190729 / Modification des queues Durant le mois d'août, les queues vont être modifiées; les modifications seront mises à jour sur cette page. - la queue E5-2670gpuM2070deb128 va être supprimée -> OK le 29/07/2019 - la queue E5-2667v4deb128nl va être supprimée,
2019/08/07 06:04Hervé Gilquin20190807 / Incident adduction alimentation électrique ENS de Lyon À cause des orages, il y a eu une interruption de l'alimentation électrique le 06 août vers 19h00. Soyez patients. Edit 9h00 Les queues E5-2670deb128A et B sont OK. Les queues E5-2667v4deb128 et E5-2667v4deb256A sont OK.,
2019/08/08 05:25Hervé Gilquin20190807 / Nouvel incident d'alimentation électrique Hier Vers 16h00, il y a eu un nouvel incident d'alimentation électrique Le /scratch/E5 est impacté, deux disques sont HS; nous examinons le problème et nous vous tenons informés, soyez de nouveau patients,
2019/09/26 09:34Loïs Taulelle20190926 / Scratch E5 Nombreux problèmes sur le /scratch/E5. Plusieurs disques durs sont HS depuis cette nuit, et deux sous-volumes sont en mode dégradé. Des noeuds de calculs (c6420) ont bloqués, à tel point qu'ils ont du être redémarrés. Des jobs ont été perdus.,
2019/10/01 13:26Hervé Gilquin20191001 / Modification des queues D'ici la fin de l'année, des queues vont être modifiées et/ou ajoutées et/ou supprimées. Les modifications seront mises à jour sur cette page. - les queues x5570..., x5670... seront supprimées -> - les queues M6142deb384A,B,C et D seront renommées SLG6142deb384A,B,C et D,
2019/11/21 13:45Loïs Taulelle20191121 : E5-2670comp1 en panne La carte infiniband soudée sur la carte mère de la machine E5-2670comp1 est morte. Ce serveur fonctionne encore, sans accés au scratch. Il sera remplacé par un nouveau matériel, sans changement de nom ASAP. hard
2019/11/25 17:04Loïs Taulelle20191125 / Panne électrique sur scratch E5 Une panne électrique est survenue sur un chassis du scratch E5. La moitié des serveurs sont indisponibles. Le problème sera résolu dès que possible. EDIT 2019/11/26 18:00 : Nous avons cannibalisé un chassis des noeuds monointeldeb128 pour remonter le service. Qui sera remplacé sous peu
2019/12/09 10:24Loïs Taulelle20191209 / Problème électrique Un PDU (Power Distribution Unit) est tombé en panne, et a disjoncté. Les files d'attentes M6142deb384A et M6142deb384B sont bloquées en attendant le changement du PDU. Des jobs ont été perdus... EDIT 09/12/2019 11:30 :,
2020/01/23 10:48Loïs Taulelle20200123 / Scheduled power outage There will be a short, but necessary, power outage next Thursday (30/01/2020) morning. Some clusters (parts) will be rebooted. hard power,
2020/01/28 13:24Loïs Taulelle20200128 / Scheduled power outage A scheduled power outage is planned Thursday morning. Following queues will be shutdown: * E5-2670deb128E, E5-2670deb128F * E5-2670v2deb128 & E5-2670v2deb128nl * SSD-E5-* * h48-E5-2670deb128 * r815* * r820deb768,
2020/01/30 11:01Loïs Taulelle20200130 / Electrical work Electrical operations are done. Queues are unlocked (or will be) as checked OK. power hard,
2020/03/20 13:42Loïs Taulelle20200320 / data servers Murphy's law: * r730data6, which serve home for phys, psmn, cbp... and Xnfs for physic's groups, has crashed around noon. EDIT: back online. * r720data4 (craldb, phoenix) is in read-only mode for craldb data (too many disks with errors)
2020/04/06 08:17Loïs Taulelle20200406 / homes Chimie Le serveur hébergeant les volumes homes et Xnfs pour la Chimie est down (pour le moment). Nous mettons tout en oeuvre pour le remettre en service, dans les circonstances actuelles... EDIT: 12h15. server is back online. Go easy and go slow,
2020/04/29 15:22Loïs Taulelle20200428 / Problème de disjoncteur Un disjoncteur a sauté, 12 serveurs des queues CLG6242deb384A et B ont été impactés. Le problème a été résolu le 29/04 au matin. hard
2020/08/24 09:55Loïs Taulelle20200727 / r820deb768 Bonjour, l'alimentation interne du serveur r820node253 est HS, le serveur aussi et la queue est donc fermée. hard
2020/09/03 09:30Loïs Taulelle20200903 / Arrêt définitif du cluster X5 Le cluster X5 est définitivement arrêté ce jour. Il vous reste jusqu'au 11/09/2020 pour récupérer vos données dans le scratch X5 (via x5570comp1 et x5570comp2). cluster hard,
2020/09/21 11:12Loïs Taulelle20200921 / R740sirod La passerelle avec le CC-IN2P3 a toujours des problèmes de stockage. Le SAV est en cours, nombreuses déconnexions prévues. irods hard,
2020/10/07 14:26Loïs Taulelle20201007 / R740sirod La passerelle avec le CC-IN2P3 est en cours de maintenance. Le service de gateway est indisponible. gateway hard irods, ,
2020/10/12 11:42Loïs Taulelle20201012 / r740sirod (suite en fin) Bonjour, la maintenance sur cette machine est terminée. Le cache local est de nouveau disponible, la liaison avec l'IN2P3 est rétablie. hard storage in2p3, ,
2020/10/15 10:04Loïs Taulelle20201015 / microcoupures de courant Suite à une microcoupure sur l'ensemble du site Monod, deux machines (dont r740visu) se sont éteintes. Elles étaient mal branchées... (my bad). EDIT 13:00 : yep, another one, longer. power hard,
2020/10/26 08:34Loïs Taulelle20201026 / PowerOff Some tests on cooling system were canceled, BUT we still have a lot of updates/upgrades to do. We hope that PSMN will restart sooner than expected. EDIT: Some PSMN Staff members are contact-cases for Covid-19, and working from home. Which doesn't help for cabling purposes, ,
2020/10/27 13:12Loïs Taulelle20201027 / PowerOff (reminder: some staff member are working from home, from covid19 precautions) all fileservers, and allo-psmn are UP. ssh.psmn is UP. comps and nodes will follow, ASAP. poweroff hard covid19, ,
2020/10/28 10:29Loïs Taulelle20201028 / PowerOn (reminder: some staff member are working from home, from covid19 precautions. Big thanks to some lab members who came to help finishing cabling.) only EDIT 14h00: jobs submissions ARE open. Lake cluster will be started as soon as physical reconfiguration and cabling has been done., , ,
2020/11/02 15:25Loïs Taulelle20201102 / PowerOn (reminder: staff members are working partially from home, covid19 confinement) Lake cluster has partially started (~2/3 is up & running). jobs submissions ARE open. hard lake poweron, ,
2020/11/04 09:03Loïs Taulelle20201104 / Infiniband, MPI et volumes bio There are still instabilities on HPC network (mostly on Lake cluster) as of today. We are on it. EDIT 16h40: Suite à une erreur, le serveur hébergeant les volumes et home des bio (lbmc, rdp, ciri, igfl) a été redémarré. Désolé,
2020/11/10 07:17Hervé Gilquin20201109 / Infiniband, MPI et /scratch Lake There are still a lot of instabilities on HPC network (mostly on Lake cluster). We are on it. Sorry... EDIT 18h00 10/11/2020: The instabilities on HPC network seems to be resolved EDIT 8h00 12/11/2020: The instabilities are bad memory,
2020/12/07 10:28Loïs Taulelle20201207 / Problème électrique Un disjoncteur général a sauté ce matin, entrainant l'arrêt brutal des files d'attente CLG6226Rdeb192C et CLG6226Rdeb192D. Les jobs sont perdus. Désolé. power hard,
2021/01/04 15:25Loïs Taulelle20210104 / arrêt PSMN (compute) As planned, PSMN computing is going down for two days for acoustic measurements. Most front machines will stay up. Scratches on cluster Lake may go down as well (infiniband upgrades) for short periods of time. Reboot is planned for 06/01/2021 in the morning.,
2021/01/12 13:20Loïs Taulelle20210112 / Networks ENS IT service had to perform some updates (and reboot) of our main network link. It may have timeouted some connections. It is now up & running. hard network,
2021/03/17 09:33Loïs Taulelle20210317 / storage (phys) Yesterday, some volumes in the dedicated bay for physic lab data went full. We are migrating data to ensure space for erasing operations. kind reminder: PSMN volumes are for live data, not long-term storage, not backups.,
2021/04/30 08:06Loïs Taulelle20210430 / some queues out CLG6226Rdeb192A and B are out. Reasons unknow at the moment (probably electrical). As there is nobody onsite today, problem will be taken care of Monday, at best. Edit 2021/05/03: The electrical problem is solved. Everything is OK but jobs are lost.
2021/07/02 07:52Loïs Taulelle20210702 / Restart Acoustics measurements went well. Clusters are restarting. Submissions are open. hard
2021/10/11 12:56Loïs Taulelle20211011 / Power outage A massive power outage, from 12h30 to 13h30, occured on ENS de Lyon (Monod Site) today. It lasted long enough to drain UPS batteries. Everything went off badly. all infrastructure is power off Please be patient as we are trying to restart PSMN.,
2021/10/12 09:25Loïs Taulelle20211012 / Power outage (suite) All storage services are still in heavy scan (and allready have dead disks). The gateway-out has died, which force us to apply a new network configuration. We will restart services along the day, stay tune. EDIT 11h30:, ,
2021/10/15 08:01Loïs Taulelle20211022 / Maintenance électrique d'Octobre A power outage (planned, this time) will occur Saturday, October 23th 2021, on ENS de Lyon Monod site. There will be large operations on electrical systems over the week-end, and PSMN Staff will also perform usual background upgrades., ,
2021/10/25 10:15Loïs Taulelle20211025 / PSMN Restart Network upgrades takes waaaay longer than expected. We are not ready to restart. Sorry for the inconvenience. EDIT 16h00: PSMN is up & running. SGE will be started tomorrow morning. poweroff hard startup, ,
2022/06/13 12:08Loïs Taulelle20220613 / Acoustic measurements “Sous réserve de conditions météorologiques favorables, la réalisation des mesures acoustiques MLE / SING est programmée dans la nuit du jeudi 16 au vendredi 17 juin 2022.” Under favorable weather conditions, acoustic measurements (yes, again) will occur during the night from Thursday 16th of june to Friday 17th of june 2022.,
2022/08/16 09:01Loïs Taulelle20220816 / Divers * scratch Bio Le scratch Bio était planté depuis “un certain temps”. Il est de nouveau pleinement fonctionnel et plein à ras-bord. Pour ceux présent : faites du ménage. * cl6226comp[1-2] plantés, reboot OK scratch hard,
2022/11/28 10:31Loïs Taulelle20221128 / scratch/Cral A storage node for /scratch/Cral is having issues. This result in a partial unavailability (not loss) of data. Formulaires du PSMN scratch hard,
2023/01/18 15:59Loïs Taulelle20230118 / data7 is slow “resilver in progress” since replacement of a dead disk today. impacts on all bio accounts (lbmc, rdp, igfl, ciri...) hard disk,
2023/03/16 16:11Loïs Taulelle20230316 / m6142comp1 Login node m6142comp1 is back online. hard comp,
2023/04/17 06:14Loïs Taulelle20230417 / Network problem We have an internal network problem since friday evening. We are working on it. EDIT 9:10: problem solved. Situation back to norminal. network hard,
2023/04/19 08:15Loïs Taulelle20230419 / rebuild on data7 We have a rebuild ongoing on all users volumes on data7 (bio: ciri, igfl, lbmc, rdp) since yesterday (sorry, forgot to warn) hard rebuild zfs, ,
2023/06/13 14:28Loïs Taulelle20230613 / volume highenergy Two disks arrays in this volume are having problems. We are working on it. In the meantime, this volume is unavailable. disk hard,
2023/06/15 16:32Loïs Taulelle20230615 / volume highenergy (S01E02) /Xnfs/highenergy volume is back online. Go easy, a scan/rebuild is still ongoing... hard disk,
2023/07/11 08:55Loïs Taulelle20230711 / Urgent upgrades We have to make urgent hardware upgrades on a few fileservers. These need a reboot afterward, fileservers will be unavailable a few minutes, at most. Expect lags and delays during these upgrades. impacted services: $HOME and /Xnfs shares (mostly everyone), , ,
2024/01/18 10:30Loïs Taulelle20240118 / scratches on Cascade We have a problem on 2 servers for scratches on Cascade cluster : one from /scratch/Cral, one from /scratch/Cascade. They both have a dead infiniband network card. We are waiting for resupply to repair. Symptoms: Files and/or directories are not available from both, ,

Software

2021/02/03 09:44Loïs Taulelle, ,
2013/03/22 14:47 ,
2013/03/22 14:48 
2013/03/25 07:55 ,
2013/03/27 10:48 ,
2013/03/28 16:20 ,
2013/04/10 10:14Loïs Taulelle,
2013/06/21 12:31Loïs Taulelle, ,
2013/06/25 15:40Loïs Taulelle, ,
2013/06/26 13:12Loïs Taulelle, ,
2013/12/02 15:11Loïs Taulelle
2014/04/01 09:50Loïs Taulelle, ,
2014/04/30 09:58Hervé Gilquin
2014/05/05 14:17Hervé Gilquin
2014/05/21 12:33Hervé Gilquin
2014/06/12 07:59Loïs Taulelle
2014/09/29 07:26Loïs Taulelle, ,
2014/10/03 10:10Loïs Taulelle, ,
2014/10/07 10:39Loïs Taulelle, ,
2015/01/15 11:03Loïs Taulelle
2015/01/23 08:01Loïs Taulelle
2015/02/02 17:28Loïs Taulelle
2015/02/03 10:25Loïs Taulelle,
2015/03/04 16:55Hervé Gilquin,
2015/03/18 10:25Loïs Taulelle, ,
2015/03/26 16:15Loïs Taulelle, ,
2015/03/30 14:43Hervé Gilquin, ,
2015/06/03 08:46Loïs Taulelle
2015/09/28 07:43Hervé Gilquin,
2015/10/20 06:40Hervé Gilquin,
2015/10/26 10:32Hervé Gilquin,
2015/10/27 09:33Loïs Taulelle, ,
2015/11/12 07:23Hervé Gilquin,
2015/11/26 13:15Loïs Taulelle,
2015/12/01 07:31Hervé Gilquin,
2015/12/03 16:41Loïs Taulelle
2015/12/04 08:25Hervé Gilquin,
2016/02/24 13:28Loïs Taulelle,
2016/03/21 13:16Loïs Taulelle,
2016/09/19 08:30Loïs Taulelle,
2017/08/03 06:13Hervé Gilquin
2018/10/26 08:33Loïs Taulelle
2019/01/17 10:24Loïs Taulelle
2019/01/21 10:52Loïs Taulelle
2019/03/18 08:17Loïs Taulelle,
2019/08/28 12:56Loïs Taulelle,
2020/02/03 17:12Loïs Taulelle,
2020/04/29 15:22Loïs Taulelle
2020/05/25 15:24Loïs Taulelle
2020/05/26 09:26Loïs Taulelle
2020/07/24 08:57Loïs Taulelle
2021/02/02 08:19Hervé Gilquin, , ,
2022/01/18 09:56Loïs Taulelle

Job scheduler

2013/03/22 14:48 ,
2013/03/25 07:55 ,
2013/03/27 10:48 ,
2013/03/28 16:20 ,
2013/04/22 14:06Loïs Taulelle,
2013/04/24 08:59Loïs Taulelle,
2013/05/13 14:17Loïs Taulelle,
2013/05/13 14:22Loïs Taulelle,
2013/08/27 09:46Loïs Taulelle,
2013/06/21 12:31Loïs Taulelle, ,
2013/06/25 15:40Loïs Taulelle, ,
2013/06/26 13:12Loïs Taulelle, ,
2013/06/28 11:13Loïs Taulelle,
2013/08/27 09:44Loïs Taulelle,
2013/07/11 14:21Loïs Taulelle,
2013/07/11 14:51Loïs Taulelle,
2013/08/27 09:43Loïs Taulelle
2013/08/27 09:48Loïs Taulelle,
2013/08/30 11:24Loïs Taulelle,
2013/09/02 09:40Loïs Taulelle,
2013/09/09 14:06Loïs Taulelle,
2013/09/16 09:14Loïs Taulelle,
2013/09/20 10:07Loïs Taulelle,
2013/09/24 06:18Hervé Gilquin,
2013/09/25 16:51Loïs Taulelle,
2013/10/15 14:01Hervé Gilquin,
2013/12/17 08:01Hervé Gilquin,
2014/04/01 09:50Loïs Taulelle, ,
2014/06/11 09:13Loïs Taulelle,
2014/07/11 07:08Loïs Taulelle,
2014/09/18 09:41Loïs Taulelle,
2014/09/29 07:26Loïs Taulelle, ,
2014/10/03 10:10Loïs Taulelle, ,
2014/10/07 10:39Loïs Taulelle, ,
2014/10/09 09:11Loïs Taulelle,
2014/10/27 11:06Loïs Taulelle,
2014/10/31 10:38Loïs Taulelle
2014/12/08 10:15Loïs Taulelle,
2014/12/15 15:34Loïs Taulelle,
2014/12/22 17:08Hervé Gilquin,
2015/02/03 10:25Loïs Taulelle,
2015/03/04 16:55Hervé Gilquin,
2015/03/18 10:25Loïs Taulelle, ,
2015/03/26 16:15Loïs Taulelle, ,
2015/03/30 14:43Hervé Gilquin, ,
2019/12/09 10:24Loïs Taulelle,
news/failures.1366794049.txt.gz · Dernière modification : 2020/08/25 15:58 (modification externe)