S'abonner au fil des news (flux RSS)

Fil des news

20200721 / Electrical incident (2)

All PSMN is down. No running servers.

There's an intervention scheduled today, on the main power source, starting 11:00 AM.

First fileservers start expected ~2:00 PM. No stable accesses, nor computing ressources before 4:00 PM, at best.

EDIT 15:45 : Main power source is not stable (and thunderstorms expected tonight). So, for security, all PSMN will stay down until tomorrow.

2020/07/21 08:25 · ltaulell

20200720 / Electrical Incident

All PSMN is down. No running servers.

17h55 :

- La situation électrique problématique ne sera pas résolue avant demain, mardi 21/07 dans le courant de la journée.

Nos services étant dépendants du bon fonctionnement du système électrique, ces derniers ne seront pas redémarrés avant un retour à la normal du réseau électrique qui les alimente.

- The problematic electrical situation will not be solved before tomorrow, Tuesday 21/07 in the course of the day. As our services are dependent on the proper functioning of the electrical system, these will not be restarted until a return to normal operation of the power grid that feeds them.

###########################

17h15 :

Bonjour,

Nous rencontrons à nouveau une coupure générale qui affecte nos équipements.

Nous œuvrons à un retour à la normal aussi vite que possible.

Cordialement,

Le staff PSMN.

Hello,

We are again experiencing a general power outage that is affecting our equipment.

We are working towards a return to normal as soon as possible.

Regards,

PSMN Staff

2020/07/20 15:22 · fleroux

20200715 / Post-mortem (2)

Some nodes failed to mount homes. Which brought these nodes to become “black holes”, failling jobs at high rates.

Things are better now.

Use forms to contact Staff. No direct email will be answered.

http://www.ens-lyon.fr/PSMN/doku.php?id=contact:forms:accueil

EDIT 11:30 some servers had a bad time set. Jobs have been automatically ended fot hitting walltime.

2020/07/15 07:27 · ltaulell

20200710 / Post-Mortem

The correct assumption is “Shitstorm hit the fan.” (I stand corrected)

We are not done yet:

  • ssh.psmn is under attack from a botnet, that's why “maximum authentication attempts exceeded”,
  • master LDAP server is down. We are running from slave1 (backup from yesterday),
  • All scratch are almost back (expect for some nodes on E5 and X5),
  • /homes and /Xnfs should be OK everywhere (“should”, as in “remount is ongoing”),

EDIT 13:00: master LDAP server is back online \o/ !

EDIT 13:50: Cluster X5 is fully up & running.

EDIT 14:05: Clusters E5 and Lake up & running.

2020/07/10 10:00 · ltaulell

20200709 / Incident électrique

17h00 : La plupart des équipements sont de nouveaux en fonction. Les derniers récalcitrants ne sauraient tarder.

17h00 : Most of the equipments are up and running. The last of the recalcitrants will be here soon.

########################################################

15h40 : Une température de fonctionnement adéquate étant retrouvée, le redémarrage progressif des équipements de la salle SING est en cours.

15h40 : Once an adequate operating temperature has been restored, the equipment in the SING data center will gradually being restarted.

########################################################

14h50 : Suite à un incident électrique, (impliquant des difficultés de refroidissement) la totalité des équipements du PSMN se sont arrêtés.

L'équipe travail au retour en disponibilités de l'ensemble de nos équipements le plus rapidement possible.

14h50 : Following an electrical incident, (involving cooling difficulties) all the equipment in the PSMN have shutdown.

The team is working to get all our equipment back online as quickly as possible.

########################################################

Très cordialement,

Regards,

Le Staff PSMN.

20200709 / Queues bloquées pour tests

Les queues E5-2670deb128A, B, C, D et E sont bloquées jusqu'au 16/07 à des fins de tests sur 1500 coeurs.

2020/07/09 07:09 · gilquin
news/blog.txt · Dernière modification : 2020/08/25 15:58 de 127.0.0.1