a transférer dans Informations

Les pannes et incidents

20130312

C6100 + matlab

La machine C6100lin40 (dédiée matlab) n'a plus de /scratch (disque HS).

20130225

DL165

Les machines dl165lin20 et dl165lin21 sont définitivement HS.

20130225

r815

Problème sur l'InfiniBand des R815, suite et fin.

Une carte IB a été changée sur r815lin104. L'ensemble des R815 a été redémarré, ainsi que le switch IB. Queues débloquées.

20130221

La machine x41zlin118 est définitivement HS.

20130220

Problèmes sur des SL390 (sl390lin9, sl390lin118, sl390lin37 à 40). Elles ont été redémarrées, les jobs qui tournaient dessus ont été perdus.

20130218

r815

Problème sur l'InfiniBand des R815. Queues bloquées en attente du redémarrage du cluster et du switch InfiniBand.

20130124

r510data2

Un disque système est HS sur le serveur r510data2 (home de cbp, cecam, evs, geol, igfldb et ixxi). Le serveur parait inaccessible et plante tous les jobs qui lui sont liés.

20130114

r510data1

Changement d'un disque sur la baie de backup du serveur R510data1, seuls les utilisateurs de physique sont impactés.

20130107

sl390

Début d'incendie sur des sl390 (sl390lin33 à 40)

Photos : http://perso.ens-lyon.fr/lois.taulelle/HP-sl390/

news/hard_failure.txt · Dernière modification: 2015/01/06 14:25 (modification externe)