Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
Prochaine révisionLes deux révisions suivantes
news:hard_failure [2013/01/17 11:06] ltaulellnews:hard_failure [2013/03/22 14:52] ltaulell
Ligne 1: Ligne 1:
-~~NEWSFEED:5~~ 
  
-~~NOCACHE~~ 
  
-~~NEWS_REFRESH~~+//[[http://www.ens-lyon.fr/PSMN/newsfeed.php|S'abonner au fil des news (flux RSS)]]//
  
-====== Les pannes et incidents ====== 
  
-===== 20130114 =====+==== Les pannes et incidents ====
  
-**r510data1**+===== 20130312 =====
  
-Changement d'un disque sur la baie de backup du serveur R510data1, seuls les utilisateurs de physique sont impactés.+**C6100** + matlab
  
-===== 20130107 =====+La machine C6100lin40 (dédiée matlab) n'a plus de /scratch (disque HS).
  
-**sl390**+===== 20130225 =====
  
-Début d'incendie sur des sl390 (sl390lin33 à 40)+**DL165**
  
-Photos : http://perso.ens-lyon.fr/lois.taulelle/HP-sl390/+Les machines dl165lin20 et dl165lin21 sont définitivement HS.
  
-===== 20121218 =====+===== 20130225 =====
  
-**dl165 et m600**+**r815**
  
-Retour des dl165 (et des m600). Le serveur PXE/NFSROOT avait un disque en panne.+Problème sur l'InfiniBand des R815, suite et fin.
  
-===== 20121213 =====+Une carte IB a été changée sur r815lin104. L'ensemble des R815 a été redémarré, ainsi que le switch IB. Queues débloquées.
  
-**dl165**+===== 20130221 =====
  
-Panne sur les dl165, origine inconnue.+La machine x41zlin118 est définitivement HS.
  
 +
 +===== 20130220 =====
 +
 +Problèmes sur des SL390 (sl390lin9, sl390lin118, sl390lin37 à 40). Elles ont été redémarrées, les jobs qui tournaient dessus ont été perdus.
 +
 +
 +===== 20130218 =====
 +
 +**r815**
 +
 +Problème sur l'InfiniBand des R815. Queues bloquées en attente du redémarrage du cluster et du switch InfiniBand.
 +
 +
 +===== 20130124 =====
 +
 +**r510data2**
 +
 +Un disque système est HS sur le serveur r510data2 (home de cbp, cecam, evs, geol, igfldb et ixxi). Le serveur parait inaccessible et plante tous les jobs qui lui sont liés.
 +
 +
 +===== 20130114 =====
 +
 +**r510data1**
 +
 +Changement d'un disque sur la baie de backup du serveur R510data1, seuls les utilisateurs de physique sont impactés.
 +
 +===== 20130107 =====
 +
 +**sl390**
 +
 +Début d'incendie sur des sl390 (sl390lin33 à 40)
 +
 +Photos : http://perso.ens-lyon.fr/lois.taulelle/HP-sl390/
  
news/hard_failure.txt · Dernière modification : 2020/08/25 15:58 de 127.0.0.1