Ceci est une ancienne révision du document !


Le système de batch

Le système de batch actuellement utilisé par le PSMN est GridEngine (SGE).

Utilisation optimale des ressources

Pour utiliser au mieux les ressources, il convient de bien remplir les serveurs de calculs. Pour cela, nous disposons de deux moyens :

  • remplir “au mieux” (best effort),
  • remplir par multiple de n coeurs (ou n est le nombre de coeurs physiques par serveurs de calcul).

Remplir “au mieux” mène rapidement à un morcellement, entre les serveurs de calcul, des applications parallélisées via OpenMPI.

Le remplissage “au mieux” n'est donc mis en place pour les applications parallèles OpenMPI que sur certaines queues ; sur les autres le remplissage par multiple d'un serveur de calcul entier est privilégié.

Allocation des ressources

L'allocation automatique se fait selon deux critéres :

  • Le groupe de serveurs de calcul cible (la file d'attente, ou queue),
  • le nombre de coeurs demandé (nombre de slots).

La règle de calcul qui guide l'allocateur de ressource est le PE (parallel environment) qui indique si les coeurs doivent être :

  • dans le même serveur de calcul (ex: openmp),
  • dans des serveurs de calcul complets (ex: mpiX_debian, avec X le nombre de coeurs par serveur),
  • n'importe où (ex: mpi_debian) Ceci est une mauvaise idée et ne devrait être utilisé que pour des petits tests.

Priorités

Une priorité :

  • inversement proportionnelle au temps de calcul déjà consommé,
  • proportionnelle au temps d'attente et au nombre de coeurs demandé,

est appliqué par le système de batch. Ceci afin de répartir plus équitablement les ressources disponibles.

Les serveurs de soumission

Dans la configuration actuelle du système de batch, les serveurs de compilation/frontales sont tous des serveurs de soumission.

Le système de scratch

Les files d'attente

:!: Attention : Dans le cas d'un code compilé par l'utilisateur, l'architecture processeur et la version de système d'exploitation (OS) déterminent le choix du serveur de compilation et donc, des files d'attente utilisables. Toutes nos machines fonctionnent actuellement en OS Debian 9.

Un certain nombre de files d'attentes sont spécifiques (et réservées) à un programme, un groupe d'utilisateurs, un projet, etc. Ces files sont créés et supprimées en fonction des besoins exprimés auprès du Staff PSMN et ne sont pas documentées.

Les files courtes

Ces files d'attente acceptent les jobs séquentiels, parallèles (openMP, multithreads, etc.) et multi-serveurs (OpenMPI) pour des durées courtes.

File d'attente Groupe de serveurs PE (Parallel Environment) Réseau Nb de cpus utilisables Temps maximal Scratch
h48-CLG6226Rdeb192 c6420deb192 mpi32_debian, mpi16_debian Infiniband de 16 à 384 (par 16 ou 32) 48 h Lake
h48-CLG6226Rdeb192 c6420deb192 openmp32, openmp16 sans objet 32 ou 16 par serveur 48 h Lake
h48-E5-2670deb128 c8220deb128 mpi16_debian Infiniband de 16 à 192 (par 16) 48 h E5
h48-E5-2670deb128 c8220deb128 openmp8, openmp16 sans objet 8 ou 16 par serveur 48 h E5
h6-E5-2667v4deb128 c6320deb128v4 mpi16_debian Infiniband de 16 à 96 (par 16) 6 h E5
h6-E5-2667v4deb128 c6320deb128v4 openmp8, openmp16 sans objet 8 ou 16 par serveur 6 h E5

Les files parallèles multi-serveurs (OpenMPI)

Le walltime (temps maximum d'éxecution) est de 168 h, sauf précision.

File d'attente Groupe de serveurs PE (Parallel Environment) Réseau Nb de cpus utilisables Temps maximal scratch
Epyc7702deb512 c6525deb512 mpi128_debian Infiniband de 128 à 2048 (par 128) 168 h Lake
Epyc7702deb512 c6525deb512 mpi64_debian Infiniband de 64 à 2048 (par 64) 168 h Lake
CLG6242deb384A c6420deb384 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG6242deb384B c6420deb384 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG6242deb384B c6420deb384 mpi16_debian Infiniband de 16 à 768 (par 16) 168 h Lake
CLG6242deb384C c6420deb384 mpi32_debian Infiniband de 32 à 320 (par 32) 168 h Lake
CLG6242deb384C c6420deb384 mpi16_debian Infiniband de 16 à 320 (par 16) 168 h Lake
CLG6242deb384C c6420deb384 mpi8_debian Infiniband de 8 à 320 (par 8) 168 h Lake
CLG6226Rdeb1500 r740deb1500 mpi32_debian Infiniband 32 168 h Lake
CLG6226Rdeb192A c6420deb192 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG6226Rdeb192B c6420deb192 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG6226Rdeb192C c6420deb192 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG6226Rdeb192C c6420deb192 mpi16_debian Infiniband de 16 à 768 (par 16) 168 h Lake
CLG6226Rdeb192D c6420deb192 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG6226Rdeb192D c6420deb192 mpi16_debian Infiniband de 16 à 768 (par 16) 168 h Lake
CLG6226Rdeb192D c6420deb192 mpi8_debian Infiniband de 8 à 768 (par 8) 168 h Lake
CLG5218deb192A c6420deb192 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG5218deb192B c6420deb192 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG5218deb192C c6420deb192 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG5218deb192C c6420deb192 mpi16_debian Infiniband de 16 à 768 (par 16) 168 h Lake
CLG5218deb192D c6420deb192 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
CLG5218deb192D c6420deb192 mpi16_debian Infiniband de 16 à 768 (par 16) 168 h Lake
CLG5218deb192D c6420deb192 mpi8_debian Infiniband de 8 à 768 (par 8) 168 h Lake
CLG5218deb192Th (avec autorisation) c6420deb192 mpi32_debian Infiniband de 32 à 704 (par 32) 168 h Lake
CLG5218deb192Th (avec autorisation) c6420deb192 mpi16_debian Infiniband de 16 à 704 (par 16) 168 h Lake
CLG5218deb192Th (avec autorisation) c6420deb192 mpi8_debian Infiniband de 8 à 704 (par 8) 168 h Lake
SLG6142deb384A c6420deb384 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
SLG6142deb384B c6420deb384 mpi32_debian Infiniband de 32 à 768 (par 32) 168 h Lake
SLG6142deb384B c6420deb384 mpi16_debian Infiniband de 16 à 768 (par 16) 168 h Lake
SLG6142deb384C c6420deb384 mpi32_debian Infiniband de 32 à 384 (par 32) 168 h Lake
SLG6142deb384C c6420deb384 mpi16_debian Infiniband de 16 à 384 (par 16) 168 h Lake
SLG6142deb384C c6420deb384 mpi8_debian Infiniband de 8 à 384 (par 8) 168 h Lake
SLG6142deb384D supprimée c6420deb384 mpi32_debian Infiniband de 32 à 256 (par 32) 168 h Lake
SLG6142deb384D supprimée c6420deb384 mpi16_debian Infiniband de 16 à 256 (par 16) 168 h Lake
SLG6142deb384D supprimée c6420deb384 mpi8_debian Infiniband de 8 à 256 (par 8) 168 h Lake
E5-2667v2deb128 c8220deb128v2 mpi16_debian Infiniband de 16 à 384 (par 16) sans limite de temps E5
E5-2667v2deb128 c8220deb128v2 mpi8_debian Infiniband de 16 à 384 (par 8) sans limite de temps E5
E5-2667v2deb128nl c8220deb128v2 mpi16_debian Infiniband de 16 à 256 (par 16) sans limite de temps E5
E5-2667v2deb128nl c8220deb128v2 mpi8_debian Infiniband de 8 à 256 (par 8) sans limite de temps E5
E5-2667v4deb128 c6320deb128v4 mpi16_debian Infiniband de 16 à 128 (par 16) 168 h E5
E5-2667v4deb128 c6320deb128v4 mpi8_debian Infiniband de 16 à 128 (par 8) 168 h E5
E5-2667v4deb256A c6320deb256v4 mpi16_debian Infiniband de 16 à 384 (par 16) 168 h E5
E5-2667v4deb256A c6320deb256v4 mpi8_debian Infiniband de 8 à 384 (par 8) 168 h E5
E5-2697Av4deb256A c6320deb256Av4 mpi32_debian Infiniband de 32 à 384 (par 32) 168 h E5
E5-2670deb128F c8220deb128 mpi16_debian Infiniband de 16 à 384 (par 16) 168 h E5
E5-2670deb128F c8220deb128 mpi8_debian Infiniband de 8 à 384 (par 16) 168 h E5
SSD-E5-2670deb256A (avec autorisation) c8220deb256 mpi16_debian Infiniband de 16 à 128 (par 16) sans limite de temps E5
SSD-E5-2670deb256A (avec autorisation) c8220deb256 mpi8_debian Infiniband de 8 à 128 (par 8) sans limite de temps E5
SSD-E5-2670deb256B (avec autorisation) c8220deb256 mpi16_debian Infiniband de 16 à 128 (par 16) sans limite de temps E5
SSD-E5-2670deb256B (avec autorisation) c8220deb256 mpi8_debian Infiniband de 8 à 128 (par 8) sans limite de temps E5
SSD-E5-2670deb256C c8220deb256 mpi16_debian Infiniband de 16 à 128 (par 16) 192 h E5
SSD-E5-2670deb256C c8220deb256 mpi8_debian Infiniband de 8 à 128 (par 8 192 h E5

Les files parallèles mono-serveur (OpenMP)

File d'attente Groupe de serveurs PE (Parallel Environment) Réseau Nb de cpus utilisables Temps maximal scratch
Epyc7702deb512 c6525deb512 openmp128, openmp64, openmp32 sans objet de 32 à 2048 168 h Lake
Epyc7702deb512 c6525deb512 gaussian128, gaussian64, gaussian32 sans objet de 32 à 2048 168 h Lake
CLG6242deb384A c6420deb384 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG6242deb384B c6420deb384 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG6242deb384B c6420deb384 openmp16, gaussian16 sans objet de 16 à 768 (par 16) 168 h Lake
CLG6242deb384C c6420deb384 openmp32, gaussian32 sans objet de 32 à 320 (par 32) 168 h Lake
CLG6242deb384C c6420deb384 openmp16, gaussian16 sans objet de 16 à 320 (par 32) 168 h Lake
CLG6242deb384C c6420deb384 openmp8, gaussian8 sans objet de 8 à 320 (par 32) 168 h Lake
CLG6226Rdeb1500 r740deb1500 openmp32, gaussian32 sans objet 32 168 h Lake
CLG6226Rdeb192A c6420deb192 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG6226Rdeb192B c6420deb192 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG6226Rdeb192C c6420deb192 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG6226Rdeb192C c6420deb192 openmp16, gaussian16 sans objet de 16 à 768 (par 16) 168 h Lake
CLG6226Rdeb192D c6420deb192 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG6226Rdeb192D c6420deb192 openmp16, gaussian16 sans objet de 16 à 768 (par 16) 168 h Lake
CLG6226Rdeb192D c6420deb192 openmp8, gaussian8 sans objet de 8 à 768 (par 8) 168 h Lake
CLG5218deb192A c6420deb192 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG5218deb192B c6420deb192 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG5218deb192C c6420deb192 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG5218deb192C c6420deb192 openmp16, gaussian16 sans objet de 16 à 768 (par 16) 168 h Lake
CLG5218deb192D c6420deb192 openmp32, gaussian32 sans objet de 32 à 768 (par 32) 168 h Lake
CLG5218deb192D c6420deb192 openmp16, gaussian16 sans objet de 16 à 768 (par 16) 168 h Lake
CLG5218deb192D c6420deb192 openmp8, gaussian8 sans objet de 8 à 768 (par 8) 168 h Lake
CLG5218deb192Th (avec autorisation) c6420deb192 openmp32, gaussian32 sans objet de 32 à 704 (par 32) 168 h Lake
CLG5218deb192Th (avec autorisation) c6420deb192 openmp16, gaussian16 sans objet de 16 à 704 (par 32) 168 h Lake
CLG5218deb192Th (avec autorisation) c6420deb192 openmp8, gaussian8 sans objet de 8 à 704 (par 32) 168 h Lake
SLG6142deb384A c6420deb384 openmp32, gaussian32 sans objet 32 par serveur 168 h Lake
SLG6142deb384B c6420deb384 openmp32, gaussian32 sans objet 32 par serveur 168 h Lake
SLG6142deb384B c6420deb384 openmp16, gaussian16 sans objet 16 par serveur 168 h Lake
SLG6142deb384C c6420deb384 openmp32, gaussian32 sans objet 32 par serveur 168 h Lake
SLG6142deb384C c6420deb384 openmp16, gaussian16 sans objet 16 par serveur 168 h Lake
SLG6142deb384C c6420deb384 openmp8, gaussian8 sans objet 8 par serveur 168 h Lake
E5-2667v2deb128 c8220deb128v2 openmp16, gaussian16 sans objet 16 par serveur sans lmite de temps E5
E5-2667v2deb128nl c8220deb128v2 openmp16, gaussian16 sans objet 16 par serveur sans lmite de temps E5
E5-2667v4deb128 c6320deb128v4 openmp16, gaussian16 sans objet 16 par serveur 168 h E5
E5-2667v4deb256A c6320deb256v4 openmp16, gaussian16 sans objet 16 par serveur 168 h E5
E5-2697Av4deb256 c6320deb256Av4 openmp32, gaussian32 sans objet 32 par serveur 168 h E5
E5-2670deb128F c8220deb128 openmp16, gaussian16 sans objet 16 par serveur 168 h E5
SSD-E5-2670deb256A c8220deb256 openmp16, gaussian16, openmp8, gaussian8 sans objet 1 x 16 ou 2 x 8 sans limite de temps E5
SSD-E5-2670deb256B (avec autorisation) c8220deb256 openmp16, gaussian16, openmp8, gaussian8 sans objet 1 x 16 ou 2 x 8 sans limite de temps E5
SSD-E5-2670deb256C (avec autorisation) c8220deb256 openmp16, gaussian16, openmp8, gaussian8 sans objet 1 x 16 ou 2 x 8 192 h E5

Les files d'attente GPGPU

NVidia drivers 418.43. Cuda is now available as module : cuda/9.0 and cuda/9.2

File d'attente Groupe de serveurs Réseau Nb de gpus utilisables Temps maximal scratch
r730gpuRTX2080ti (avec autorisation) r730gpgpu Infiniband 2 RTX2080ti par serveur (20 serveurs) 168 h Lake
r720gpuGTX980 (avec autorisation) r720gpgpu Infiniband 2 GTX780 par serveur (3 serveurs) 168 h E5
E5-2670gpuK20deb128 c8220deb128 Infiniband 2 K20 par serveur 168 h E5

Les files tests multiprocesseurs

Tests parallèles multi-serveurs

Dédiées aux tests de type MPI (Message Passing Interface) : OpenMPI, MPICH ou équivalents (distribution, communication, lectures et écritures parallèles).

Ces files ne fonctionnent pas en OpenMP. Elles servent exclusivement aux tests MPI

File d'attente Groupe de serveurs PE (Parallel Environment) Réseau Nb de cpus utilisables Temps maximal Scratch
E5_test c8220v2deb128 test_debian Infiniband de 2 à 48, 48 disponibles au total 5mn E5
h6-E5-2667v4deb128 c6320deb128v4 mpi16_debian Infiniband de 16 à 96 6 h E5
h48-E5-2670deb128 c8220deb128 mpi16_debian Infiniband de 16 à 192 48 h E5
h48-CLG6226Rdeb192 c6420deb192 mpi16_debian et mpi32_debian Infiniband de 16 à 384 48 h Lake

Tests parallèles mono-serveur

Il est possible de lancer des tests multiprocesseurs (OpenMP, multithreads ou équivalents) jusqu'à deux maximum.

File d'attente Groupe de serveurs PE (Parallel Environment) Réseau Nb de cpus utilisables Temps maximal Scratch
h6-E5-2667v4deb128 c6320deb128v4 openmp8, openmp16 sans objet 8, 16 6 h E5
h48-E5-2670deb128 c8220deb128 openmp8, openmp16 sans objet 8, 16 48 h E5
h48-CLG6226Rdeb192 c6420deb192 openmp8, openmp16 et openmp32 sans objet 8, 16 et 32 48 h Lake

Les files monoprocesseur

File d'attente Groupe de serveurs Nb de cpus utilisables Temps maximal Scratch
monointeldeb96 (4Go par coeur) c6420deb96 192 au maximum 168 h Lake
monointeldeb128 (16Go par coeur) r730gpgpu 32 au maximum 168 h Lake
monointeldeb192 (12Go par coeur) r740gpgpu 64 au maximum 168 h Lake
Matlab (8Go par coeur) c6525amd7542 32 au maximum 168 h Lake

Les files tests monoprocesseurs

Il n'y a pas de files spécifiques pour les tests monoprocesseurs. Utilisez les frontales (dans les limites du raisonnable).

Les files spécifiques

Un certain nombre de files d'attentes sont spécifiques à un programme, un groupe d'utilisateurs, un projet, etc. Ces files sont créés et supprimées en fonction des besoins exprimés auprès du Staff PSMN et ne sont pas documentées. De même certaines queues peuvent voir leur nombre de coeurs utilisables diminué pour cause de maintenance ou d'usage spécifique.

documentation/clusters/batch.1663232687.txt.gz · Dernière modification : 2022/09/15 09:04 de ccalugar