Différences

Ci-dessous, les différences entre deux révisions de la page.

--- en:documentation:tools:sge [2018/09/04 09:51] – [Surveiller les jobs] cpetit
+++ en:documentation:tools:sge [2020/05/11 16:34] – [GridEngine : Submitting jobs] fleroux
@@ Ligne 1: / Ligne 1: @@
 ====== GridEngine ======
-<WRAP center round todo 60%>
-Under contruction...
-</WRAP>
 The job scheduler (or batch-queuing system) used in PSMN cluster is SGE,-previously Sun Grid Engine and now Son of Grid Engine-; it manages the execution of non-interactive jobs.
@@ Ligne 37: / Ligne 34: @@
 ===== GridEngine : Submitting jobs =====
-The normal way to submit jobs to the cluster is using the ''qsub'' command. For example:
+<code>
+qsub programme <input >output
-<code bash>
-qsub myscript.sh
 </code>
-The many options to the ''qsub'' command are described in the manpage, ''man qsub''.
-For example a more complex submission:
 <code bash>
-qsub -V -m b -m e -e /path/to/workdir/ -o /path/to/workdir/ -q $QUEUE script
+qsub -V -e /path/to/workdir/ -o /path/to/workdir/ -q $QUEUE script
 -V : export environment variables
--m b : mail @begin
--m e : mail @end
 -e : where to put error files
 -o : where to put output files
@@ Ligne 57: / Ligne 47: @@
 </code>
-** Nevertheless, it is easier to directly submit to GridEngine a script containing the desired options**. You can follow the documentation on [[documentation:tutorials:submit|how to submit a job (full documentation)]]. Moreover take a look at [[documentation:clusters:batch&#les_files_d_attente|the list of available queues for submission]].
+**It is simpler to submit a script to GridEngine, which will contain more options**.
-==== Comment choisir les files d'attente, de test ou de productions, adaptées ? ====
+<note important>Some options don't work directly in CLI, you have to use a script (example: send mails beginning and end).</note>
-De par les achats successifs de nœuds de calcul avec des architectures de génération différente, il n'était pas possible de définir une seule file d'attente. Il est préférable d'avoir des files d'attentes différentes pour chaque architecture, afin d'atteindre des performances intéressantes pour chaque file d'attente.
+Voir [[documentation:tutorials:submit:accueil|complete documentation to submit a job]], as well as [[documentation:clusters:batch&#les_files_d_attente|the queue list]].
-Concrètement le choix de la file d'attente de "production" devrait se faire en fonction de l'objectif voulu :
+==== How to choose the adapted queues for my needs? ====
-  * si le critère principal est la rapidité de l'exécution, il faut regarder quelles sont les files d'attentes disponibles pour recevoir le job. L'utilisation des commandes du type ''qstat -g c'' devraient être la base de ce choix.
+Due to successive purchases of compute nodes with cores/CPU architectures of different generation, it was not possible to define a single queue. It is better to have different queues for each architecture, in order to achieve interesting performance for each queue.
-  * si le critère principal est le grand nombre de ressources (p.ex. un job avec beaucoup de cœurs, un job avec beaucoup de mémoire RAM), alors il faut plutôt s'orienter vers les files d'attentes qui possèdent un grand nombre de ressources (au moins les ressources demandées par le job), même si le temps d'attente dans la file d'attente est plus important.
-Évidemment, la commande ci-dessus et [[documentation:clusters:batch&#les_files_d_attente|la liste des files d'attente]] devraient guider votre choix.
-Et bien sur, pour la mise au point du code, il faut choisir une file d'attente de test qui soit la plus proche de la file d'attente de "production" envisagée (i.e. même type de nœuds de calcul). P.ex. ''r815lin128ib'' a été choisie pour la file d'attente de production, il faut choisir ''r815_ib_test'' pour les tests.
+In concrete terms, the choice of the "production" queue should be made according to the desired objective:
-===== GridEngine : Les autres commandes utiles =====
+  * if the main criterion is the speed of execution, you must look at what are the queues available to accept the job. The use of commands of the type ''qstat -g c'' should help you to chose the intended queue
+  * if the main criterion is the large number of resources (//eg// a job with a lot of cores, a job with a lot of RAM,etc), then you have to move towards the queues that have a large number of resources (at least the resources requested by the job), even if waiting time in the queue is greater.
+Obviously, the above command (''qstat -g c'') and [[documentation:clusters:batch&#les_files_d_attente|the list of queues]] should guide your choice.
+And, of course, when tuning ypur code, you have to choose a test queue that is closest to the intended "production" queue (//i.e.// same type of compute nodes). //Eg// ''r815lin128ib'' was chosen for the production queue, you thus have to run your tests on ''r815_ib_test''.
+===== GridEngine : other useful commands =====
 ==== Checking job status ====
@@ Ligne 82: / Ligne 77: @@
 <code>qstat -g c </code>
+  * display nodes status in a given queue:
+<code>qstat -q <queue_name> -f </code>
     * display the running jobs of all users:
@@ Ligne 119: / Ligne 118: @@
 ==== Accounting ====
-<note important>Le fichier d'accounting est diffusé sur ''/gridware/psmn/accounting''</note>
+<note important>The accounting file is distributed on ''/gridware/psmn/accounting''</note>
-  * Détails des jobs sur les 30 derniers jours :
+  * Job details for the last 30 days:
 <code>qacct -f /gridware/psmn/accounting -d 30 -o <login> -j </code>
-  * Consommation d'heures CPU (utime sur les 30 derniers jours) :
+  * CPU hours consumption (utime on the last 30 days):
 <code>qacct -f /gridware/psmn/accounting -d 30 -o <login> | tail -1 | awk '{print $3/3600}'</code>
@@ Ligne 134: / Ligne 133: @@
 <code>qacct -f /gridware/psmn/accounting -q "*" -o <login> -d 30 | awk '{ SUM += $5} END {print SUM/3600}'</code>
-  * Consommation d'heures CPU (utime de date à date, dans cet exemple, l'année 2012) :
+  * CPU hours consumption(utime from date to date, in this example, year 2012):
 <code>qacct -f /gridware/psmn/accounting -b 201201010000 -e 201212312359 -o <login> | tail -1 | awk '{print $3/3600}'</code>
-==== Jobs qui ont des problèmes : ====
+==== Troubleshootings: ====
-Lancer la commande suivante :
+Run the command:
 <code>qstat -g c </code>
-et regarder les deux dernières colonnes :
+on the output, look at the last two columns:
-  * aoACD : Nombre de coeurs qui sont au moins dans un des états suivants :
+  * **aoACD** : Number of slots/cores that are at least in one of the following states:
-    * a Load threshold alarm
+    * **a** Load threshold alarm
-    * o Orphaned
+    * **o** Orphaned
-    * A Suspend threshold alarm
+    * **A**** Suspend threshold alarm
-    * C Suspended by calendar
+    * **C Suspended by calendar
-    * D Disabled by calendar
+    * **D** Disabled by calendar
-  * cdsuE : Nombre de coeurs qui sont au moins dans un des états suivants :
+  * **cdsuE** : Number of slots/cores that are at least in one of the following states:
-    * c Configuration ambiguous
+    * **c** Configuration ambiguous
-    * d Disabled
+    * **d** Disabled
-    * s Suspended
+    * **s** Suspended
-    * u Unknown
+    * **u** Unknown
-    * E Error
+    * **E** Error
-==== Status (etats) de jobs possibles : ====
+==== Possible job status: ====
-  * d(eletion),
+  * **d**(eletion),
-  * E(rror),
+  * **E**(rror),
-  * h(old),
+  * **h**(old),
-  * r(unning),
+  * **r**(unning),
-  * R(estarted),
+  * **R**(estarted),
-  * s(uspended),
+  * **s**(uspended),
-  * S(uspended),
+  * **S**(uspended),
-  * t(ransfering),
+  * **t**(ransfering),
-  * T(hreshold),
+  * **T**(hreshold),
-  * w(aiting).
+  * **w**(aiting).
-===== GridEngine : Variables d'environnement =====
+===== GridEngine: Environment variables =====
-<note important>''#$'' est réservé à GridEngine pour effectuer des transmissions de paramètres (ex: ''#$ -cwd'' ou ''#$ -V'').</note>
+<note important>''#$'' is dedicated to GridEngine to transmit parameters (ex: ''#$ -cwd'' or ''#$ -V'').</note>
-  * SGE_O_WORKDIR : répertoire d'où à été soumis le job, utilisable dans les scripts
+  * SGE_O_WORKDIR : directory where the job was submited, re-usable in scripts
-  * NSLOTS : nombre de coeurs demandé
+  * NSLOTS : number of slots/cores requested
-  * JOB_ID : ID du job (unique) assigné par GridEngine
+  * JOB_ID : job id (unique) assigned by GridEngine
-  * JOB_NAME : nom du job (-N)
+  * JOB_NAME : name of the job (-N)
-  * PE_HOSTFILE : fichier de hosts
+  * PE_HOSTFILE : hosts files (for MPI jobs)
-===== Références : =====
+===== References : =====
   * http://wiki.gridengine.info/wiki/index.php/Utilities
@@ Ligne 196: / Ligne 195: @@
   * http://wiki.ibest.uidaho.edu/index.php/Tutorial:_Creating_dependent_jobs :!:
   * https://sites.google.com/site/anshulkundaje/inotes/programming/clustersubmit/sun-grid-engine :!:
-  * http://gridscheduler.sourceforge.net/htmlman/htmlman1/qsub.html?pathrev=V62u5_TAG (ENVIRONMENTAL VARIABLES)
+  * http://gridscheduler.sourceforge.net/htmlman/htmlman1/qsub.html?pathrev=V62u5_TAG (ENVIRONMENT VARIABLES)

Rechercher

Translations

Piste :

Vous êtes ici : accueil » en » documentation » tools » sge

Navigation

accueil
ateliers
contact
documentation
en
- accueil
- contact
- faq
- mesocentre
- science
faq
mesocentre
news
newsfeed
science
tag
wiki
menu
navigation