Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédenteDernière révisionLes deux révisions suivantes | ||
faq:sge [2014/04/15 13:05] – [qsub: Unknown option] ltaulell | faq:sge [2018/01/24 10:45] – [qsub: Unknown option] ltaulell | ||
---|---|---|---|
Ligne 2: | Ligne 2: | ||
{{INLINETOC}} | {{INLINETOC}} | ||
- | ===== qstat: command not found ===== | ||
- | Il manque les variables suivantes dans votre environnement : | + | La [[documentation: |
- | + | ||
- | + | ||
- | <file bash .bashrc> | + | |
- | # Override PATH wide | + | |
- | export PATH="/ | + | |
- | + | ||
- | # SGE exports | + | |
- | export SGE_ROOT="/ | + | |
- | export ARCH=" | + | |
- | export SGE_QMASTER_PORT=" | + | |
- | export SGE_EXECD_PORT=" | + | |
- | export SGE_CELL=" | + | |
- | export SGE_CLUSTER_NAME=" | + | |
- | </ | + | |
- | + | ||
- | pour le shell bash : < | + | |
- | + | ||
- | et pour le shell tcsh : < | + | |
- | + | ||
- | + | ||
- | ===== qsub: Unknown option ===== | + | |
- | + | ||
- | L'un de vos scripts contient des lignes commençant par ''# | + | |
- | + | ||
- | ''# | + | |
- | + | ||
- | * script générant une erreur : | + | |
- | + | ||
- | <code bash> | + | |
- | #$ -cwd | + | |
- | #$ -V | + | |
- | ${EXECDIR}/ | + | |
- | # | + | |
- | + | ||
- | </ | + | |
- | + | ||
- | * script corrigé : | + | |
- | + | ||
- | <code bash> | + | |
- | #$ -cwd | + | |
- | #$ -V | + | |
- | ${EXECDIR}/ | + | |
- | ## | + | |
- | + | ||
- | </ | + | |
- | + | ||
- | ===== Comment choisir les queues/ | + | |
- | + | ||
- | Par les achats successifs de nœuds de calcul avec des architectures de générations différentes, | + | |
- | + | ||
- | Concrètement le choix de la queue de " | + | |
- | + | ||
- | * si le critère principal est la rapidité de l' | + | |
- | * si le critère principal est le grand nombre de ressources (p.ex. un job avec beaucoup de cœurs, un job avec beaucoup de mémoire RAM), alors il faut plutôt s' | + | |
- | + | ||
- | Évidemment, | + | |
- | + | ||
- | Et bien sur, pour la mise au point du code, il faut choisir une queue de test qui soit la plus proche de la queue de " | + | |
- | + | ||
- | ===== SGE : Soumettre un job ===== | + | |
- | + | ||
- | < | + | |
- | qsub programme <input > | + | |
- | </ | + | |
- | + | ||
- | <code bash> | + | |
- | qsub -V -m b -m e -e / | + | |
- | + | ||
- | -V : verbose | + | |
- | -m b : mail @begin | + | |
- | -m e : mail @end | + | |
- | -e : where to put error files | + | |
- | -o : where to put output files | + | |
- | -q : file d' | + | |
- | </ | + | |
- | + | ||
- | **Il est plus simple de soumettre un script à SGE, qui contiendra plus d' | + | |
- | + | ||
- | ===== SGE : Les autres commandes utiles ===== | + | |
- | + | ||
- | ==== Surveiller les jobs ==== | + | |
- | + | ||
- | * Voir tous les jobs d'un utilisateur : | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Voir tous les jobs en exécution par queue : | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Voir tous les jobs de tous les utilisateurs en exécution (running) : | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Voir tous les jobs de tous les utilisateurs en attente (pending ou waiting) : | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Voir toutes les queues : | + | |
- | + | ||
- | < | + | |
- | + | ||
- | (sql : show queues list) | + | |
- | + | ||
- | * Voir l' | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Voir l' | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Voir l' | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Voir l' | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Voir l' | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Supprimer un job : | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Supprimer un job (forcer) : | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Consommation d' | + | |
- | + | ||
- | < | + | |
- | + | ||
- | ou | + | |
- | + | ||
- | < | + | |
- | + | ||
- | * Consommation d' | + | |
- | + | ||
- | < | + | |
- | + | ||
- | ==== Jobs qui ont des problèmes : ==== | + | |
- | + | ||
- | Lancer la commande suivante : | + | |
- | < | + | |
- | + | ||
- | et regarder les deux dernières colonnes : | + | |
- | + | ||
- | * aoACD : Nombre de coeurs qui sont au moins dans un des états suivants : | + | |
- | * a Load threshold alarm | + | |
- | * o Orphaned | + | |
- | * A Suspend threshold alarm | + | |
- | * C Suspended by calendar | + | |
- | * D Disabled by calendar | + | |
- | + | ||
- | * cdsuE : Nombre de coeurs qui sont au moins dans un des états suivants : | + | |
- | * c Configuration ambiguous | + | |
- | * d Disabled | + | |
- | * s Suspended | + | |
- | * u Unknown | + | |
- | * E Error | + | |
- | + | ||
- | ==== Status (etats) de jobs possibles : ==== | + | |
- | + | ||
- | * d(eletion), | + | |
- | * E(rror), | + | |
- | * h(old), | + | |
- | * r(unning), | + | |
- | * R(estarted), | + | |
- | * s(uspended), | + | |
- | * S(uspended), | + | |
- | * t(ransfering), | + | |
- | * T(hreshold), | + | |
- | * w(aiting). | + | |
- | + | ||
- | ===== SGE : Variables d' | + | |
- | + | ||
- | Voir http:// | + | |