Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
faq:sge [2014/04/15 13:05] – [qsub: Unknown option] ltaulell | faq:sge [2018/01/24 10:53] (Version actuelle) – supprimée ltaulell | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | ====== FAQ : Sun Grid Engine ====== | ||
- | {{INLINETOC}} | ||
- | ===== qstat: command not found ===== | ||
- | |||
- | Il manque les variables suivantes dans votre environnement : | ||
- | |||
- | |||
- | <file bash .bashrc> | ||
- | # Override PATH wide | ||
- | export PATH="/ | ||
- | |||
- | # SGE exports | ||
- | export SGE_ROOT="/ | ||
- | export ARCH=" | ||
- | export SGE_QMASTER_PORT=" | ||
- | export SGE_EXECD_PORT=" | ||
- | export SGE_CELL=" | ||
- | export SGE_CLUSTER_NAME=" | ||
- | </ | ||
- | |||
- | pour le shell bash : < | ||
- | |||
- | et pour le shell tcsh : < | ||
- | |||
- | |||
- | ===== qsub: Unknown option ===== | ||
- | |||
- | L'un de vos scripts contient des lignes commençant par ''# | ||
- | |||
- | ''# | ||
- | |||
- | * script générant une erreur : | ||
- | |||
- | <code bash> | ||
- | #$ -cwd | ||
- | #$ -V | ||
- | ${EXECDIR}/ | ||
- | # | ||
- | |||
- | </ | ||
- | |||
- | * script corrigé : | ||
- | |||
- | <code bash> | ||
- | #$ -cwd | ||
- | #$ -V | ||
- | ${EXECDIR}/ | ||
- | ## | ||
- | |||
- | </ | ||
- | |||
- | ===== Comment choisir les queues/ | ||
- | |||
- | Par les achats successifs de nœuds de calcul avec des architectures de générations différentes, | ||
- | |||
- | Concrètement le choix de la queue de " | ||
- | |||
- | * si le critère principal est la rapidité de l' | ||
- | * si le critère principal est le grand nombre de ressources (p.ex. un job avec beaucoup de cœurs, un job avec beaucoup de mémoire RAM), alors il faut plutôt s' | ||
- | |||
- | Évidemment, | ||
- | |||
- | Et bien sur, pour la mise au point du code, il faut choisir une queue de test qui soit la plus proche de la queue de " | ||
- | |||
- | ===== SGE : Soumettre un job ===== | ||
- | |||
- | < | ||
- | qsub programme <input >output | ||
- | </ | ||
- | |||
- | <code bash> | ||
- | qsub -V -m b -m e -e / | ||
- | |||
- | -V : verbose | ||
- | -m b : mail @begin | ||
- | -m e : mail @end | ||
- | -e : where to put error files | ||
- | -o : where to put output files | ||
- | -q : file d' | ||
- | </ | ||
- | |||
- | **Il est plus simple de soumettre un script à SGE, qui contiendra plus d' | ||
- | |||
- | ===== SGE : Les autres commandes utiles ===== | ||
- | |||
- | ==== Surveiller les jobs ==== | ||
- | |||
- | * Voir tous les jobs d'un utilisateur : | ||
- | |||
- | < | ||
- | |||
- | * Voir tous les jobs en exécution par queue : | ||
- | |||
- | < | ||
- | |||
- | * Voir tous les jobs de tous les utilisateurs en exécution (running) : | ||
- | |||
- | < | ||
- | |||
- | * Voir tous les jobs de tous les utilisateurs en attente (pending ou waiting) : | ||
- | |||
- | < | ||
- | |||
- | * Voir toutes les queues : | ||
- | |||
- | < | ||
- | |||
- | (sql : show queues list) | ||
- | |||
- | * Voir l' | ||
- | |||
- | < | ||
- | |||
- | * Voir l' | ||
- | |||
- | < | ||
- | |||
- | * Voir l' | ||
- | |||
- | < | ||
- | |||
- | * Voir l' | ||
- | |||
- | < | ||
- | |||
- | * Voir l' | ||
- | |||
- | < | ||
- | |||
- | * Supprimer un job : | ||
- | |||
- | < | ||
- | |||
- | * Supprimer un job (forcer) : | ||
- | |||
- | < | ||
- | |||
- | * Consommation d' | ||
- | |||
- | < | ||
- | |||
- | ou | ||
- | |||
- | < | ||
- | |||
- | * Consommation d' | ||
- | |||
- | < | ||
- | |||
- | ==== Jobs qui ont des problèmes : ==== | ||
- | |||
- | Lancer la commande suivante : | ||
- | < | ||
- | |||
- | et regarder les deux dernières colonnes : | ||
- | |||
- | * aoACD : Nombre de coeurs qui sont au moins dans un des états suivants : | ||
- | * a Load threshold alarm | ||
- | * o Orphaned | ||
- | * A Suspend threshold alarm | ||
- | * C Suspended by calendar | ||
- | * D Disabled by calendar | ||
- | |||
- | * cdsuE : Nombre de coeurs qui sont au moins dans un des états suivants : | ||
- | * c Configuration ambiguous | ||
- | * d Disabled | ||
- | * s Suspended | ||
- | * u Unknown | ||
- | * E Error | ||
- | |||
- | ==== Status (etats) de jobs possibles : ==== | ||
- | |||
- | * d(eletion), | ||
- | * E(rror), | ||
- | * h(old), | ||
- | * r(unning), | ||
- | * R(estarted), | ||
- | * s(uspended), | ||
- | * S(uspended), | ||
- | * t(ransfering), | ||
- | * T(hreshold), | ||
- | * w(aiting). | ||
- | |||
- | ===== SGE : Variables d' | ||
- | |||
- | Voir http:// | ||
- | |||
- | |||
- | ===== Références : ===== | ||
- | |||
- | * http:// | ||
- | * http:// | ||
- | * http:// | ||
- | * http:// | ||
- | * https:// |