Suivi des jobs

Statut de soumission d’un job

La commande squeue permet l’affichage de différentes informations concernant un job. Elle donne, entre autres, le temps d’exécution, l’état courant (colonne ST, avec état possible R pour running et PD pour pending), le nom du job, et la partition dans laquelle le job est exécuté :

% squeue
JOBID PARTITION     NAME     USER      ST       TIME      NODES NODELIST(REASON)
465   multiseq      hello    user      R        0:01      1     ccwtbslurm01

Les principales options de squeue sont :

-t [running|pending]
sélectionne l’état running ou pending pour les jobs à afficher
[[-v] -l] -j
affiche un job donné, avec -l pour un format dit long, et -v pour une sortie plus détaillée, verbeuse.

Pour plus d’informations sur cette commande, et les codes de sorties, veuillez vous référer à la documentation officielle :

Efficacité d’un job

La commande seff affiche les ressources utilisées par un job donné, et calcule son efficacité :

% seff <job number>
Job ID: <job number>
Cluster: ccslurmlocal
User/Group: <user>/<group>
State: CANCELLED (exit code 0)
Cores: 1
CPU Utilized: 00:12:50
CPU Efficiency: 98.59% of 00:13:01 core-walltime
Job Wall-clock time: 00:13:01
Memory Utilized: 120.00 KB
Memory Efficiency: 0.00% of 0.00 MB

Suspension et altération d’un job

La commande scontrol permet la gestion des jobs. Avec les options hold, update et release, elle permet respectivement de suspendre un job (le sortir de la queue), de le modifier, puis de le remettre en queue :

% scontrol [hold|update|release] <liste des identifiants des jobs>

Pour plus de détails sur cette commande, veuillez vous référer à l’aide de la commande scontrol -h.

Annulation d’un job

La commande scancel permet de retirer (annuler) un ou plusieurs jobs :

% scancel <job number>

Ou tous les jobs d’un utilisateur donné :

% scancel -u <user id>

Pour plus de détails sur cette commande, veuillez vous référer à l’aide de la commande scancel -h.

Statut de fin de job

La commande sacct vérifie et affiche le statut, la partition et le compte account d’un job :

% sacct
       JobID    JobName  Partition    Account  AllocCPUS      State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
1377          stress.sh   multiseq    ccin2p3          8 CANCELLED+      0:0
1381          stress.sh   multiseq    ccin2p3          8  COMPLETED      0:0
1381.batch        batch               ccin2p3          8  COMPLETED      0:0

Il est possible de modifier le formattage via l’option --format :

% sacct --format="Account,JobID,NodeList,CPUTime,MaxRSS"
   Account        JobID        NodeList    CPUTime     MaxRSS
---------- ------------ --------------- ---------- ----------
   ccin2p3 1523            ccwslurm0001   00:10:14
   ccin2p3 1523.batch      ccwslurm0001   00:10:14
   ccin2p3 1524            ccwslurm0001   00:10:14

La liste complète des options de formattage de l’option --format est disponible par :

% sacct -e

Pour plus de détails sur cette commande, veuillez vous référer à l’aide de la commande sacct -h.