La plateforme de calcul

La plateforme de calcul accessible par l’ordonnanceur de jobs est composée de serveurs de calcul Linux. Elle est composée de trois grandes cas d’utilisation (veuillez trouver quelques exemples d’utilisation dans la page Types de jobs) :

La plateforme HTC (High-Throughput Computing)
est adaptée à l’exécution de la majorité des applications traditionnelles HEP mono ou multi-cœur : elle représente la majeure partie de la puissance de calcul mise à disposition au CC-IN2P3.
La plateforme HPC (High-Performance Computing)
de capacité plus réduite, est destinée à accueillir les calculs parallèles. Elle est composée d’un ensemble de serveurs connectés en Infiniband, ce qui permet une communication efficace inter-serveurs via l’utilisation de bibliothèques MPI.
La plateforme GPU
est composée d’un groupe de serveurs équipés de cartes graphiques permettant d’accueillir des applications de calcul vectoriel.

Note

Pour connaître les caractéristiques techniques des serveurs de calcul, veuillez consulter la page Configuration des serveurs de calcul.

L’ordonnanceur représente l’unique point d’entrée commun à tous les utilisateurs pour soumettre des jobs sur la plateforme de calcul. Son rôle est de recevoir les jobs soumis par les utilisateurs, de les ordonnancer et de les soumettre pour exécution sur un serveur de calcul approprié et disponible.

Le but principal est d’utiliser les ressources de calcul (mémoire, espace disque, CPU) de la manière la plus efficace possible. La mutualisation de toutes les ressources pour tous les utilisateurs permet une utilisation optimale de l’ensemble de la plateforme de calcul.

De façon générale, un job est une tâche (ou un ensemble de tâches) que l’utilisateur souhaite exécuter sur les serveurs de la plateforme de calcul. Cette tâche peut être un fichier exécutable, un ensemble de commandes, un script, etc. Un job peut être développé et testé sur les serveurs interactifs avant d’être soumis massivement sur la plateforme de calcul.

Un job est toujours soumis sur une queue d’exécution. Chaque queue d’exécution dispose de valeurs par défaut pour l’espace disque, le temps CPU et la mémoire. Il existe plusieurs queues qui, ayant besoin de beaucoup de ressources, sont à accès restreint. Dans ce cas, il sera nécessaire pour l’utilisateur une autorisation explicite d’acces (voir la FAQ des queues à accès restreint.).

Toutes les queues permettent l’exécution simultanée de nombreux jobs. Le système essaie toujours de lancer de nouveaux job dans une queue la moins chargée et la plus appropriée.

Veuiller trouver ci-dessous la documentation dediée à la soumission et gestion des jobs.