Le Centre de Calcul dispose d’un ensemble de systèmes de stockage et de gestions de données répondant à différents besoins. Afin d’optimiser l’utilisation de ces systèmes dans le cadre d’une utilisation importante, il est nécessaire de prendre contact au préalable avec les personnels du Centre de Calcul. Un échange constructif d’informations permettra alors d’adopter la meilleure stratégie et de dimensionner raisonnablement les systèmes nécessaires. L’objectif étant pour le Centre de Calcul d’optimiser les performances d’accès aux données au meilleur coût et de limiter le temps cpu perdu lors d’attente excessive aux données, le tout afin d’accroître vos performances de calcul et de traitement de vos données scientifiques.

Stockage

Les systèmes de fichiers distribués sur disque :

  • AFS au Centre de Calcul.
  • PBS au Centre de Calcul.
  • SPS au Centre de Calcul (GPFS).

Les systèmes de stockage à 2 niveaux (disque & bande) :

  • HPSS au Centre de Calcul.
  • dCache au Centre de Calcul.
  • Utiliser RFIO pour accéder à ses données dans HPSS.

L’utilisation d’applicatifs pour accéder aux données :


Bonnes pratiques

Veuillez trouver ci-dessous un simple schéma illustrant les bonnes pratiques d'utilisation de notre infrastructure:

Où sont les données avant le job ? Type/Format du fichier Accès Types des fichiers/dataset partagés simultanément par les jobs Taille du dataset
dCache Tout / ROOT (data) read AND write read n/a (>10MiB)
non posix (dCap, ROOT, copie locale)
HPSS Tout (data) read OR write read n/a (>100MiB)
non posix (copie locale)
iRODS Tout (data) read OR write read n/a
non posix (copie locale)
SPS Tout + binaires + logs read AND write read AND write ≤ 8GiB : accès direct
posix OR copie locale > 8GiB : copie locale
Xrootd ROOT (Tout) read (non posix) read n/a
write (ALICE) (ROOT, copie locale)

IMPORTANT:

  • “Taille du dataset” correspond aux données accédées simultanément ou dans un seul passage/round d'un job
  • Traitant des datasets plus larges de 8GiB, on suggère de travailler à partir d'une copie locale sur $SCRATCH. Remarquez par contre que sur les workers le $SCRATCH est vidé à la fin du job: n'oubliez pas de copier votre output ailleurs.


Plan de gestion des données (DMP - Data Management Plan)

Le cycle de vie des données de recherche est important pour une bonne utilisation de celles-ci de leur création à leur réutilisation en passant par la publication. Une bonne gestion des données passe par l'élaboration d'un plan de gestion des données (DMP - Data Management Plan). Ce document définit l'utilisation des données du projet par les chercheurs pendant et après le projet. Le DMP est régulièrement revu pendant le projet et peut donc évoluer.

Le Centre de Calcul a défini un modèle de DMP pour les expériences utilisatrices : DMP

Service de sauvegarde

Le CC-IN2P3 fournit un service de sauvegarde qui a pour objectif de mettre en sécurité sur un site distant (le Centre de Calcul), les données informatiques présentes dans les laboratoires. Le service permet de restaurer des données à partir de la copie distante sur le site original lorsque celles-ci y ont été modifiées ou détruites. Ce service repose sur le produit Tivoli Storage Manager (TSM) d'IBM.

Pour en savoir plus, visitez l'espace concernant la sauvegarde

Transfert des données

Il y a plusieurs utilitaires à votre disposition pour copier ou transférer vos données et fichiers du Centre de Calcul vers un autre endroit (ou inversement). Leur usage dépendra essentiellement de vos besoin en terme de performance, volumétrie à transférer, facilité de mise en oeuvre.

Pour savoir plus, visitez l’espace concernant le transfert de données .


En cas de problème, veuillez soumettre un ticket au CC-IN2P3 User Support.

  • stockage-et-transfert.txt
  • Dernière modification: 2018/12/05 09:44
  • par Quentin LE BOULC'H