Stockage hiérarchique

Le service HPSS (High Performance Storage System) est un système capable de stocker de très grandes quantités de données avec une relativement bonne performance en écriture et lecture. La particularité de ce service est d’utiliser les bandes magnétiques comme support de stockage.

Note

HPSS n’est pas un système d’archivage, il ne stocke qu’une unique réplique des fichiers.

Bon à savoir

  • HPSS est particulièrement inadapté au stockage de petits fichiers ( < 100 Mo ) ;

  • Les temps d’accès en lecture peut être de quelques minutes à quelques heures ;

  • Privilégiez l’utilisation de HPSS pour le stockage des données à long terme. Pour les données temporaires ou à courte durée de vie (quelques mois), il est préférable d’utiliser SPS.

Accès et gestion des données

La gestion des fichiers sur HPSS se fait avec RFIO. Pour charger l’environnement RFIO, utilisez « shift » :

% module load shift

Voici les commandes les plus courantes pour gérer des fichiers avec RFIO :

rfcp

copie de fichiers à distance

rfchmod

modifier l’autorisation d’accès à un fichier

rfdir

liste des répertoires distants

rfmkdir

créer des répertoires distants

rfrename

renommer un fichier distant

rfrm

supprimer des fichiers et des répertoires distants

rfstat

obtenir des informations sur un fichier ou un répertoire

Ces commandes s’utilisent avec le service RFIO cchpss0 de la manière suivante :

% rfcp /scratch/monfichier cchpss0:/hpss/in2p3.fr/group/mongroup/  # Ecriture d'un fichier
% rfdir cchpss0:/hpss/in2p3.fr/group/mongroup/                     # Liste d'un répertoire
% rfcp chpss0:/hpss/in2p3.fr/group/mongroup/monfichier /scratch/   # Lecture d'un fichier

La plupart des groupes disposent de serveurs RFIO dedié. Dans ce cas la nom du serveur RFIO est cchpss<group>, par exemple cchpssatlas, cchpssantares, …

Note

Vous pouvez retrouver plus d’exemples d’utilisation des commandes RFIO dans les formations dispensées par le CC-IN2P3, et en particulier dans celle dédiée à l’utilisation du stockage.

Trouver un fichiers dans l’arborescence HPSS peut etre lent. En cas d’appels fréquents de fichiers sur HPSS, nous recommandons l’utilisation d’une base de données ou catalogue dédié.

Permissions

Les permissions sur les fichiers dans HPSS fonctionnent de la même manière que les permissions Unix standard. Veuillez noter que rfcp propage les permissions d’origine vers la nouvelle copie.

Accès depuis les jobs

Pour accéder à HPSS depuis un job exécuté sur la plateforme de calcul, veuillez vous référer à la syntaxe décrite dans le paragraphe sur la déclaration des ressources de stockage.

Taille des fichiers

HPSS suppporte des fichiers de 16 TB au maximum. Pour bénéfichier de meilleurs performances en I/O, les utilisateurs sont invités à stocker dans HPSS des fichiers de grande taille (> 1 GB), l’optimum étant de 4 GB.

En cas de besoin de stockage de grande quantités de petits fichiers, veuillez contacter notre support utilisateurs.

Relecture de fichiers

Si les fichiers demandés ne sont pas présents dans le cache disque HPSS, ces derniers doivent être relus depuis les bandes, ce qui peut induire des délais importants (jusqu’à plusieurs heures).

Que ce soit depuis les jobs ou depuis les machines interractives, il est fortement recommandé d’utiliser Xrootd pour relire les données. En effet, le service Xrootd dispose de cache disque conséquents et met en oeuvre des mécanismes d’optimisation pour relire les données depuis HPSS.

% module load xrootd
% xrdcp root://ccxroot.in2p3.fr:1999//hpss/in2p3.fr/<path> / <local-file-name>