Ressources et services

Survol

L’ensemble du mésocentre ESPRI IPSL met à disposition de ses utilisateurs des ressources physiques et logicielles. C’est un réseau de partage de données et d’applications.

Un réseau pour facilité l’administratif et la communication, garantir la pérennité des données et la collaboration des chercheurs.

Ressources

  • Plateforme physique

Le MESOCENTRE regroupe l’ensemble des potentiels informatiques et personnel mis en oeuvre par les différentes plateformes d’îles de France.

CICLAD

  • Ressources matérielles

ESPRI met à disposition de ses utilisateurs les ressources suivantes :

  • Stockage :

+14 po Répartis sur plusieurs clusters reposant sur une architecture distribuée, Lustre évolutive (Systèmes de fichiers réseau/partagé).

  • Calcul :

La puissance de calcul totale est de +5 péta-flops.

  • Des machines virtuelles :

En 2016 environ 200 machines virtuelles.

  • Réseau :
    • Des interconnexions internes
    • Une interconnexion des deux sites
    • Des connexions externes
  • ESPRI constitue une e-infrastructure distribuée qui s’appuie sur deux datacentres :
    • datacentre IPSLUPMC localisé sur le site de l’Université Pierre et Marie Curie (Paris)
    • datacentre IPSLX localisé sur le site de l’Ecole Polytechnique (Palaiseau)

ciclad-schema

  • Données et caractéristiques en vrac
Moyens informatiques et puissance crête théorique actualisée (processeurs, réseau d’interconnexion, stockage)
  • Deux clusters de calcul et stockages reliés par un lien L2VPN dédié en Gigabit Ethernet
  • Système : Scientific Linux 6.6
  • Serveurs d’accueil :
    • 1 serveur d’accueil DELL R415 16 cores AMD Opteron
      • Architecture : bi-pro AMD Opteron 4274 HE octo-core 2,5 GHz
      • Mémoire : 64 Go
    • 2 serveurs d’accueil DELL R430 16 cores Intel Xeon
      • Architecture : bi-pro Intel Xeon E5-2630 8-Core à 2.4 GHz
      • Mémoire : 64 Go
    • 1 serveurs d’accueil DELL R815 32 cores AMD Opteron
      • Architecture : quad-pro AMD Opteron 6134 8-core 2,3 GHz
      • Mémoire : 128 Go
  • Cluster de calcul de 2096 cores :
    • 1 noeud quad-pro AMD Opteron 6136 8-core 2,4 GHz 128 Go de RAM
    • 1 noeud quad-pro AMD Opteron 6174 12-core 2,2 GHz 128 Go de RAM
    • 6 noeuds quad-pro AMD Opteron 6378 16-core 2,4 GHz 256 Go de RAM
    • 8 noeuds quad-pro AMD Opteron 6378 16-core 2,4 GHz 256 Go de RAM
    • 5 noeuds quad-pro AMD Opteron 6134 8-core 2,3 GHz 128Go de RAM
    • 15 noeuds quad pro AMD Opteron 6378 16-core 2,4 GHz 256Go de RAM
  • Système de fichiers parallèle : Lustre File System / 3 Po
    • 2 serveurs de Management (MGS) : Dell R630
    • 3 serveurs de métadonnées (MDS) : Dell R630
    • 11 serveurs de données (OSS) : Dell R630
    • Baies de stockage : Dell,NetAPP,NEC,Xyratex, DOT-HIll
  • Réseau :
    • 4 switchs Mellanox IS5030 36 ports QDR 40 Gbits
    • Switchs Gigabit et 10G ethernet
  • Virtualisation :
    • Plateforme VMWare Vsphere, 6 hosts
    • Plateforme Xen/Citrix XenServ : 4 hosts

Puissance crête théorique
2096 cores

Données non contractuelles reposant sur des rapports 2015/2016,
en réalité la taille des données suit la demande en croissance permanente, de plus la taille physique des matériels tend à diminuer tandis que les performances des machines augmentent, ceci rend difficile l’évaluation des limites en capacité du MESOCENTRE hormis les limites imposées aux utilisateurs.

  • Technologies

 

Technologie Lustre :

les espaces de stockage, répartis sur deux clusters, reposent sur une architecture distribuée Lustre. Cette technologie de stockage, largement utilisée dans les centres de calcul régionaux et nationaux, a été choisie pour

  • ses performances : plusieurs gigaoctets par seconde en écriture
  • la mise à l’échelle : l’ajout de volumétrie n’impacte pas les performances de l’existant (elle l’améliore souvent !)
  • son indépendance vis à vis des fabricants d’équipements : cela optimise la pérennité des investissements passés et futurs

Technologie de virtualisation :

  • l’infrastructure de virtualisation des systèmes s’appuie sur Vmware Vsphere et Xen
  • c’est un support aux applications de mise à disposition des données. Cette configuration est essentielle pour :
    • disposer d’une grande réactivité vis à vis des projets : mise à disposition rapide via un guichet unique
    • proposer aux équipes de développement des environnements de test/pré-production

Technologie Réseau :

  • des interconnexions locales par un réseau très rapide et à faible latence (InfiniBand QDR à 40Gb/s)
  • une interconnexion des deux sites par RENATER/RAP/SAFIR sur une fibre optique dédiée à 1 Gbps
  • accès croisé des données en lecture qui évite les recopies de données et optimise au mieux les ressources de stockage.

Spécificités

Par rapport aux mésocentres existants, celui-ci possède quelques originalités :

  • large espace de stockage de données associé directement à une puissance de calcul raisonnable et adaptée
  • accès des machines virtuelles utilisées pour la distribution de données au réseau à très haut débit Infiniband. Ce choix technologique autorise des temps d’accès aux données particulièrement rapide et supprime la latence entre la couche applicative qui présente les données et le système de stockage
  • Ressources logicielles

L’ensemble du mésocentre ESPRI IPSL met à disposition de ses utilisateurs des logiciels équivalents.
Des logiciels : compilateurs, outils de visualisation, outils de gestion de bases de données, …

Vous trouverez ci-dessous quelques indications sur les numéros de version des logiciels installés et sur les options de compilations ou d’utilisation de certaines librairies (voir également la page consacrées à la commande Module ).

  1. Les Compilateurs
    • gcc , gfortran , g++ : compilateur gnu 4.4.7 ( Free )
    • /opt/intel : compilateur INTEL fortran ifort + C et C++ 12.1.3.293 (commercial )
    • /opt/pgi-2013 : compilateur PORTLAND Fortran pgf95 + C et C++ 13.7 (commercial)
    • /opt/nagf95 : compilateur NAG Fortran nagfor 5.3 ( commercial )
  2. Les Librairies
  3. Les Logiciels de visualisation et calcul
    • librairies OpenMPI 1.6.5 : disponible pour chaque compilateur.
    • /opt/hdf518/<Compilateur>/bin/h5fc –showconfig Exemple : /opt/hdf518/pgf95/bin/h5fc –showconfig
    • librairies HDF5 1.8.10 : disponible dans /opt/hdf518/ pour chaque compilateur.
    • Pour compiler, utiliser la commande h5fc . Pour obtenir les options de compilation :
    • /opt/netcdf42/<Compilateur>/bin/nf-config –all Exemple : /opt/netcdf42/pgf95/bin/nf-config –all
    • librairies NetCDF 4.2 : disponible dans /opt/netcdf4/ pour chaque compilateur. Pour obtenir les options de compilation :
    • Python par défaut : 2.7.6
    • Pour avoir la liste des modules et leur versions : pip freeze
    • Il s’agit du python (Canopy) venant de https://www.enthought.com/ Pour désactiver cet environnement, il suffit de créer un fichier .nocanopy dans $HOME et se reconnecter.
    • Scilab 5.4.1 logiciel open source gratuit de calcul numérique (logiciel libre INRIA)
    • Matlab 2013b
  • Métrologie
C'est quoi ?

La métrologie regroupe l’ensemble des techniques permettant d’effectuer des mesures, de les interpréter et de garantir leur exactitude. Pour les industriels, assurer la traçabilité et la fiabilité de leurs mesures est essentiel pour maîtriser leurs procédés de fabrication et veiller à la qualité de leurs produits.

Dans le domaine de la recherche sur le climat la métrologie intervient car il faut des règles pour mesurer les différents paramètres, et établir des standards. Les vitesses d’air, les débits de fluides, les températures, les pressions, les conditions ambiantes, les puissances produites, les niveaux de pression acoustique,…, sont à quantifier mais tous les intervenants n’utilisent pas les mêmes moyens de mesure et ne respectent pas les mêmes règles par méconnaissance des référentiels existants.

Calcul

  • Qu’est qu’un cœur de calcul

Ou encore moteur de calcul. Le calcul hautes performances (HPC) et la simulation numérique à hautes performances sont essentiels pour la science, mais également dans tous les domaines de l’industrie. Il s’agit d’associer une multitudes de processeur qui fonctionnent en collaboration au travers d’une couche logicielle pour en faire ce que l’on nomme aussi des supers calculateurs.

L’unité de calcul est le flop (floating-point operation / second).
Concernant le MESOCENTRE nous parlons en péta-flops soit 1015 opération pas seconde (un million de milliards)

  • Comment on l’utilise

On se connecte à la plateforme,  par protocole SSH depuis une machine Linux dédiée au calcul scientifique.

Il faut faire une demande, voir l’onglet SUPPORT.

  • L’offre de calcul

Données

  • Acquisition

L’IPSL reçoit traite et archive en permanence des flux de données satellite. Il s’agit données de groupes extérieurs mais également de données satellites directes.

  • Sauvegarde et archivage

Le mésocentre IPSL propose plusieurs services (technologies) de sauvegarde et d’archivage. En fonction de la localisation des données, de leurs origines (espaces utilisateurs, systèmes, données scientifiques) et de la rétention souhaitée, plusieurs technologies sont utilisées.

Remarques :

  1. la volumétrie des différents espaces de stockage ne permet pas une sauvegarde ou archive de la totalité des données hébergées. Les données prises en charge sont détaillées ci-après.
  2. (périmètre) : le mésocentre IPSL n’a pas vocation à pérenniser sur de longues période les données qui nécessite moyens et compétences qui sortent de son périmètre. Elle propose un service type « best effort » destiné à pouvoir revenir à une situation normale dans un délai raisonnable en cas de problème sur le stockage primaire (disques)
  • Sauvegardes systèmes

Le mésocentre assure la sauvegarde des systèmes de ses serveurs quotidiennement sur média inertes (bandes LTO) et sur disques.

Il propose les logiciels de sauvegarde :

  1. Veeam : pour sauvegarder les machines virtuelles
  2. Time Navigator : pour sauvegarder les machines physiques
  3. Bacula : pour sauvegarder …up to Karim …

  • Sauvegarde des données utilisateurs

Les données stockées sur les répertoires utilisateurs (40 To) sont sauvegardées quotidiennement. En fonction des data centres, la sauvegarde est réalisée par synchronisation sur un espace disque secondaire (récupération rapide avec une rétention de 24h)
…. côté polytechnique ?

  • Archivage

De plus, l’archivage de certaines données satellites, ballons et sols sont effectué sur bandes LTO4 et bientôt LTO6. Le volume archivé est de l’ordre de ….To avec une évolution de …. Go par an.

  • Transfère
  • Partage
  • Distribution des données et analyse

EARTH SYSTEM GRID FEDERATION (ESGF)

Le système PRODIGUER s’appuie sur le projet international ESGF (http://esgf.llnl.gov): une grille de données fédérée par une pile logicielle open source développée de façon collaborative.

ESGF-France (http://forge.ipsl.jussieu.fr/prodiguer/wiki/ESGF-FR) constitue la fédération des nœuds français interagissant avec la fédération internationale. Les partenaires ESGF-France incluent des groupes de modélisation comme l’IPSL et le CNRM mais aussi des centres de calcul comme l’IDRIS, le TGCC et le CINES qui hébergent chacun un nœud de données.

  • IPSL/UPMC: esgf-node.ipsl.fr (PMIP3, CORDEX, TAMIP, EUCLIPSE, GEOMIP, LUCID); vesg.ipsl.fr (CMIP5)
  • IPSL/X: vesg.ipsl.polytechnique.fr (obs4MIPs)
  • IDRIS: prodn.idris.fr (CMIP5, CORDEX)
  • TGCC: esgf.extra.fr (CMIP5, CORDEX)
  • CINES: esgf.cines.fr (CMIP5)

Le nœud d’index de l’IPSL (http://esgf-node.ipsl.fr) permet la mise à disposition et la recherche des données produites par les partenaires ESGF-France à la communauté internationale. Les données publiées sont ensuite accessibles depuis les nœuds de données via différent protocoles et outils listés ci dessous.

Composantes de la pile ESGF:

  • Serveur Thredds (permet la génération des agrégations et l’utilisation des services HTTP, OpenDAP, WCS, WMS, NetCDFSubset, UDDC, NCML, UDDC, ISO)
  • Serveur GridFTP (permet le téléchargement via un client GridFTP)
  • Serveur LAS (Live Access Server, permet la génération de cartes)

SYNDA

SYNDA (http://dods.ipsl.jussieu.fr/jripsl/synchro_data/user_guide.html) is a software developed by IPSL designed to mirror a relatively large subset of ESGF data on a local cluster (or a local machine) and to keep datasets versions up-to-date. SYNDA is up and running at IPSL and let users search, list and mirror the data they need from the ESGF federation to the ciclad cluster. The mirrored subsets can then be accessed on ciclad or through the IPSL ESGF local node (http://esgf-local.ipsl.upmc.fr) which enables OpenDAP access and aggregations.

  • Simulations climatiques

PRODIGUER

Le système de distribution de données PRODIGUER (http://forge.ipsl.jussieu.fr/prodiguer) a pour objectif de garantir la diffusion des résultats des projections climatiques réalisées par les équipes françaises au sein des projets internationaux et plus largement auprès des différents utilisateurs du domaine de la recherche sur le changement climatique. Cette activité comprend la mise à disposition des simulations de référence, et le traitement des données et méta-données en suivant les standards internationaux. Le service de distribution sert de support aux différents projets d’analyse des simulations par la communauté scientifique, à la réalisation des simulations régionales à partir des résultats des projections de grande échelle, et à la diffusion des résultats pour les nombreuses études d’impact. PRODIGUER s’insère ainsi dans les réseaux de mise à disposition des données des simulations aux niveaux international et européen et prépare l’émergence de services de mise à disposition des données pour les futurs « services climatiques ». Les simulations concernées, les formats et protocoles utilisés suivent les recommandations mises en place pour la diffusion des simulations CMIP5 dont les résultats ont alimenté le 5ème rapport du GIEC et CMIP6 qui alimenteront le 6ème rapport.

  • Modèles
  • Exploitation
  • Accès croisé
  • Limites
  • Les limites globales

Les limites en capacité du MESOCENTRE sont loin d’être atteintes. Les capacités du MESOCENTRE suivent la demande.
Les performances machine augmente, moins de production de chaleur, consommation à la baisse cependant qu’il faut moins d’espace pour les accueillir.
L’installation de la plateforme suit elle aussi l’évolution technologique avec une éthique écologique axées sur l’économie d’énergie.

  • Les limites utilisateur

L’utilisateur du MESOCENTRE se voit allouer des ressources adaptées selon son besoin.

Applications

  • Logiciels / Calcul (logiciel de) / Algorithmes

Types de codes (expertise), domaines d’application
Types de code :

  • Modélisation climatique globale et régionale, analyses statistiques
  • Transfert radiatif
  • Traitement du signal, traitement de données
  • Méthodes Monte-Carlo
  • Inversion non linéaire

Domaines d’application :
Sciences du climat et de l’environnement : météorologie, climatologie, océanographie, pollution, chimie atmosphérique, biogéochimie, atmosphères planétaires, dynamique des fluides géophysiques, télédétection physique, changements climatiques, impacts du changement climatique.

Nombre moyen d’utilisateurs actifs
120 par jour en moyenne, 600 inscrits

VM (Machines virtuelles)

C'est quoi ?

En informatique, une machine virtuelle (anglais virtual machine, abr. VM) est une illusion d’un appareil informatique créée par un logiciel d’émulation. Le logiciel d’émulation simule la présence de ressources matérielles et logicielles telles que la mémoire, le processeur, le disque dur, voire le système d’exploitation et les pilotes, permettant d’exécuter des programmes dans les mêmes conditions que celles de la machine simulée.

  • Pour quoi faire, pour qui

Le groupe de recherche désireux de disposer rapidement des performances exceptionnelles du MESOCENTRE sans recourir à une installation ni aux contraintes de la maintenance matérielle.

  • Des exemples

Machine Virtuelle IDL

La Machine Virtuelle IDL (IDL VM™, Interface description language) est un moteur d’exécution IDL gratuit.
Il fournitune une méthode simple pour distribuer ou exécuter du code compilé IDL sans coût de licences ou de droits.
Les développeurs d’applications logicielles utilisent IDL de par le monde et dans de nombreuses disciplines, pour créer et distribuer des solutions dynamiques en terme d’analyse et visualisation de données.

Hébergement

  • Sites

Les  sites WEB sont le média par excellence pour la publication la diffusion et le partage des informations écrites. L’IPSL offre un suport d’hébergement rapidement et gratuitement.

Chaque groupement a à cœur de présenter les résultats de ses travaux. L’PSL héberge actuellement une centaine de sites ou blogs.

  • Projets

Le MESOCENTRE fournit un accueil complet aux projets de recherche sur le climat. La structure d’hébergement, la prise en charge des aspects pécuniers, achat de matériel, recrutement de personnel ou de stagiaires, la gestion de tous les moyens nécessaire à la réalisation du projet. Il fournit le potentiel informatique, calcul, stockage.

Licences

  • Le mésocentre mutualise autours d’un serveur unique la distribution de jetons permettant l’utilisation des logiciels métiers :
    • MATLAB
    • IDL
    • compilateur PGI (fortran et C)
    • compilateur INTEL (fortran et C)
    • compilateur NAG (fortran)
  • Ce service est disponible pour :
    • utilisateurs du mésocentre ESPRI de l’IPSL
    • utilisateurs des laboratoires de la fédération IPSL
  • Accès au service :
    • La configuration logicielle pour accéder au serveur de licences est assurée par les administrateurs système du mésocentre
  • Contact :
    • admin-lic@ipsl.jussieu.fr

Versioning

  • Maintenance des applications et mises à jour

Le service informatique assure la maintenance fonctionnelle des sites, applications et services, la mise à niveau des envirronnements d’exécution et garanti globalement la sécurité.

  • Contrôle de version des applications et développements

Afin de centraliser et sécuriser le code produit par les différents projets, le mésocentre ESPRI de l’IPSL met à disposition un serveur de versionnement Subversion associé à un wiki pour la documentation associée.

Il héberge aujourd’hui plus de 200 projets pour une population de 600 utilisateurs.

Ce service est disponible pour :

  • utilisateurs du mésocentre ESPRI de l’IPSL
  • utilisateurs des laboratoires de la fédération IPSL

Accès au service :

  • la demande d’ouverture de projet se fait par courriel à forge (at) ipsl.jussieu.fr. Des informations complémentaires sont disponibles : https://forge.ipsl.jussieu.fr/forge/wiki/Demande
  • les administrateurs de projets peuvent ajouter des utilisateurs de façon autonome

Contact :

  • forge (at) ipsl.jussieu.fr

International

  • ESGF (Earth System Grid Federation) consortium ouvert, sponsors : DOE, NASA, NOAA, NSF, IS-ENES (Europe) et NCI (Australie).
  • l’ESGF et le MESOCENTRE, perspectives et réalités !
  • ESGF France : voir ici

Sources de données