Axe Transverse Calcul Scientifique

Introduction à l'exploitation de masses de données au sein d'ICube

De Axe Transverse Calcul Scientifique
Aller à : navigation, rechercher

Première Journée - Introduction à l'exploitation de masses de données au sein d'ICube

Une première journée aura lieu le 18 octobre 2013 dans l'amphithéâtre A301 du Pôle API à Illkirch.

De nombreuses équipes du laboratoire conçoivent et utilisent des méthodes et outils de calcul et de simulation. Ces outils demandent de plus en plus de données expérimentales (issues de capteurs, par exemple) et produisent un volume de plus en plus grand de données de résultats.

Devant ces masses de données, les méthodes classiques de gestion, de préservation et d'exploitation de telles données (bien souvent "manuelles") s'avèrent totalement dépassées.

L'objectif de cette journée est de présenter et discuter d'éléments de solution à cette problématique.

En particulier, nous vous proposons d'aborder le problème de l'exploitation des résultats de calcul et de simulation sous trois aspects :

  • Visualisation de données surfaciques et volumiques issues de procédés de numérisation 3D (J.-M. Dischler): La capacité de calcul et la flexibilité en matière de programmation des processeurs graphique (GPU) a considérablement augmenté cette dernière décennie, mais les capacités de traitements par GPU pour la visualisation restent largement en dessous des très grands volumes de données fournis par les procédés de numérisation actuels : nuages de milliards de points. Nous illustrons nos contributions à travers deux exemples: le traitement et la visualisation de surfaces obtenues par scanners et appareils photo et la visualisation de données issues de procédés tomographiques (voxels). Dans les deux cas nos contributions visent à améliorer la performance en matière de qualité visuelle et de vitesse d'affichage.
  • Fouille de données (N. Lachiche) : il s'agira de présenter des concepts et méthodes permettant d'extraire de l’information des résultats d'expériences. Par exemple, comment trouver une ou plusieurs règles permettant de choisir au mieux un algorithme d'alignement multiple en fonction des caractéristiques des gènes à aligner ? Comment réduire l'espace de recherche des paramètres pour un algorithme de turbulence donné ? Des exemples en bioinformatique seront présentés
  • Métadonnées (C. Zanni-Merk ) : L'exploitation des résultats de calcul nécessite bien évidement de les préserver (et d'être capable de les retrouver à l'aide de critères simples de recherche) mais aussi de préserver le contexte dans lequel chacun d'eux a été produit. Par exemple, la date, les données et paramètres utilisés, l'utilisateur mais aussi éventuellement des critères sur la fiabilité sur l'algorithme, sur la qualité des données, sur l'expertise de l'utilisateur, etc. Il s'agira ici de présenter les grands lignes de la mise en place de métadonnées. Un exemple de mise en place de telles données dans le cadre de la Géographie sera présenté

La journée prendra la forme d'une présentation de quelques minutes de chacun de ces aspects suivie d'une table ronde.

Image Big Data
'