Catégories: Actualité
|
13 avril 2020 1 h 30 min

Méthodes de visualisation de données à fortes dimensions dans un espace réduit à 2D

Partager

Pour comprendre des données, il est nécessaire d’être capable de trouver de l’information pertinente ou utile dans les données manipulées.
Cette compréhension est d’abord basée sur une modélisation du phénomène.
Au préalable, il est intéressant d’extraire des corrélations et des dépendances de ces données avant d’avoir une idée du nombre de paramètres nécessaires pour caractériser le système étudié, de la nature déterministe ou bien aléatoire du phénomène observé ou encore des caractéristiques stationnaires de ce même phénomène.

Les données sont généralement explicitées sous la forme de tableaux de mesures où N représente le nombre d’observations et n le nombre de mesures pour chaque observation.
Une autre vision, plus spatiale ou géométrique permet de considérer ce tableau comme un nuage de N points en dimension n.
On cherche en général à connaître la structure des données c’est-à-dire de définir le sous-espace engendré par les observations.

On dispose de plusieurs techniques à cet effet : la plus classique est basée sur l’analyse en composantes principales, une autre sur l’analyse en composantes indépendantes, ces deux techniques relèvent de processus linéaires, et d’autres qui s’adresse à des structures non linéaires et que l’on nomme analyse en composantes curvilignes, les méthodes de multidimentional scaling, carte de Sammon, Relational perspective map, curvilinear distance analysis, ou encore des méthodes à base d’apprentissage non supervisé comme les cartes de Kohonen.
Les méthodes classiques pour estimer la dimension intrinsèque d’un nuage de points multidimensionnel sont essentiellement des méthodes de représentation de ce nuage de points avec moins de dimensions ou moins de degrés de liberté.
Le but est de garder la même quantité d’information présente dans les données, mais dans un volume plus restreint.
Parmi les méthodes, on pourra citer des méthodes de dépliage qui ont pour but d’obtenir une représentation plane permettant une visualisation plus aisée sans perte d’information.
Il existe différentes méthodes de dépliage : les méthodes géométriques et d’analyse complexe, les méthodes de réduction de dimensionnalité comme l’ACP , les méthodes neuronales, ou les méthodes algébriques (LLE, Isomap et HLLE).
Ce champ particulier des statistiques est vaste et complexe.