Analyse exploratoire

L’analyse exploratoire des données fait référence à un ensemble de techniques développées à l’origine par John Tukey pour afficher les données de manière à ce que les caractéristiques intéressantes deviennent apparentes. Contrairement aux méthodes classiques qui commencent généralement par un modèle supposé pour les données, les techniques d’analyses exploratoires utilisent les données pour suggérer les modèles qui pourraient être appropriés.

Boîtes à moustaches

Cette procédure crée un graphique conçu pour illustrer d’importantes caractéristiques d’une colonne de données numériques groupées en fonction des valeurs d’une seconde colonne. Il a été initialement décrit par John Tukey (1977) dans son livre « Exploratory Data Analysis ». La boîte à moustaches résume un échantillon de données au travers de 5 statistiques : minimum, premier quartile, médiane, troisième quartile et maximum. Il peut également indiquer la présence de points extrêmes.

Diagramme tiges et feuilles

Le diagramme tiges et feuilles affiche chaque valeur des données et la découpe en une tige et une feuille. Par exemple, supposons que la température du premier sujet dans l’échantillon soit de 98,4 degrés Fahrenheit. Les deux premiers chiffres « 98 » sont appelés la tige et affichés à gauche tandis que le troisième chiffre « 4 » est appelé la feuille et est affiché à droite. Bien que similaire à un histogramme horizontal, Tukey a pensé que le diagramme tiges et feuilles était préférable à un diagramme en bâtons car les valeurs des données pouvaient être récupérées à partir de l’affichage.

Rootogramme

Un rootogramme affiche des barres ayant des hauteurs qui sont fonction des racines carrées des nombres d’observations. Un rootogramme suspendu affiche ces racines carrées et suspend les barres à la courbe. L’idée d’utiliser les racines carrées a pour but d’égaliser la variance des écarts entre les barres et la courbe, qui sinon augmenterait lorsque les effectifs augmentent. L’idée de suspendre les barres à la courbe est de permettre une comparaison visuelle plus aisée avec la ligne horizontale tracée à 0, car les comparaisons visuelles à une courbe sont plus difficiles.

Lissages non linéaires de séries temporelles

Tukey a inventé un ensemble de lisseurs non linéaires 3RSS, 3RSSH, 5RSS, 5RSSH et 3RSR pour lisser des séries temporelles. Ces lisseurs ignorent les points extrêmes et sont souvent utilisés dans une première étape pour réduire l’influence de potentiels points extrêmes avant d’appliquer une moyenne mobile. Chaque symbole dans le nom indique une opération qui est appliquée aux données.

Lissages d’un nuage de points

Les nuages de points X-Y peuvent être lissés en utilisant plusieurs méthodes : moyennes glissantes, lignes glissantes, régression locale pondérée et régression robuste LOWESS. Ces lisseurs sont utiles pour suggérer le type du modèle de régression approprié pour décrire la relation entre les deux variables.

Lissage par la médiane

Cette procédure a pour but d’identifier les formes dans un tableau de données à deux entrées. Elle le fait en exprimant chaque cellule du tableau comme la somme d’une valeur commune, d’un effet ligne, d’un effet colonne et d’un résidu. Cette procédure est similaire à une analyse de la variance à deux facteurs sauf qu’elle base les estimations des effets sur les médianes plutôt que sur les moyennes.

Diagramme en bulles

Le diagramme en bulles est un nuage de points X-Y dans lequel les valeurs d’une troisième variable et éventuellement d’une quatrième variable sont affichées en modifiant la taille et/ou la couleur des symboles des points. C’est une façon de visualiser des données multivariées en deux dimensions.

Ajustement robuste de courbes

Tukey a proposé une méthode pour ajuster des droites ou des courbes qui est moins influencée par les valeurs extrêmes qui pourraient être présentes. Appelée méthode des 3 médianes, les données sont d’abord divisées en 3 groupes selon la valeur de X. Les médianes sont ensuite calculées au sein de chaque groupe, et la courbe est déterminée à partir des 3 médianes.

Graphique des moyennes des causes

Ce graphique est conçu pour afficher les multiples sources de la variabilité de façon à permettre à l’analyste d’identifier aisément les facteurs les plus importants. Il est couramment utilisé pour afficher les données d’un plan d’expériences avant de mettre en œuvre des analyses statistiques.

Graphique en violon

Cette procédure affiche les données quantitatives d’un unique échantillon en combinant une boîte à moustaches et une estimation non paramétrique de la densité. C’est un graphique très utile pour visualiser la forme de la fonction de densité de la population dont proviennent les données de l’échantillon. Une procédure complémentaire est proposée dans le cas de plusieurs échantillons.

Diagramme en rose des vents

Cette procédure affiche des données dans un graphique circulaire permettant de visualiser la distribution des fréquences de variables telles que la vitesse du vent et sa direction. Elle peut être utilisée pour visualiser la distribution à un instant donné ou pour en afficher les évolutions temporelles de façon dynamique.

Graphique en diamants

Cette procédure crée un graphique un échantillon affichant les observations de l’échantillon ainsi que l’intervalle de confiance de la moyenne de la population. Une procédure complémentaire est proposée dans le cas de plusieurs échantillons.

Carte thermique

Cette procédure affiche la distribution d’une variable quantitative pour toutes les combinaisons de deux facteurs qualitatifs. Si l’un des deux facteurs est un facteur temporel, alors les évolutions de la variable peuvent aisément être visualisées dans la carte. Un gradient de couleurs est utilisé pour représenter les valeurs de la variable quantitative.

Pyramide des âges

Cette procédure est conçue pour comparer les distributions de comptages de populations (ou de données similaires) de deux groupes. Elle peut être utilisée pour afficher les distributions à un unique instant de temps ou elle peut permettre de visualiser les modifications de ces distributions dynamiquement dans le temps. Dans ce cas, diverses options sont proposées pour lisser les données et pour gérer les données manquantes.

Graphique en tournesols

Cette procédure est utilisée pour afficher un nuage de points X-Y lorsque le nombre d’observations est important. Pour éviter la superposition des symboles de points lorsqu’il y a un grand nombre de données, des glyphes ayant la forme de tournesols sont utilisés pour afficher le nombre d’observations dans de petites régions de l’espace X-Y.