L’exploration de données fait référence à un processus par lequel des modèles sont extraits de données. De tels modèles fournissent souvent des informations sur les relations qui peuvent être utilisées pour améliorer la prise de décision. Les outils et techniques d’exploration de données statistiques peuvent être regroupés en fonction de leur utilisation pour la classification supervisée, la classification non supervisée, l’association et la prévision.
Apprentissage machine
Classification non supervisée
Cette procédure est conçue pour grouper des observations ou des variables en classes en se basant sur les similarités entre les observations. Différents algorithmes sont mis à disposition pour former les classes. Certains sont agglomératifs, débutant par autant de classes que d’observations ou de variables puis fusionnant les classes en fonction des similarités. D’autres méthodes débutent avec un ensemble de noyaux et associent les autres observations ou variables à ces noyaux. Les résultats de l’analyse sont affichés de diverses façons, dont un dendrogramme, une table d’appartenance et un descriptif de la classification.
Classification supervisée
Cette procédure met en œuvre une méthode non paramétrique de classement d’observations dans un groupe parmi g en se basant sur p variables quantitatives observées. Plutôt que de faire des hypothèses sur la nature de la distribution des variables dans les groupes, elle calcule une estimation non paramétrique des fonctions de densité de chacun des groupes en un point donné en se basant sur les observations voisines dans le groupe. Cette estimation est élaborée en utilisant une fenêtre de Parzen qui pondère les observations de chaque groupe en fonction de la distance au point donné. Les observations sont affectées aux groupes en fonction de trois critères : la fonction de densité estimée au voisinage du point, les probabilités initiales d’appartenance aux groupes et les coûts des erreurs de classements. La sphère d’influence de la fonction de pondération de Parzen peut être définie par l’utilisateur ou évaluée par la méthode jackknife.
Association
Les mesures d’association sont utilisées pour identifier les variables qui sont liées les unes aux autres. Si les facteurs sont quantitatifs, des coefficients de corrélation peuvent être utilisés pour l’exploration de données statistiques. Si les facteurs ne sont pas quantitatifs, d’autres mesures d’association sont utilisées pour déterminer comment explorer les données. Un graphique matriciel avec des lisseurs de Lowess non linéaires est présenté ci-dessous. Statgraphics inclut des statistiques telles que le coefficient de corrélation de Pearson, les coefficients de corrélation des rangs de Kenkall et de Spearman, les corrélations partielles, le coefficient d’incertitude, le D de Somer, le coefficient de contingence, le V de Cramer, le gamma conditionnel, le R de Pearson et le tau de Kendall.
Prévision
La prévision fait référence aux modèles statistiques qui prévoient la valeur d’une variable en fonction des valeurs d’autres variables. Des modèles de régression de différentes sortes sont souvent utilisés parmi les outils et techniques d’exploration de données. Lorsque le nombre de prédicteurs est important, la sélection d’un bon modèle peut être difficile. Dans Statgraphics, la procédure de sélection du modèle de régression ajuste tous les modèles impliquant toutes les combinaisons linéaires possibles de l’ensemble des prédicteurs et sélectionne les meilleurs modèles à l’aide de critères tels que le Cp de Mallows et la statistique du R-carré ajustée.
Arbres de décision et de régression
Cette procédure implémente une technique d’apprentissage machine pour prévoir des observations à partir des données. Elle crée des modèles de deux formes : arbres de décision qui découpent les observations en groupes basés sur les caractéristiques observées ou arbres de régression qui prévoient la valeur d’une variable à expliquer. Les modèles sont construits en créant un arbre dont chacun des nœuds correspond à une décision binaire. Partant d’une observation donnée, l’utilisateur parcourt les branches de l’arbre jusqu’à atteindre une feuille. Chaque feuille de l’arbre est associée à une classe ou valeur prévue.
Fouille de textes
Cette procédure analyse une ou plusieurs colonnes de textes ou des documents entiers pour déterminer la fréquence d’utilisation de différents mots. Le résultat principal de cette procédure est une identification des mots qui apparaissent le plus fréquemment. Des résumés tabulaires et graphiques sont fournis.
Forêts aléatoires décisionnelles
Cette procédure implémente une méthode d’apprentissage machine pour prévoir des observations à partir de données. Elle crée des modèles de deux formes : modèles décisionnels qui découpent les observations en groupes basés sur les caractéristiques observées, modèles de régression qui prévoient la valeur d’une variable à expliquer. Les modèles sont élaborés en construisant un grand nombre d’arbres de décision et en faisant la moyenne des prévisions obtenues à partir de ces arbres. De nombreux arbres sont construits en utilisant une procédure similaire à celle des Arbres de décision et de régression, avec optimisation aléatoire des nœuds et agrégation de bootstrap (bagging).
Classification par les K-moyennes
Cette procédure implémente un technique d’apprentissage machine permettant de créer des groupes ou classes d’observations caractérisées par des données quantitatives multivariées. Les classes sont créées en regroupant les observations qui sont proches dans l’espace des variables de données.
Séparateurs à vastes marges
Cette procédure implémente une procédure d’apprentissage machine pour prévoir des observations à partir de données. Elle crée des modèles de deux formes : modèles de classement qui découpent des observations en groupes en se basant sur les caractéristiques observes, modèles de régression qui prévoient la valeur d’une variable à expliquer. Dans le cas d’un modèle de classement, l’algorithme découpent les observations en groupes en générant des marges autour des groupes aussi vastes que possible. Dans le cas d’un modèle de régression, l’algorithme minimise les coefficients d’un modèle dans lequel la distance des observations à une région autour du modèle ajusté définie par un montant d’erreur acceptable est aussi petite que possible. Les observations sont classiquement découpées en trois jeux : un jeu d’apprentissage utilisé pour construire le modèle, un jeu de validation, pour lequel le groupe ou la valeur est connu, utilisé pour valider le modèle et un jeu de prévision, pour lequel le groupe ou la valeur n’est pas connu, utilisé pour faire les prévisions désirées. La variable à expliquer peut être qualitative ou quantitative mais les facteurs prédictifs sont toutes quantitatifs.