Analyse Factorielle Des Correspondances: Méthode statistique d'analyse des données

Pour les articles homonymes, voir AFC.

Analyse factorielle des correspondances
Type
Méthode statistique (d)Voir et modifier les données sur Wikidata
Nom court
AFCVoir et modifier les données sur Wikidata
Inventeur

L'analyse factorielle des correspondances (AFC) est une méthode statistique d'analyse des données qui permet d'analyser et de hiérarchiser les informations contenues dans un tableau rectangulaire de données et qui est aujourd'hui particulièrement utilisée pour étudier le lien entre deux variables qualitatives (ou catégorielles). Elle a été mise au point à partir des années 1960 par Jean-Paul Benzécri et son équipe, d'abord à la faculté des sciences de Rennes, puis à celle de Jussieu à Paris au sein du laboratoire de statistique multidimensionnelle. Elle se rattache à la famille des analyses factorielles qui regroupe différentes méthodes d'analyses de grands tableaux rectangulaires de données, visant toutes à identifier et à hiérarchiser des facteurs corrélés aux données placées en colonnes.

Introduction

Les méthodes d'analyse factorielle des correspondances (AFC) tout comme celles d'analyse en composantes principales (ACP) s'utilisent pour décrire et hiérarchiser les relations statistiques qui peuvent exister entre des individus placés en ligne et des variables placées en colonnes dans un tableau rectangulaire de données. L’une et l’autre de ces deux méthodes considèrent le tableau de données comme un nuage de points dans un espace mathématique ayant autant de dimensions qu’il y a de colonnes dans le tableau de données ; elles cherchent à le projeter sur des axes ou des plans (appelés factoriels) de façon que l’on puisse en visualiser et étudier au mieux la forme et donc rechercher globalement des corrélations. La spécificité de l’AFC est qu’elle considère en même temps un nuage de point représentant les lignes (individus) et un autre représentant les colonnes (variables).  Les logiciels d’AFC fournissent donc en sortie une ou plusieurs figures de plans factoriels sur lesquels sont positionnés à la fois les individus et les variables. Par exemple, la participation croisée boursière : si 6 investisseurs répartissent leurs portefeuilles entre 10 entreprises, on obtient par AFC une carte comprenant 16 points, dont 6 représentent chacun des investisseurs et les 10 autres représentent chacune des 10 entreprises. L'analyse informe sur la distance entre les points, permettant d'interpréter indirectement les pourcentages de participation au capital des entreprises.

La technique de l'AFC est essentiellement utilisée pour de grands tableaux de données toutes comparables entre elles (si possible exprimées toutes dans la même unité, comme une monnaie, une dimension, une fréquence ou toute autre grandeur mesurable). Elle peut en particulier permettre d'étudier des tableaux de contingence (ou tableau croisé de cooccurrence). Ainsi, les méthodes factorielles permettent par exemple l'analyse d'un tableau « agrégé » de mesures, correspondant aux requêtes du type SELECT COUNT(*) FROM .. GROUP BY (tuple_dimensions) en langage SQL ou aux tableaux croisés dynamiques dans un tableur (Microsoft Excel ou Google Spreadsheet par exemple).

Principe

Le principe de ces méthodes est de partir sans a priori sur les données et de les décrire en analysant la hiérarchisation de l'information présente dans les données. Pour ce faire, les analyses factorielles étudient l'inertie du nuage de points ayant pour coordonnées les valeurs présentes sur les lignes du tableau de données.

La « morphologie du nuage » et la répartition des points sur chacun de ces axes d'inertie permettent alors de rendre lisible et hiérarchiser l'information contenue dans le tableau. Mathématiquement, après avoir centré et réduit le tableau de données que l'on a affecté d'un système de masse (par exemple, les sommes marginales de chaque ligne), on calcule la matrice d'inertie associée et on la diagonalise (la répartition de l'information selon les différents axes est représentée par l'histogramme des valeurs propres). On effectue alors un changement de base selon ses vecteurs propres, c'est-à-dire selon les axes principaux d'inertie du nuage de points. On projette alors les points figurant chaque ligne sur les nouveaux axes. L'ensemble de l'information est conservée, mais celle-ci est maintenant hiérarchisée, axe d'inertie par axe d'inertie. L'histogramme des valeurs propres permet de voir le type de répartition de l'information entre les différents axes et l'étendue en dimension de celle-ci.

Le premier axe d'inertie oppose les points, c'est-à-dire les lignes du tableau ayant les plus grandes distances ou « différences ». La première valeur propre d'inertie, (associée à ce premier axe) mesure la quantité d'information présente le long de cet axe, c'est-à-dire dans cette opposition. On analyse ainsi les différents axes, en reconstituant progressivement la totalité des données.

Plusieurs méthodes d'analyse des correspondances existent, qui diffèrent par le type de représentation de l'information, c'est-à-dire de métrique, ou de système de masse qu'elles utilisent.

L'analyse factorielle des correspondances AFC développée par Jean-Paul Benzecri et ses collaborateurs emploie la métrique du chi-deux : chaque ligne est affectée d'une masse qui est sa somme marginale, le tableau étudié est le tableau des profils des lignes, ce qui permet de représenter dans le même espace à la fois les deux nuages de points associés aux lignes et aux colonnes du tableau de données ; elle est par ailleurs très agréablement complétée par des outils de classification ascendante hiérarchique (CAH) qui permettent d'apporter des visions complémentaires, en particulier en construisant des arbres de classification des lignes ou des colonnes.

Pour chaque point représentatif des lignes ou des colonnes du tableau de données, nouvel axe par nouvel axe, on s'intéresse à ses nouvelles coordonnées, au cosinus carré de l'angle avec l'axe (ce qui est équivalent à un coefficient de corrélation), ainsi qu'à sa contribution à l'inertie expliquée par l'axe (c'est-à-dire à sa contribution à la création de l'axe).

Deux contraintes particulières sur les données sont à signaler : d'une part, les tableaux ne peuvent comporter de cases vides et d'autre part, seules des valeurs positives sont permises. De plus, compte tenu de la métrique du chi-deux employée par l'AFC, cette méthode accorde une importance plus grande aux lignes de somme marginale élevée. Si nous utilisons des tableaux quantitatifs et souhaitons équilibrer la contribution de chaque ligne au calcul de l'inertie, nous devons transformer le tableau pour assurer à chaque ligne une somme marginale égale. Pour ce faire, on peut dédoubler chaque ligne, en lui adjoignant un tableau de complément. À chaque valeur Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication , on fait correspondre une valeur dédoublée Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication , avec Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication .

Par l'AFC, il est tout autant possible d'analyser des tableaux contenant des mesures quantitatives que des indications qualitatives, (par exemple une donnée « couleur »), ces deux types ne pouvant être mélangés. Un cas particulier de la deuxième catégorie de tableau est constituée par les tableaux « disjonctifs » ; plusieurs variables constituent les colonnes : elles sont toutes découpées en plusieurs modalités, dont une et une seule est vraie par individu. Lors d'une analyse factorielle, on peut rajouter des données « supplémentaires », c'est-à-dire que l'on ne fait pas intervenir dans le calcul de l'inertie, mais que l'on projette sur les axes.

Exemple d'application

Par exemple, on a demandé à un ensemble d'électeurs leur département et leur vote à l’élection présidentielle. Il est commode de regrouper ces données dans un tableau de contingence. Supposons qu'il y a Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication  candidats et Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication  départements :

    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication 
    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication  représente le nombre de personnes ayant voté pour le candidat i dans le département j.

Fréquemment, on utilise la fréquence remplaçant le nombre de personnes.

    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication  ,
    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication 

On note

    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication ,

puis

    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication ,

la j-ème coordonnée du i-ème profil-ligne (resp. la i-ème coordonnée du j-ème profil-colonne).

Un tel tableau est constitué dans la perspective de l'étude de la liaison entre deux variables catégorielles : Quels sont les candidats « préférés » dans un département ?

La distance χ2

Étudier la liaison entre deux variables qualitatives revient à étudier l'écart entre les données observées et une situation théorique d'indépendance. Cette situation théorique correspond au tableau :Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication 

    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication 

Si le tableau des données vérifie la relation d'indépendance Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication , alors tous les profils-lignes d'une part et tous les profils-colonnes d'autre part sont égaux au profil moyen correspondant.

L'écart à l'indépendance est pris en compte en considérant le tableau X de terme général :

    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication ,

On peut tester l'hypothèse d'indépendance par le test Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication  (prononcé « ki carré » ou « ki deux »)

    Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication ,

Cette statistique vaut 0 ou proche 0 si les données observées vérifient le modèle d'indépendance. Mais cette statistique ne répond pas aux questions suivantes :

  • Par case : quelles sont, entre une modalité ligne i et une modalité colonne j, les associations les plus remarquables ?
  • Par ligne : quelles sont les départements qui ont un profil de vote particulier?
  • Par colonne : quels sont les candidats qui ont un électorat particulier ?

Pour répondre à ces questions, on rappelle que l'analyse en composantes principales (ACP) peut réduire la dimension des problèmes et sélectionner les effets principaux. Mais une métrique spéciale est adaptée-la métrique du Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication . Dans ce sens, l'AFC peut être considérée comme une analyse en composantes principales particulière dotée de la métrique du Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication  qui ne dépend que du profil des colonnes du tableau.

Considérons le tableau X, chaque ligne peut être considérée comme un point dans l'espace de dimension J, noté Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication , dont chaque dimension est associée à une colonne du tableau X. On affecte à la ligne i un poids proportionnel à son effectif soit Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication . Le centre de gravité est confondu avec l'origine des axes :

Analyse Factorielle Des Correspondances: Introduction, Principe, Exemple dapplication 

Extension

La technique de l'AFC peut être utilisée pour des tableaux d'un autre type que tableau de contingence. En revanche, son utilisation pour ces tableaux oblige toujours à des adaptations spécifiques au type de tableau. On peut utiliser l'AFC sur des tableaux :

  • logiques
  • logiques dédoublés
  • de notes d'intensité
  • de rang
  • de mesure
  • qualitatifs

Lorsque l'on utilise l'AFC sur des tableaux disjonctifs complets ou de Burt, on utilise en réalité la méthode de l'analyse des correspondantes multiples (ACM).

Bibliographie

  • Jean-Paul Benzécri, Histoire et préhistoire de l’analyse des données., Paris, Dunod, Paris, , 159 p. (ISBN 2-04-015467-1)
  • L'analyse des données / leçons sur l'analyse factorielle et la reconnaissance des formes et travaux, Dunod 1982, (ISBN 2-04-015515-5)
  • Linguistique et lexicologie, Dunod, réédition 2007, (ISBN 2-04-010776-2)
  • Pratique de l'analyse des données, Dunod, 1980, (ISBN 2-04-015732-8)
  • Le Roux B. et Rouanet H., Geometric Data Analysis, Kluwer Academic Publishers, Dordrecht ()

Implémentations

  • La bibliothèque de data-mining en Python orange contient le module d'AFC orngCA.
  • L'outil statistique R contient les paquets : ade4, ca, vegan, MASS, ExPosition, etFactoMineR qui font de l'analyse factorielle des correspondances et de l'analyse des correspondances multiples.
  • Un outil MATLAB pour l'analyse factorielle des correspondances : [1].
  • La bibliothèque Javascript CorrespondenceAnalysis, disponible sur github sous licence MIT, implémente l'analyse factorielle des correspondances à la fois pour l'inclure côté client dans des sites web ou côté serveur avec Node.js.

Références

Voir aussi

Liens externes


Tags:

Analyse Factorielle Des Correspondances IntroductionAnalyse Factorielle Des Correspondances PrincipeAnalyse Factorielle Des Correspondances Exemple dapplicationAnalyse Factorielle Des Correspondances La distance χ2Analyse Factorielle Des Correspondances ExtensionAnalyse Factorielle Des Correspondances BibliographieAnalyse Factorielle Des Correspondances ImplémentationsAnalyse Factorielle Des Correspondances RéférencesAnalyse Factorielle Des Correspondances Voir aussiAnalyse Factorielle Des Correspondances Liens externesAnalyse Factorielle Des CorrespondancesAFC

🔥 Trending searches on Wiki Français:

Agence France-PresseChristopher NolanO.P.J.PortugalMesut ÖzilFlorence ForestiDonald TrumpHuéMoussa (personnage coranique)Liste d'abréviations en médecineSlimane (chanteur)Darie BoutboulPhilippe EtchebestCathédrale Notre-Dame de ParisSalle de concertChristophe DominiciLa Cène (Léonard de Vinci)Mel GibsonAlain DelonTemple d'Isis (Philæ)RussieÉric ZemmourFélix MoatiZlatan IbrahimovićBouddhismeJean-Pierre ObinThe Gentlemen (série télévisée)Danse avec les starsJustin HenryGuerre d'AlgérieÉquipe de Tunisie de footballChoi Dae-shikMika (chanteur)Pays-BasAntisémitismeLigue des champions féminine de l'UEFAGérard MansetUn jour (film)Sharleen SpiteriLeBron JamesNicolas CageGriselda BlancoMargaret du Royaume-UniAmedeo ModiglianiFabrice (animateur)Lauryn HillBernard TapieAfrique du SudMaladie à coronavirus 2019SecteBertrand de JouvenelNapoléon (film, 2023)IslamWrestleMania XLBeetlejuiceSydney SweeneyAlexandra LamySégolène RoyalLouis-Napoléon BonaparteLe Procès GoldmanChute de ConstantinopleEmily BluntArthur RimbaudLes Évadés (film, 1994)PakistanAntiquité grecqueVol Fuerza Aérea Uruguaya 571UkraineKoalaSénégalOlivier LejeuneGeorges PompidouCharles XIV Jean de SuèdeFrance 24Bassirou Diomaye Faye🡆 More