Analyse factorielle de données mixtes

L’Analyse factorielle de données mixtes (AFDM) est la méthode factorielle dédiée aux tableaux dans lesquels un ensemble d’individus est décrit par un ensemble de variables quantitatives et qualitatives.

Le terme « mixte » renvoie à la présence simultanée, en tant qu’éléments actifs, de variables quantitatives et qualitatives. De façon simplifiée, on peut dire que l’AFDM fonctionne comme une Analyse en composantes principales (ACP) pour les variables quantitatives et comme une Analyse des correspondances multiples (ACM) pour les variables qualitatives.

Domaine d'application

Lorsque l’on dispose des deux types de variables mais que les variables actives sont homogènes, on recourt à l’ACP ou l’ACM.

En effet, il est facile d’introduire des variables quantitatives supplémentaires en ACM[1] ; pour cela on calcule les coefficients de corrélation entre les variables et les facteurs sur les individus (un facteur sur les individus est le vecteur des coordonnées des individus sur un axe factoriel) ; la représentation obtenue est un cercle des corrélations (comme en ACP).

De même, il est facile d’introduire des variables qualitatives supplémentaires en ACP[2]. Pour cela, on représente chaque modalité par le centre de gravité des individus qui la possèdent (comme en ACM).

La présence de variables supplémentaires d’un type différent de celui des variables actives ne pose pas de problème particulier.

Lorsque les variables actives sont mixtes, une pratique excellente consiste à discrétiser les variables quantitatives (exemple classiquement, dans les enquêtes, on transforme l’âge en appartenance à une tranche d’âge). On dispose alors de données homogènes que l’on peut traiter par ACM.

Cette pratique atteint ses limites[3] :

  • lorsqu’il y a peu d’individus (moins d’une centaine pour fixer les idées) auquel cas l’ACM est instable;
  • lorsqu’il y a peu de variables qualitatives par rapport aux variables quantitatives (on peut hésiter à discrétiser vingt variables quantitatives pour pouvoir prendre en compte une seule variable qualitative).

Critère

Les données comportent K {\displaystyle K} variables quantitatives { k = 1 , K } {\displaystyle \{k=1,K\}} et Q {\displaystyle Q} variables qualitatives { q = 1 , Q } {\displaystyle \{q=1,Q\}} .

Soit une variable quantitative z {\displaystyle z} . On note :

  • r ( z , k ) {\displaystyle r(z,k)} le coefficient de corrélation entre les variables k {\displaystyle k} et z {\displaystyle z}  ;
  • η 2 ( z , q ) {\displaystyle \eta ^{2}(z,q)} le carré du rapport de corrélation entre les variables z {\displaystyle z} et q {\displaystyle q} .

Dans l’ACP de K {\displaystyle K} , on cherche la fonction sur I {\displaystyle I} (une fonction sur I {\displaystyle I} attribue une valeur à chaque individu ; c'est le cas des variables initiales et des composantes principales) la plus corrélée à l’ensemble des K {\displaystyle K} variables en sens suivant :


  
    
      
        
          
          
            k
          
        
        
          r
          
            2
          
        
        (
        z
        ,
        k
        )
      
    
    {\displaystyle \sum _{k}r^{2}(z,k)}
  
  maximum.

Dans l’ACM de Q {\displaystyle Q} , on cherche la fonction sur I {\displaystyle I} la plus liée à l’ensemble des Q {\displaystyle Q} variables au sens suivant :


  
    
      
        
          
          
            q
          
        
        
          η
          
            2
          
        
        (
        z
        ,
        q
        )
      
    
    {\displaystyle \sum _{q}\eta ^{2}(z,q)}
  
 maximum.

Dans l’AFDM de { K , Q } {\displaystyle \{K,Q\}} , on cherche la fonction sur I {\displaystyle I} la plus liée à l’ensemble des K + Q {\displaystyle K+Q} variables au sens suivant :


  
    
      
        
          
          
            k
          
        
        
          r
          
            2
          
        
        (
        z
        ,
        k
        )
        +
        
          
          
            q
          
        
        
          η
          
            2
          
        
        (
        z
        ,
        q
        )
      
    
    {\displaystyle \sum _{k}r^{2}(z,k)+\sum _{q}\eta ^{2}(z,q)}
  
 maximum.

Cette fonction fait jouer le même rôle aux deux types de variables. La contribution de chaque variable à ce critère est bornée par 1.

Représentations graphiques[4]

La représentation des individus s’effectue directement à partir des facteurs sur I {\displaystyle I} .

La représentation des variables quantitatives est construite comme en ACP (cercle des corrélations).

La représentation des modalités des variables qualitatives s’effectue comme en ACM : une modalité est au barycentre des individus qui la possèdent. Noter que l’on prend l’exact barycentre et non pas, comme usuellement en ACM, le barycentre à un coefficient près axe par axe (ce coefficient, égal en ACM à l’inverse de la racine carré de la valeur propre, ne serait pas adéquat en AFDM).

La représentation des variables qualitatives est celle du « carré des liaisons » : la coordonnée de la variable j {\displaystyle j} le long de l’axe de rang s {\displaystyle s} est égale au carré du rapport de corrélation entre la variable j {\displaystyle j} et le facteur de rang s {\displaystyle s} . On la complète par une représentation des variables quantitatives via le carré de leur coefficient de corrélations avec les facteurs.

Aides à l'interprétation

Les indicateurs de liaison entre les variables initiales sont rassemblés dans une matrice dite « matrice des liaisons » qui comporte à l’intersection de la ligne l {\displaystyle l} et de la colonne c {\displaystyle c}  :

  • si l {\displaystyle l} et c {\displaystyle c} sont quantitatives, le carré du coefficient de corrélation entre l {\displaystyle l} et c {\displaystyle c}  ;
  • si l {\displaystyle l} est quantitative et c {\displaystyle c} qualitative, le carré du rapport de corrélation entre l {\displaystyle l} et c {\displaystyle c}  ;
  • si l {\displaystyle l} et c {\displaystyle c} sont qualitatives, l’indicateur ϕ 2 {\displaystyle \phi ^{2}} entre l {\displaystyle l} et c {\displaystyle c} .

Exemple test[5]

Un jeu de données de petite taille (Tableau 1) permet d’illustrer le fonctionnement et les sorties de l’AFDM. Six individus sont décrits par trois variables quantitatives et trois variables qualitatives. Les données ont été analysées à l’aide de la fonction FAMD du package R FactoMineR.

Tableau 1. Données (exemple test).
k 1 {\displaystyle k_{1}} k 2 {\displaystyle k_{2}} k 3 {\displaystyle k_{3}} q 1 {\displaystyle q_{1}} q 2 {\displaystyle q_{2}} q 3 {\displaystyle q_{3}}
i 1 {\displaystyle i_{1}} 2 4.5 4 q 1 {\displaystyle q_{1}} -A q 2 {\displaystyle q_{2}} -B q 3 {\displaystyle q_{3}} -C
i 2 {\displaystyle i_{2}} 5 4.5 4 q 1 {\displaystyle q_{1}} -C q 2 {\displaystyle q_{2}} -B q 3 {\displaystyle q_{3}} -C
i 3 {\displaystyle i_{3}} 3 1 2 q 1 {\displaystyle q_{1}} -B q 2 {\displaystyle q_{2}} -B q 3 {\displaystyle q_{3}} -B
i 4 {\displaystyle i_{4}} 4 1 2 q 1 {\displaystyle q_{1}} -B q 2 {\displaystyle q_{2}} -B q 3 {\displaystyle q_{3}} -B
i 5 {\displaystyle i_{5}} 1 1 1 q 1 {\displaystyle q_{1}} -A q 2 {\displaystyle q_{2}} -A q 3 {\displaystyle q_{3}} -A
i 6 {\displaystyle i_{6}} 6 1 2 q 1 {\displaystyle q_{1}} -C q 2 {\displaystyle q_{2}} -A q 3 {\displaystyle q_{3}} -A
Tableau 2. Exemple test. Matrice des liaisons.
k 1 {\displaystyle k_{1}} k 2 {\displaystyle k_{2}} k 3 {\displaystyle k_{3}} q 1 {\displaystyle q_{1}} q 2 {\displaystyle q_{2}} q 3 {\displaystyle q_{3}}
k 1 {\displaystyle k_{1}} 1 0.00 0.05 0.91 0.00 0.00
k 2 {\displaystyle k_{2}} 0.00 1 0.90 0.25 0.25 1.00
k 3 {\displaystyle k_{3}} 0.05 0.90 1 0.13 0.40 0.93
q 1 {\displaystyle q_{1}} 0.91 0.25 0.13 2 0.25 1.00
q 2 {\displaystyle q_{2}} 0.00 0.25 0.40 0.25 1 1.00
q 3 {\displaystyle q_{3}} 0.00 1.00 0.93 1.00 1.00 2

L'indicateur est égal à R 2 {\displaystyle R^{2}} (variables quantitatives), ϕ 2 {\displaystyle \phi ^{2}} (variables qualitatives) ou η 2 {\displaystyle \eta ^{2}} (une variable de chaque type).

La matrice des liaisons indique un enchevêtrement des liaisons entre les variables des deux types. La représentation des individus (figure 1) montre clairement trois groupes d’individus. Le premier axe oppose les individus 1 et 2 à tous les autres. Le deuxième axe oppose les individus 3 et 4 aux individus 5 et 6.

Figure1. AFDM. Exemple test. Représentation des individus.
Figure2. AFDM. Exemple test. Carré des liaisons.
Figure3. AFDM. Exemple test. Cercle des corrélations.
Figure4. AFDM. Exemple test. Représentation des modalités des variables qualitatives.

La représentation des variables (carré des liaisons, figure 2) montre que le premier axe ( F 1 {\displaystyle F1} ) est étroitement lié aux variables k 2 {\displaystyle k_{2}} , k 3 {\displaystyle k_{3}} et q 3 {\displaystyle q_{3}} . Le cercle des corrélations (figure 3) précise le sens de la liaison entre F 1 {\displaystyle F1} , k 2 {\displaystyle k_{2}} et k 3 {\displaystyle k_{3}}  ; la représentation des modalités (figure 4) précise la nature de la liaison entre F 1 {\displaystyle F1} et q 3 {\displaystyle q_{3}} . Finalement les individus 1 et 2, individualisés par le premier axe, sont caractérisés par de fortes valeurs de k 2 {\displaystyle k_{2}} et k 3 {\displaystyle k_{3}} ainsi que par la modalité c {\displaystyle c} de q 3 {\displaystyle q_{3}} . Cet exemple illustre la façon dont l’AFDM analyse simultanément des variables quantitatives. Ainsi, elle met en évidence, dans cet exemple, une première dimension s’appuyant sur les deux types de variables.


Historique

L’AFDM a pour origine des travaux dus à Brigitte Escofier[6] (en 1979) et Gilbert Saporta[7] (en 1990). Ces travaux ont été repris par Jérôme Pagès en 2004[3] puis en 2013[8].

Notes et références

Bibliographie

  • Brigitte Escofier, « Traitement simultané de variables quantitatives et qualitatives en analyse factorielle », Les cahiers de l’analyse des données, vol. 4, no 2,‎ , p. 137–146 (lire en ligne [PDF])
  • Brigitte Escofier et Jérôme Pagès, Analyses factorielles simples et multiples : objectifs, méthodes et interprétation, Paris, Dunod, Paris, , 318 p. (ISBN 978-2-10-051932-3)
  • Jérôme Pagès, « Analyse factorielle de données mixtes », Revue de Statistique appliquée, vol. 52, no 4,‎ , p. 93-111 (lire en ligne [PDF])
  • Jérôme Pagès, Analyse factorielle multiple avec R, Les Ulis, EDP sciences, Paris, , 253 p. (ISBN 978-2-7598-0963-9)
  • Gilbert Saporta, « Simultaneous analysis of qualitative and quantitative data », Atti della XXXV riunione scientifica ; società italiana di statistica,‎ , p. 63-72 (lire en ligne [PDF])

Lien externe

  • FactoMineR, une bibliothèque de fonctions R destinée à l'analyse des données
v · m
Index du projet probabilités et statistiques
Théorie des probabilités
Bases théoriques
Principes généraux
Convergence de lois
Calcul stochastique
Lois de probabilité
Lois continues
Lois discrètes
Mélange entre statistiques et probabilités
Interprétations de la probabilité
Théorie des statistiques
Statistiques descriptives
Bases théoriques
Tableaux
Visualisation de données
Paramètres de position
Paramètres de dispersion
Paramètres de forme
Statistiques inductives
Bases théoriques
Tests paramétriques
Tests non-paramétriques
Application
  • icône décorative Portail des probabilités et de la statistique