Introduction aux Statistiques


Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.



  6.2. But et intérêt des analyses factorielles

La présentation synthétique d’un grand ensemble de données résultant de l’étude de plusieurs caractères quantitatifs ou qualitatifs sur une population n’est pas facile.

Les procédés classiques de la statistique descriptive à une dimension permettent de résumer l’information recueillie sur chaque caractère (variable) pris isolément. En revanche, ils ne fournissent aucune méthode visant à décrire l’information globale dont on dispose quand on considère les caractères étudiés dans leur ensemble. Les interrelations entre les caractères et leurs effets sur la structuration de la population risquent alors d’échapper à l’utilisateur.

L’Analyse en Composantes Principales (ACP) et l’Analyse Factorielle des Correspondances (AFC) ont pour but de révéler ces interrelations entre caractères et de proposer une structure de la population.

Un des intérêts majeurs de ces analyses est de fournir une méthode de représentation d’une population décrite par un ensemble de caractères dont les modalités sont quantitatives (mesures continues), pour une ACP, ou qualitatives (pour une AFC).

Toute analyse factorielle réalise :

• un recodage des données ;

• une simplification des données par ajustement matriciel. En bref, il s’agit d’obtenir, dans un tableau plus petit, un résumé de ce qui est contenu dans le tableau initial. Ou encore, on cherche à remplacer un grand nombre de variables par un plus petit nombre de variables explicatives que l’on appelle des facteurs.

• Une première étape consiste à construire, à partir du tableau de données, un nuage de points (dans un espace de dimension n généralement bien supérieure à 3!). Ce nuage est défini par les distances mutuelles entre les points et la masse affectée à chaque point.

Dans le cas de l’AFC, distance et masses se déduisent du tableau initial. Dans le cas plus général de l’ACP, l’utilisateur doit faire des choix (cf. cours sur ACP).

• La deuxième étape consiste à déterminer des sous-espaces sur lesquels on pourra projeter le nuage de points sans trop le déformer.

Afin de dégager les principales tendances, on procède à des ajustements linéaires successifs du nuage initial.

Le premier ajustement consiste à déterminer l’axe qui restitue au mieux la forme géométrique et massique du nuage (ou, si l’on veut, de sorte que les distances entre les projections des profils du nuage sur cet axe soient le plus proche possible des distances initiales (cf. régression). C’est le premier axe d’inertie ou premier axe factoriel du nuage.

 

On détermine ensuite le plan qui restitue au mieux la proximité entre points. Ce plan contient nécessairement le 1er axe factoriel. L’axe orthogonal à celui-ci dans ce plan est le 2ème axe factoriel. Et ainsi de suite pour les dimensions 3, 4, ...

Remarque :

Le traitement mathématique comporte la diagonalisation de matrices, pour la recherche des axes privilégiés. Celle-ci se fait par le calcul des vecteurs propres et des valeurs-propres de la matrice.

Les valeurs propres sont des coefficients numériques intervenant dans l’interprétation, aussi les verra-t-on apparaître dans les résultats (cf. § 4.3.).

Métaphore du pain de 4 livres

 

 

La meilleure approximation linéaire de dimension 2 d’un pain de 4 livres, restituant sa forme et sa distribution massique, serait donnée par la projection massique sur le plan défini par les axes d’allongement, puis d’aplatissement du pain. (:122)

A l’aide des représentations graphiques, appuyées par les tableaux, on essaiera :

• repérer des groupes d’individus, homogènes vis-à-vis de l’ensemble des caractères ;

• révéler des différences entre individus ou groupe d’individus, relativement à l’ensemble des caractères;

• mettre en évidence des individus au comportement atypique (toujours vis-à-vis de l’ensemble des caractères), ce comportement étant dû à la présence de données aberrantes ou à d’autres causes qu’il conviendra de déterminer ;

• condenser l’information qui permet de décrire la position d’un individu dans l’ensemble de la population.

Ne pas oublier que les représentations obtenues ne sont qu’une simple description des données, par conséquent, elles ne peuvent en aucun cas servir de preuve pour une quelconque théorie.