|
La présentation synthétique dun grand ensemble de données résultant de létude de plusieurs caractères quantitatifs ou qualitatifs sur une population nest pas facile.
Les procédés classiques de la statistique descriptive à une dimension permettent de résumer linformation recueillie sur chaque caractère (variable) pris isolément. En revanche, ils ne fournissent aucune méthode visant à décrire linformation globale dont on dispose quand on considère les caractères étudiés dans leur ensemble. Les interrelations entre les caractères et leurs effets sur la structuration de la population risquent alors déchapper à lutilisateur.
LAnalyse en Composantes Principales (ACP) et lAnalyse Factorielle des Correspondances (AFC) ont pour but de révéler ces interrelations entre caractères et de proposer une structure de la population.
Un des intérêts majeurs de ces analyses est de fournir une méthode de représentation dune population décrite par un ensemble de caractères dont les modalités sont quantitatives (mesures continues), pour une ACP, ou qualitatives (pour une AFC).
Toute analyse factorielle réalise :
un recodage des données ;
une simplification des données par ajustement matriciel. En bref, il sagit dobtenir, dans un tableau plus petit, un résumé de ce qui est contenu dans le tableau initial. Ou encore, on cherche à remplacer un grand nombre de variables par un plus petit nombre de variables explicatives que lon appelle des facteurs.
Une première étape consiste à construire, à partir du tableau de données, un nuage de points (dans un espace de dimension n généralement bien supérieure à 3!). Ce nuage est défini par les distances mutuelles entre les points et la masse affectée à chaque point.
Dans le cas de lAFC, distance et masses se déduisent du tableau initial. Dans le cas plus général de lACP, lutilisateur doit faire des choix (cf. cours sur ACP).
La deuxième étape consiste à déterminer des sous-espaces sur lesquels on pourra projeter le nuage de points sans trop le déformer.
Afin de dégager les principales tendances, on procède à des ajustements linéaires successifs du nuage initial.
Le premier ajustement consiste à déterminer laxe qui restitue au mieux la forme géométrique et massique du nuage (ou, si lon veut, de sorte que les distances entre les projections des profils du nuage sur cet axe soient le plus proche possible des distances initiales (cf. régression). Cest le premier axe dinertie ou premier axe factoriel du nuage.
On détermine ensuite le plan qui restitue au mieux la proximité entre points. Ce plan contient nécessairement le 1er axe factoriel. Laxe orthogonal à celui-ci dans ce plan est le 2ème axe factoriel. Et ainsi de suite pour les dimensions 3, 4, ...
Remarque :
Le traitement mathématique comporte la diagonalisation de matrices, pour la recherche des axes privilégiés. Celle-ci se fait par le calcul des vecteurs propres et des valeurs-propres de la matrice.
Les valeurs propres sont des coefficients numériques intervenant dans linterprétation, aussi les verra-t-on apparaître dans les résultats (cf. § 4.3.).
Métaphore du pain de 4 livres
La meilleure approximation linéaire de dimension 2 dun pain de 4 livres, restituant sa forme et sa distribution massique, serait donnée par la projection massique sur le plan défini par les axes dallongement, puis daplatissement du pain. (:122) |
|
A laide des représentations graphiques, appuyées par les tableaux, on essaiera :
repérer des groupes dindividus, homogènes vis-à-vis de lensemble des caractères ;
révéler des différences entre individus ou groupe dindividus, relativement à lensemble des caractères;
mettre en évidence des individus au comportement atypique (toujours vis-à-vis de lensemble des caractères), ce comportement étant dû à la présence de données aberrantes ou à dautres causes quil conviendra de déterminer ;
condenser linformation qui permet de décrire la position dun individu dans lensemble de la population.
Ne pas oublier que les représentations obtenues ne sont quune simple description des données, par conséquent, elles ne peuvent en aucun cas servir de preuve pour une quelconque théorie.