Introduction aux Statistiques


Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.



6. Les Analyses Factorielles

  

Lorsque l’on doit traiter des tableaux complexes de données, réunissant des ensembles de variables nombreuses et souvent de typologie diverse (analyses multivariées), les méthodes de la statistique uni- ou bivariée ne conviennent plus. une nouvelle approche du traitement et de l’interprétation doit être envisagée.

Les analyses factorielles trouvent tout leur intérêt pour la compréhension des tableaux de grande dimensions (plusieurs dizaines ou centaines de lignes et de colonnes) que les traitements statistiques classiques ne peuvent interpréter de façon globale.

  6.1. Choisir une analyse multivariée

Le point de départ est la nature des problèmes posés par l’utilisateur. Si on classait ces problèmes, on distinguerait trois catégories : les problèmes de description, ceux de structuration, et ceux d’explication avec ou sans une modélisation.

Cette classification n’est pas systématique et un utilisateur peut avoir des besoins touchant un ou plusieurs de ces trois aspects.

Examinons brièvement comment chacun de ces problèmes peut se présenter dans la réalité.

Il s’agit du cas où l’on essaie de décrire un phénomène sans avoir d’idées a priori sur les résultats qui peuvent apparaître. On dispose, par exemple, d’une population où chacun des sujets est caractérisé par un certain nombre de variables, toutes de même importance et jouant toutes le même rôle. Pour la description, on peut citer l’analyse en composantes principales (ACP), l’analyse des correspondances (AFC),

L’utilisateur cherche essentiellement à synthétiser son information en structurant la population par "groupes homogènes". Pour la structuration, on peut citer toutes les techniques de classification automatique : la classification hiérarchique ascendante, la classification hiérarchique descendante, la classification non hiérarchique descendante.

Les variables n’ont pas la même importance et ne jouent pas le même rôle. On est en face d’un problème d’"explication" dès que l’on cherche à construire le schéma explicatif d’un phénomène en utilisant d’autres phénomènes. Le but recherché peut être éventuellement la modélisation, ceci afin d’avoir la possibilité de prévoir un résultat jusque-là imprévisible ou presque.

Pour l’explication et/ou la modélisation, on peut citer toutes les techniques dites explicatives ou de reconnaissance des formes : les techniques de régression, l’analyse discriminante.

Cette classification n’est pas systématique, une même technique peut toucher plusieurs types de problèmes. Les trois types de techniques sont complémentaires.

Les tableaux initiaux peuvent contenir des données qualitatives et/ou quantitatives.

 

Deux variantes :

• Données continues : elles sont issues de mesures (taille, poids, âge, quantité de nourriture, taux d’hormones, quantité de nitrates, valeurs du pH, etc.) ;

• Données discrètes : effectifs (anciennement fréquences), issues de recensements ou d’enquêtes.

Ce sont des données descriptives qui définissent des catégories. Exemple : Sexe (mâle, femelle), avoir les yeux bleus ou noirs ou gris, etc.

Elles peuvent se coder pour créer un tableau. Elles peuvent être codées en chiffres à valeurs arbitraires (1 et 2 par exemple, mais pourrait être aussi bien 0 et 1). Dans ce codage arbitraire, il n’y a pas de relation d’ordre entre les nombres (codage minéralogique ou téléphonique).

• Les variables quantitatives (continues ou discrètes) peuvent se transformer en variables qualitatives. Dans ce cas, il y a une relation d’ordre entre les nombres : on donne un nombre plus petit à la première classe qu’à la classe supérieure. On perd de l’information, problème des intervalles (on découpe en classes à intervalles ou effectifs constants). On peut aussi créer des tableaux de présence/absence (codées 1 et 0), des tableaux disjonctifs complets (avec plusieurs modalités pour chaque variable, chaque individu n’étant représenté que dans une modalité (1 et 0 pour les autres modalités, pour chaque variable), la somme des valeurs de chaque ligne est la même.

• Pour les variables quantitatives continues :

1. on peut les conserver telles quelles ;

2. lorsqu’il y a de grandes différences entre unités des variables, on peut remplacer chaque mesure en la divisant par une quantité (valeur maximum, valeur normale, moyenne, écart-type de la variable) ;

3. lorsque les échelles de mesure diffèrent, on peut retrancher la moyenne et diviser par l’écart-type. On obtient des valeurs centrées réduites;

4. on peut également recoder les mesures en classes, mais on perd de l’information.

Les techniques utilisées ne conduisent pas au même résultat et dépendent de la nature des données.

 

Signalons que, pour une ACP, les variables doivent obligatoirement être disposées en colonnes et les observations en lignes, alors que pour une AFC, cela est indifférent.

Dans chacun de ces cas, le nombre de mesures (individus) doit, pour une question de bon sens, être supérieur au nombre de variables (mesurer 10 fois une centaine de variables biologiques est moins fiable que mesurer 100 fois une dizaine de variables). Malheureusement, on ne peut pas donner de limite. En règle générale, les méthodes d’analyse multivariées sont utiles principalement pour l’interprétation des tableaux de grandes dimensions.