|
Lorsque lon doit traiter des tableaux complexes de données, réunissant des ensembles de variables nombreuses et souvent de typologie diverse (analyses multivariées), les méthodes de la statistique uni- ou bivariée ne conviennent plus. une nouvelle approche du traitement et de linterprétation doit être envisagée.
Les analyses factorielles trouvent tout leur intérêt pour la compréhension des tableaux de grande dimensions (plusieurs dizaines ou centaines de lignes et de colonnes) que les traitements statistiques classiques ne peuvent interpréter de façon globale.
6.1. Choisir une analyse multivariée
Le point de départ est la nature des problèmes posés par lutilisateur. Si on classait ces problèmes, on distinguerait trois catégories : les problèmes de description, ceux de structuration, et ceux dexplication avec ou sans une modélisation.
Cette classification nest pas systématique et un utilisateur peut avoir des besoins touchant un ou plusieurs de ces trois aspects.
Examinons brièvement comment chacun de ces problèmes peut se présenter dans la réalité.
Il sagit du cas où lon essaie de décrire un phénomène sans avoir didées a priori sur les résultats qui peuvent apparaître. On dispose, par exemple, dune population où chacun des sujets est caractérisé par un certain nombre de variables, toutes de même importance et jouant toutes le même rôle. Pour la description, on peut citer lanalyse en composantes principales (ACP), lanalyse des correspondances (AFC),
Lutilisateur cherche essentiellement à synthétiser son information en structurant la population par "groupes homogènes". Pour la structuration, on peut citer toutes les techniques de classification automatique : la classification hiérarchique ascendante, la classification hiérarchique descendante, la classification non hiérarchique descendante.
Les variables nont pas la même importance et ne jouent pas le même rôle. On est en face dun problème d"explication" dès que lon cherche à construire le schéma explicatif dun phénomène en utilisant dautres phénomènes. Le but recherché peut être éventuellement la modélisation, ceci afin davoir la possibilité de prévoir un résultat jusque-là imprévisible ou presque.
Pour lexplication et/ou la modélisation, on peut citer toutes les techniques dites explicatives ou de reconnaissance des formes : les techniques de régression, lanalyse discriminante.
Cette classification nest pas systématique, une même technique peut toucher plusieurs types de problèmes. Les trois types de techniques sont complémentaires.
Les tableaux initiaux peuvent contenir des données qualitatives et/ou quantitatives.
Deux variantes :
Données continues : elles sont issues de mesures (taille, poids, âge, quantité de nourriture, taux dhormones, quantité de nitrates, valeurs du pH, etc.) ;
Données discrètes : effectifs (anciennement fréquences), issues de recensements ou denquêtes.
Ce sont des données descriptives qui définissent des catégories. Exemple : Sexe (mâle, femelle), avoir les yeux bleus ou noirs ou gris, etc.
Elles peuvent se coder pour créer un tableau. Elles peuvent être codées en chiffres à valeurs arbitraires (1 et 2 par exemple, mais pourrait être aussi bien 0 et 1). Dans ce codage arbitraire, il ny a pas de relation dordre entre les nombres (codage minéralogique ou téléphonique).
Les variables quantitatives (continues ou discrètes) peuvent se transformer en variables qualitatives. Dans ce cas, il y a une relation dordre entre les nombres : on donne un nombre plus petit à la première classe quà la classe supérieure. On perd de linformation, problème des intervalles (on découpe en classes à intervalles ou effectifs constants). On peut aussi créer des tableaux de présence/absence (codées 1 et 0), des tableaux disjonctifs complets (avec plusieurs modalités pour chaque variable, chaque individu nétant représenté que dans une modalité (1 et 0 pour les autres modalités, pour chaque variable), la somme des valeurs de chaque ligne est la même.
Pour les variables quantitatives continues :
1. on peut les conserver telles quelles ;
2. lorsquil y a de grandes différences entre unités des variables, on peut remplacer chaque mesure en la divisant par une quantité (valeur maximum, valeur normale, moyenne, écart-type de la variable) ;
3. lorsque les échelles de mesure diffèrent, on peut retrancher la moyenne et diviser par lécart-type. On obtient des valeurs centrées réduites;
4. on peut également recoder les mesures en classes, mais on perd de linformation.
Les techniques utilisées ne conduisent pas au même résultat et dépendent de la nature des données.
Signalons que, pour une ACP, les variables doivent obligatoirement être disposées en colonnes et les observations en lignes, alors que pour une AFC, cela est indifférent.
Dans chacun de ces cas, le nombre de mesures (individus) doit, pour une question de bon sens, être supérieur au nombre de variables (mesurer 10 fois une centaine de variables biologiques est moins fiable que mesurer 100 fois une dizaine de variables). Malheureusement, on ne peut pas donner de limite. En règle générale, les méthodes danalyse multivariées sont utiles principalement pour linterprétation des tableaux de grandes dimensions.