|
Voici un premier exemple qui illustre le recodage et la représentation graphique des données. Cest un exemple décole : le tableau analysé est de trop petites dimensions pour justifier un traitement par analyse factorielle.
En 1975, 204.489 bacheliers ont obtenu le baccalauréat dans au moins 9 séries différentes : littéraires (A), scientifiques (B, D, D) mathématique (C, E) ou technique (F, G, H). Ces bacheliers ont ensuite suivi différentes voies : inscription à luniversité, classe préparatoires de grandes écoles, autres activités dont des activités professionnelles. Pour simplifier notre tableau, nous avons regroupé les séries du bac en 4 grandes catégories (l : littéraire ; s : scientifiques ; m : mathématiques ; t : technique) et les orientations en 3 destinations principales (U : université ; E : préparation aux grandes écoles : A : autres solutions). Pour faciliter la lecture, les chiffres ont été arrondis et le total général ramené à 100.
Tableau T
Série\ Choix
|
|
|
|
|
lettre
|
|
|
|
|
sciences
|
|
|
|
|
maths
|
|
|
|
|
technique
|
|
|
|
|
Total
|
|
|
|
|
Dans ce tableau dorigine (ou tableau initial), à 4 lignes et 3 colonnes, les distributions marginales (totaux des lignes et des colonnes) nous fournissent des indications résumées sur la population de bacheliers 1975 et ses choix. Le tableau T décrit deux ensembles : celui des "séries du baccalauréat" (ou ensemble des individus ou ensemble I) et celui des "choix de formation" (ou ensemble des variables ou ensemble J).
La moitié des bacheliers va à luniversité ; 1 sur 10 prépare les grandes écoles, le reste suit un autre destin. Mais, cette distribution est-elle uniforme pour toutes les catégories de bacheliers? non, puisque dans la série lettre, 65% vont à luniversité contre seulement 23% des techniques. Le respect de la proportion moyenne pour toutes les lignes du tableau correspondrait à une "situation dindépendance". Nous constatons quil ny a pas indépendance entre la série du bac et lorientation ultérieure. Il peut selon les cas y avoir déficit ou excès par rapport à la moyenne.
Construisons le tableau des effectifs théoriques correspondant à la situation dindépendance. Chaque élément est obtenu en multipliant chaque valeur marginale ligne par chaque valeur marginale colonne et en divisant par le total général.
Tableau T0 : tableau des effectifs théoriques ou tableau dindépendance
Série\ Choix
|
|
|
|
|
lettres
|
|
|
|
|
sciences
|
|
|
|
|
maths
|
|
|
|
|
technique
|
|
|
|
|
(total)
|
|
|
|
|
Le tableau dindé-pendance (T0) présente la caractéristique davoir des marges qui en constituent un résumé parfait : la connaissance des marges équivaut à la connaissance du tableau complet.
Pour obtenir le tableau des écarts entre leffectif observé et leffectif théorique, il faut soustraire les deux tableaux, case par case.
Tableau R1 : tableau des écarts à lindépendance
Série\ Choix
|
|
|
|
|
lettres
|
|
|
|
|
sciences
|
|
|
|
|
maths
|
|
|
|
|
technique
|
|
|
|
|
(total)
|
|
|
|
|
Le tableau R1 contient linformation la plus intéressante pour linterprétation. Les écarts positifs correspondent à des choix privilégiés. Les écarts nuls correspondent à la moyenne théorique. Les écarts négatifs correspondent à des déficits par rapport à la moyenne théorique.
En dautres termes les écarts sont des indicateurs numériques permettant une première interprétation des données :
Un écart positif traduit une attraction entre une ligne (une série) et une colonne (une orientation) ;
Un écart nul traduit une indépendance entre une ligne et une colonne ;
Un écart négatif traduit une répulsion entre une ligne et une colonne.
Le tableau des écarts peut être décomposé en produit de deux tableaux (ou matrices) plus petits, dune infinité de façons. Voici un exemple de décomposition, parmi dautres possibles :
R1 =
Chaque tableau offre lavantage de pouvoir être représenté dans un repère à deux dimensions :
Au 1er tableau correspondent dans ce repère quatre vecteurs (1, 1), (1, 2), (2, -1) et (-4, -2) qui représentent les 4 séries ;
Au 2ème tableau, on peut faire correspondre, dans le même repère, 3 vecteurs (1, 2), (1, -1), (-2, 1) qui représentent les 3 orientations ;
Prenons par exemple le premier nombre du tableau R1 (+3) qui correspond à lécart de la série Lettre pour lorientation Université. Dans le produit des deux tableaux, il est obtenu par le calcul (1x1)+(1x2). Autrement dit, cest le produit scalaire des vecteurs (1, 1) et (1, 2) qui représentent respectivement la série Lettre et lorientation Université.
La décomposition factorielle va permettre une représentation graphique des données. Chaque élément série ou orientation est désormais représenté par un vecteur à deux dimensions. Chacune des cases du tableau des écarts R1 est interprétée ainsi comme le produit scalaire de deux vecteurs représentés sur le graphique ci-dessous.
Le produit scalaire est défini géométriquement comme la projection orthogonale dun vecteur sur un autre.
Linformation contenue dans le tableau des écarts est maintenant traduite de façon géométrique :
lorsque langle formé par deux vecteurs est égal à 90°, leur produit scalaire est nul, ce qui traduit lindépendance. Ici : entre la série " lettre l " et lorientation " ECOLE E " ou entre lorientation " UNIVERSITE U " et la série " maths m " ;
lorsque langle formé par deux vecteurs est nul ou inférieur à 90°, leur produit scalaire est positif ; écart positif à lindépendance. Cest le cas ici : entre lorientation " UNIVERSITE U " et la série " lettre l ", entre lorientation " UNIVERSITE U " et la série " sciences s ", entre la série " maths m " et lorientation " ECOLE E ", entre la série " technique t " et lorientation " AUTRE A " ;
lorsque langle formé par deux vecteurs est compris entre 90° et 180°, leur produit scalaire est négatif ; écart négatif à lindépendance. Ici : entre la série " technique t " et lorientation " UNIVERSITE U " , entre lorientation " AUTRE A " et la série " sciences s ",, entre la série " maths m " et lorientation " AUTRE A ", etc.