Introduction aux Statistiques


Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.




  6.3. Décomposition factorielle exacte et représentation graphique

Voici un premier exemple qui illustre le recodage et la représentation graphique des données. C’est un exemple d’école : le tableau analysé est de trop petites dimensions pour justifier un traitement par analyse factorielle.

En 1975, 204.489 bacheliers ont obtenu le baccalauréat dans au moins 9 séries différentes : littéraires (A), scientifiques (B, D, D’) mathématique (C, E) ou technique (F, G, H). Ces bacheliers ont ensuite suivi différentes voies : inscription à l’université, classe préparatoires de grandes écoles, autres activités dont des activités professionnelles. Pour simplifier notre tableau, nous avons regroupé les séries du bac en 4 grandes catégories (l : littéraire ; s : scientifiques ; m : mathématiques ; t : technique) et les orientations en 3 destinations principales (U : université ; E : préparation aux grandes écoles : A : autres solutions). Pour faciliter la lecture, les chiffres ont été arrondis et le total général ramené à 100.

Tableau T

Série\ Choix
Université
Ecoles
Autres
Total
lettre
13
2
5
20
sciences
20
2
8
30
maths
10
5
5
20
technique
7
1
22
30
Total
50
10
40
100

Dans ce tableau d’origine (ou tableau initial), à 4 lignes et 3 colonnes, les distributions marginales (totaux des lignes et des colonnes) nous fournissent des indications résumées sur la population de bacheliers 1975 et ses choix. Le tableau T décrit deux ensembles : celui des "séries du baccalauréat" (ou ensemble des individus ou ensemble I) et celui des "choix de formation" (ou ensemble des variables ou ensemble J).

La moitié des bacheliers va à l’université ; 1 sur 10 prépare les grandes écoles, le reste suit un autre destin. Mais, cette distribution est-elle uniforme pour toutes les catégories de bacheliers? non, puisque dans la série lettre, 65% vont à l’université contre seulement 23% des techniques. Le respect de la proportion moyenne pour toutes les lignes du tableau correspondrait à une "situation d’indépendance". Nous constatons qu’il n’y a pas indépendance entre la série du bac et l’orientation ultérieure. Il peut selon les cas y avoir déficit ou excès par rapport à la moyenne.

Construisons le tableau des effectifs théoriques correspondant à la situation d’indépendance. Chaque élément est obtenu en multipliant chaque valeur marginale ligne par chaque valeur marginale colonne et en divisant par le total général.

Tableau T0 : tableau des effectifs théoriques ou tableau d’indépendance

Série\ Choix
Université
Ecoles
Autres
(Total)
lettres
10
2
8
20
sciences
15
3
12
30
maths
10
2
8
20
technique
15
3
12
30
(total)
50
10
40
100

Le tableau d’indé-pendance (T0) présente la caractéristique d’avoir des marges qui en constituent un résumé parfait : la connaissance des marges équivaut à la connaissance du tableau complet.

Pour obtenir le tableau des écarts entre l’effectif observé et l’effectif théorique, il faut soustraire les deux tableaux, case par case.

Tableau R1 : tableau des écarts à l’indépendance

Série\ Choix
U
E
A
(Total)
lettres
+3
0
-3
0
sciences
+5
-1
-4
0
maths
0
+3
-3
0
technique
-8
-2
+10
0
(total)
0
0
0
0

Le tableau R1 contient l’information la plus intéressante pour l’interprétation. Les écarts positifs correspondent à des choix privilégiés. Les écarts nuls correspondent à la moyenne théorique. Les écarts négatifs correspondent à des déficits par rapport à la moyenne théorique.

En d’autres termes les écarts sont des indicateurs numériques permettant une première interprétation des données :

• Un écart positif traduit une attraction entre une ligne (une série) et une colonne (une orientation) ;

• Un écart nul traduit une indépendance entre une ligne et une colonne ;

• Un écart négatif traduit une répulsion entre une ligne et une colonne.

Le tableau des écarts peut être décomposé en produit de deux tableaux (ou matrices) plus petits, d’une infinité de façons. Voici un exemple de décomposition, parmi d’autres possibles :

R1 =

Chaque tableau offre l’avantage de pouvoir être représenté dans un repère à deux dimensions :

• Au 1er tableau correspondent dans ce repère quatre vecteurs (1, 1), (1, 2), (2, -1) et (-4, -2) qui représentent les 4 séries ;

• Au 2ème tableau, on peut faire correspondre, dans le même repère, 3 vecteurs (1, 2), (1, -1), (-2, 1) qui représentent les 3 orientations ;

• Prenons par exemple le premier nombre du tableau R1 (+3) qui correspond à l’écart de la série Lettre pour l’orientation Université. Dans le produit des deux tableaux, il est obtenu par le calcul (1x1)+(1x2). Autrement dit, c’est le produit scalaire des vecteurs (1, 1) et (1, 2) qui représentent respectivement la série Lettre et l’orientation Université.

La décomposition factorielle va permettre une représentation graphique des données. Chaque élément série ou orientation est désormais représenté par un vecteur à deux dimensions. Chacune des cases du tableau des écarts R1 est interprétée ainsi comme le produit scalaire de deux vecteurs représentés sur le graphique ci-dessous.

 

Le produit scalaire est défini géométriquement comme la projection orthogonale d’un vecteur sur un autre.

L’information contenue dans le tableau des écarts est maintenant traduite de façon géométrique :

• lorsque l’angle formé par deux vecteurs est égal à 90°, leur produit scalaire est nul, ce qui traduit l’indépendance. Ici : entre la série " lettre l " et l’orientation " ECOLE E " ou entre l’orientation " UNIVERSITE U " et la série " maths m " ;

• lorsque l’angle formé par deux vecteurs est nul ou inférieur à 90°, leur produit scalaire est positif ; écart positif à l’indépendance. C’est le cas ici : entre l’orientation " UNIVERSITE U " et la série " lettre l ", entre l’orientation " UNIVERSITE U " et la série " sciences s ", entre la série " maths m " et l’orientation " ECOLE E ", entre la série " technique t " et l’orientation " AUTRE A " ;

• lorsque l’angle formé par deux vecteurs est compris entre 90° et 180°, leur produit scalaire est négatif ; écart négatif à l’indépendance. Ici : entre la série " technique t " et l’orientation " UNIVERSITE U " , entre l’orientation " AUTRE A " et la série " sciences s ",, entre la série " maths m " et l’orientation " AUTRE A ", etc.