Introduction aux Statistiques


Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.



 

Ce test paramétrique repose sur des comparaisons de moyennes.

Conditions d’utilisation du test : le test de Student est utilisé pour comparer deux échantillons indépendants et/ou appariés (2 versions, adaptées à chaque catégorie d’échantillons).

Lorsqu’il y a plus de 2 échantillons, il devient nécessaire d’utiliser une ANOVA adaptée.

Le test de Student concerne des données quantitatives, mesurées sur une échelle d’intervalle ou de rapport.

Avant de faire des tests paramétriques on doit :

1 S'assurer que la distribution de l'échantillon est compatible avec l'hypothèse de distribution gaussienne de la variable (test de normalité). Sinon on peut essayer de rendre cette distribution compatible avec une distribution gaussienne en réalisant une transformation, par exemple logarithmique.

Pour vérifier que la distribution d’un échantillon suit une loi normale, il est possible d’utiliser, dans Statview II, le test descriptif d’aplatissement et de symétrie (de kurtosis and skewness, en anglais).

On considère que l’échantillon suit une loi normale à 95 % lorsque la valeur de son aplatissement est comprise entre -2 et +2 et que la valeur de son assymétrie est comprise entre -2 et +2.

2 Vérifier l'homogénéité des variances de tous les échantillons ;Vérification de l'homogénéité des variances.

Supposons que les données suivantes ont été obtenues dans une expérimentation portant sur deux traitements A et B :

 

traitement
taille de l’échantillon
variance de l’échantillon
A
na = 10
= 15,28
B
nb =8
= 28,20

Pour tester l’hypothèse nulle H0: " Variance(A) = Variance(B) " contre l’hypothèse alternativeH1 " Variance(A) – Variance(B) ", on calcule les deux variances, puis on fait le rapport de la plus grande sur la plus petite.

Ce rapport constitue le F de Snedecor. Ici : F=28,20/15,58 =1,81

La valeur de F est comparée, dans une table de Snedecor, à une valeur théorique et doit lui être inférieure pour un seuil de risque choisi, pour conserver l'hypothèse d'homogénéité des variances. Le degré de liberté qui correspond a la variance la plus élevée est porté au numérateur (colonnes de la table F), celui qui correspond à la variance la plus faible, est porté au dénominateur (lignes de la table F).

On note :

Le test t de Student est relativement robuste. Une distorsion modérée d'avec la loi normale et d'avec l'hypothèse d'homogénéité des variances est acceptable.

Pour tester l'homogénéité des variances dans l'exemple, Va = Vb opposé à Va–Vb :

Nous avons Fobs = 28,20 / 15,28 = 1,81 pour na-1 ddl=9, nb-1 ddl=7.

La valeur critique de rejet de F 0,95(7,9) = 3,29. Comme Fobs n'excède pas cette valeur, l'hypothèse d'égalité des variances n'est pas contredite.

On peut donc appliquer le test de Student à ces échantillons.

 

Soient 2 échantillons de mesures, faites sur des individus différents concernant 2 traitements A et B et constitués de variables quantitatives continues.

traitement A
traitement B
données brutes
3
6
5
5
2
7
4
8
na = 7
nb = 10
6
9
moy A = 4,14
moy B = 7,0
2
4
7
7
 
8
 
9
 
7

Soit m=moyenne de la population

L’hypothèse nulle H0 est :
 
L’hypothèse alternative H1 est :
 

En raison de la nature de l’hypothèse H1, nous appliqueront un test bilatéral.

Formules à utiliser dans les situations de calcul manuel (ou avec un tableur) :

Somme des na observations du groupe A = S Xa
29
Somme des nb observations du groupe B = S Xb
70
Somme de toutes les observations = S X
99
Somme des carrés des observations du groupe = AS Xa2
143
Somme des carrés des observations du groupe B = S Xb2
514
Somme des carrés des observations = SX2
657
Somme des carrés des écarts
143-(29)^2/7=22,857
Somme des carrés des écarts
514-(70)^2/10=24

" est la valeur critique du test de Student.

le signe - est utilisé car [moyenne Xa-moyenne Xb] est négative

t qui est la valeur critique du test est, ici, supérieur à la valeur de la table [cf.Winer p. 641 (2,13)]

donc

• L'hypothèse nulle H0 est rejetée, pour t=3,28, avec un seuil de confiance de=0,0051.

• On peut donc conclure que la moyenne de l’échantillon A est significativement différente de celle de B, au seuil de confiance de 0,005 (5 chances sur mille de se tromper en rejetant l’hypothèse nulle).

 

 

Expression des résultats du test avec le logiciel Statview :

DDL
t non apparié
Prob. (bilatéral)
15
-3,28
,0051

Groupe :
Fréquence
Moyenne
Déviation Std. :
Erreur Stdard
Groupe 1
7
4,14
1,95
,74
Groupe 2
10
7
1,63
,52

 

Dans ce cas, le même échantillon est mesuré 2 fois :

une première fois, " avant " : a, puis une seconde fois " après " : b

Exemple numérique

 
X1
X2
Différence
Sujet
avant
après
d
1
3
6
3
2
8
14
6
3
4
8
4
4
6
4
-2
5
9
16
7
6
2
7
5
7
12
19
7

Soit m la moyenne de la population d’où est extrait l’échantillon

Hypothèse nulle H0
 
Hypothèse alternative H1
 

Formules à utiliser dans les situations de calcul manuel (ou avec un tableur) :

Somme des différences des n observations
Sd
30
Moyenne des différences des n observations
md=Sd/n
4,29
Somme des carrés des différences des n observations
S d2
188
Somme des carrés des écarts
59,43
Valeur critique du test de Student pour échantillons appariés :
 

-3,61

Nombre de degrés de liberté
ddl = n-1
6

Dans la table, on trouve la valeur critique de t :

pour 6 d.d.l., t = 2,45 (a = 0,05, test bilatéral)

Conclusions  statistiques:

• L'hypothèse nulle H0 peut être rejetée, pour t=-3,61, avec un seuil de confiance de=0,05.

• On peut donc conclure que la moyenne de l’échantillon mesuré " avant " est significativement différente de celle de l’échantillon mesuré après, au seuil de confiance de 0,05 (5 chances sur cent de se tromper en rejetant l’hypothèse nulle).

Expression des résultats du test avec le logiciel Statview :

DDL
Moyenne X - Y:
t apparié
Probabilité p (test bilatéral)
6
-4,29
-3,61
,0113

Conclusions expérimentales :

Le calcul de probalité exact fourni par le logiciel permet de rejeter l’hypothèse nulle H0 au seuil de confiance de 0,01.

On peut donc considérer qu’il y a une différence significative entre les deux séries de mesure, au seuil de confiance de 0,01.

Utilisation de Statview 2 sur Macintosh

1.• Entrée des données :

Echantillons indépendants :

Créer un nouveau fichier (menu Fichier) ou importer les données à partir d’un fichier (Excel ou .txt).

Dans une colonne placer les valeurs mesurées des deux échantillons (d’abord échantillon 1, puis échantillon 2).

Affecter la variable Y à cette colonne.

Dans une autre colonne indiquer le numéro (1 ou 2) de l’échantillon et lui affecter la variable X.

Echantillons appariés :

Créer un nouveau fichier (menu Fichier).

Dans une colonne placer les valeurs mesurées de l’un des deux échantillons (par exemple échantillon 1).

Affecter la variable X à cette colonne.

Dans une autre colonne, placer les valeurs mesurées de l’échantillon 2 et lui affecter la variable Y.

2.• Choix du test :

Dans le menu Comparaison choisir Test t.

Préciser indépendant, bilatéral, etc.

Faire apparaître les résultats par le menu " Voir Tableau ".

Les caractéristiques du test s’affichent, en particulier le niveau calculé de confiance (rejet ou acceptation de l’hypothèse nulle).