Introduction aux Statistiques

Citation :
Introduction aux statistiques - Â© 1996, Ramousse R., Le Berre M. & Le Guelte L.

7. CorrÃ©lation : Mesure et test de signification

Nous souhaitons mettre en Ã©vidence les relations qui existent entre deux sÃ©ries d'observations (deux variables X et Y) considÃ©rÃ©es simultanÃ©ment. Nous voulons aussi connaÃ®tre la nettetÃ© de leur liaison.

Il faut distinguer deux situations :

• une des deux variables, la variable dÃ©pendante, doit Ãªtre exprimÃ©e en fonction de l’autre, la variable indÃ©pendante, de faÃ§on Ã prÃ©voir ou estimer l’une en fonction de l’autre. Les valeurs de la variable indÃ©pendante sont fixÃ©es par avance par l’expÃ©rimentateur.

Exemples :
- mesurer le poids ou la longueur d’un organe (variable dÃ©pendante) Ã diffÃ©rentes dates successives choisies arbitrairement (variable indÃ©pendante).
- mesurer le rendement d’une culture (variable dÃ©pendante) en fonction de diffÃ©rentes doses d’engrais (variable indÃ©pendante).
- mesurer la capacitÃ© Ã rÃ©soudre un problÃ¨me ou Ã rÃ©aliser une tÃ¢che (variable dÃ©pendante) en fonction de diffÃ©rentes doses d’un mÃ©dicament (variable indÃ©pendante).

Ces questions peuvent Ãªtre abordÃ©es avec les tests de rÃ©gression.

• Les deux variables ne peuvent Ãªtre distinguÃ©es, et pourront prendre n’importe quelle valeur pour n’importe quel individu observÃ©. Les variables sont dites interdÃ©pendantes.

Exemple :
Ã‰tude des variations simultanÃ©es de deux caractÃ©ristiques d’un mÃªme organe ou organisme. Longueur du corps et profondeur de poitrine de n vaches laitiÃ¨res d’une variÃ©tÃ© donnÃ©e.

Ces questions sont traitÃ©es avec les tests de corrÃ©lation.

Il est, dans ce cas, important de mesurer le degrÃ© de relation existant entre deux sÃ©ries d'observation (le coefficient de corrÃ©lation), mais il est tout aussi important de pouvoir dÃ©cider si une liaison observÃ©e dans un Ã©chantillon indique ou non que les variables Ã©tudiÃ©es sont probablement associÃ©es dans la population Ã partir de laquelle a Ã©tÃ© extrait l'Ã©chantillon.

Quelques unes des mÃ©thodes de mesure non paramÃ©triques de le corrÃ©lation et leurs tests de signification seront prÃ©sentÃ©es.

Au prÃ©alable, il ne faut jamais oublier que l'existence d'une corrÃ©lation mÃªme Ã©levÃ©e entre deux sÃ©ries d'observations n'implique pas nÃ©cessairement l'existence d'une relation de cause Ã effet (causalitÃ©) entre les deux variables considÃ©rÃ©es. En effet, les corrÃ©lations observÃ©es peuvent Ãªtre dues au fait que les variables Ã©tudiÃ©es sont toutes deux soumises Ã des influences communes, modifiant simultanÃ©ment les valeurs, soit dans le mÃªme sens (corrÃ©lation positive), soit en sens opposÃ©s (corrÃ©lation nÃ©gative).

Ainsi, pour certaines exploitations agricoles, l'existence d'une corrÃ©lation positive entre le revenu par unitÃ© de main d'œuvre et l'importance de la main d'œuvre n'implique pas qu'il suffit d'augmenter le nombre d'ouvriers pour amÃ©liorer la rentabilitÃ© de l'exploitation. En rÃ©alitÃ©, ces deux variables sont-elles mÃªmes fonction d'une troisiÃ¨me variable : l'Ã©tendue des exploitations. La corrÃ©lation observÃ©e provient du fait que les grandes exploitations nÃ©cessitent normalement une main d'œuvre plus nombreuse et qu'elles sont aussi Ã©conomiquement les plus rentables.

7.1. Le coefficient de contingence (Contingency coefficient)

Ce coefficient de contingence C permet de mesurer l'intensitÃ© de la liaison existant entre deux variables considÃ©rÃ©s. Il n'est intÃ©ressant que lorsque les observations de l'une ou des deux sÃ©ries sont mesurÃ©es dans une Ã©chelle nominale.

MÃ©thode

Pour calculer ce coefficient entre deux sÃ©ries de catÃ©gories (A1, A2,... Acet B1, B2,.... Br) nous arrangeons les frÃ©quences en un tableau de contingence cÂ xÂ r.

Â	A1	A2	...	Ac	Total
B1	(A1B1)	(A2B1)	....	AcB1	Â
B2	(A1B2)	(A2B2)	....	AcB2	Â
-	Â	Â	Â	Â	Â
Br	(A1Br)	(A2Br)	....	(AcBr)	Â
Total	Â	Â	Â	Â	N

Dans ce tableau, nous pouvons entrer les frÃ©quences thÃ©oriques qui se produiraient s’il n'y avait pas de liaison ou de corrÃ©lation entre les variables. Plus la divergence entre les frÃ©quences attendues et les frÃ©quences observÃ©es est importante, plus le degrÃ© d'association entre ces deux variables est Ã©levÃ©, et plus le coefficient de contingence C est Ã©levÃ©.

Le coefficient C est dÃ©fini comme suit :

oÃ¹

nombre de cas observÃ©s classÃ©s dans la i(Ã¨me) rangÃ©e et la j(Ã¨me) colonne.

nombre de cas attendu, dans le cadre de l’hypothÃ¨se nulle, classÃ©s dans la i(Ã¨me) rangÃ©e et la j(Ã¨me) colonne.
Exemple

Il est possible de rÃ©utiliser les donnÃ©es de l'exemple du khi carrÃ© pour k Ã©chantillons indÃ©pendants vu prÃ©cÃ©demment (dÃ©pendance entre le cursus scolaire choisi par les adolescents d'une petite ville et leur appartenance Ã une classe sociale). Dans ce cas, c'est l'association entre les frÃ©quences de sÃ©ries non ordonnÃ©es (cursus scolaires) et les frÃ©quences de sÃ©ries ordonnÃ©es (appartenance sociale). Le tableau des donnÃ©es est rÃ©pÃ©tÃ© ci-dessous :

	Classe
FiliÃ¨re	I et II	III	IV	V	Total
PrÃ©pa U.	7,3 23	30,3 40	38,0 16	5,4 2	81
GÃ©nÃ©ral	18,6 11	77,5 75	97,1 107	13,8 14	207
Commercial	9,1 1	38,2 31	47,9 60	6,8 10	102
Total	35	146	183	26	390

Le khi carrÃ© calculÃ© Ã partir de ces donnÃ©es est de 69,2. Nous pouvons alors dÃ©terminer la valeur C du coefficient de contingence grÃ¢ce Ã la formule prÃ©cÃ©dente :

= 0,39.

La corrÃ©lation, exprimÃ©e par le coefficient de contingence, entre l'appartenance Ã une classe sociale et le choix d'un cursus scolaire dans cette ville est C = 0,39.
Test de la signification du coefficient de contingence

Si nous observons une corrÃ©lation entre deux sÃ©ries de variables d'un Ã©chantillon, nous dÃ©sirons savoir s'il est plausible de conclure que ces variables sont liÃ©es entre elles dans la population reprÃ©sentÃ©e par l'Ã©chantillon.

Dans le cas du coefficient de contingence, nous calculons une valeur statistique qui donne une indication simple et adÃ©quate de la signification de C. Cette statistique est le khi carrÃ©. Aussi suffit-il de dÃ©terminer si le khi carrÃ© calculÃ© Ã partir de ces donnÃ©es est significatif.

Si la probabilitÃ© d'obtenir le khi carrÃ© observÃ©, avec un degrÃ© de libertÃ© Ã©gal Ã (c -1) (r -1), est Ã©gal ou infÃ©rieur Ã a l'hypothÃ¨se nulle peut Ãªtre rejetÃ©e Ã ce niveau de signification et nous pouvons conclure que, dans cette population, le degrÃ© d'association entre les deux sÃ©ries de variables n'est pas nul.

En reprenant l'exemple prÃ©cÃ©dent, nous avons montrÃ© que la relation entre le statut social et le cursus scolaire choisi est C = 0,39. Si nous considÃ©rons que les adolescents de cette petite ville forment un Ã©chantillon alÃ©atoire d'une population, nous pouvons tester si le statut social est reliÃ© au cursus scolaire choisi dans cette population en cherchant la signification du khi carrÃ© Ã©gal Ã 69,2. En se rÃ©fÃ©rant Ã la table des valeurs critiques du khi carrÃ©, nous pouvons dÃ©terminer la probabilitÃ© associÃ©e Ã ce khi carrÃ© pour un degrÃ© de libertÃ© de (c -1) (rÂ - 1) = (4 -1) (3 - 1) = 6. Cette probabilitÃ© est infÃ©rieure Ã 0,001. Nous pouvons rejeter H₀ Ã ce niveau de signification.

Nous concluons que le statut social et le choix d'un cursus scolaire dans une petite ville sont liÃ©s dans la population de laquelle a Ã©tÃ© extraite cet Ã©chantillon d'adolescents.

Limitations du coefficient de contingence

Les coefficients de corrÃ©lation doivent satisfaire Ã deux critÃ©res : quand il y a absence complÃ¨te d'association, le coefficient est Ã©gal Ã zero; quand les variables sont parfaitement en corrÃ©lation, le coefficient devrait Ãªtre Ã©gal Ã 1. Le coefficient de contingence Ã©gal zÃ©ro en l'absence d'association, mais il ne peut atteindre l'unitÃ© dans la situation inverse, car sa limite supÃ©rieure dÃ©pend de la taille des colonnes c et des lignes r. Aussi, il n'est possible de comparer deux coefficients de contingence que lorsqu'ils proviennent de tables de contingence de mÃªme taille. Par ailleurs, le calcul de C implique celui du khi carrÃ© et donc impose les contraintes d'utilisation du khi carrÃ©.

Enfin, C n'est pas directement comparable Ã aucune autre mesure de corrÃ©lation, r de Pearson, rs de Spearman ou

de Kendall.

Cependant, ce coefficient de contingence est extrÃªmement utile du fait de sa large applicabilitÃ©. Aucune contrainte d'application (forme de la population, continuitÃ© des variables, Ã©chelle de mesure) ne viennent restreindre son application.

Â
7.2. Coefficient de corrÃ©lation de rang de Kendall (Kendall rank correlation coefficient)

Ce coefficient de corrÃ©lation

(tau) nÃ©cessite que les variables soient mesurÃ©es au moins dans une Ã©chelle ordinale, de telle sorte que chaque sujet des deux variables puisse Ãªtre rangÃ©. La distribution d'Ã©chantillonnage de

, sous l'hypothÃ¨se nulle, est connue, aussi le coefficient peut Ãªtre testÃ© pour sa signification.

Le mÃªme type de donnÃ©es peuvent Ãªtre traitÃ©s par le coefficient de corrÃ©lation de Spearman rs (souvent plus connu). Mais le coefficient de Kendall prÃ©sente l'avantage de pouvoir Ãªtre gÃ©nÃ©ralisÃ© Ã un coefficient partiel de corrÃ©lation

xy.z et Ã un coefficient de concordance W.

Principe et mÃ©thode

Si l'on demande Ã deux enseignants de ranger, par exemple, quatre dissertations (a, b, c, d) en fonction de la qualitÃ© de leur style. Leur classement est le suivant :

Dissertation	a	b	c	d
Enseignant A	3	4	2	1
Enseignant B	3	1	4	2

Lorsque les dissertations sont rÃ©arrangÃ©es de telle sorte que celles de l'enseignant 1 apparaissent rangÃ©es dans l'ordre naturel, le tableau devient :

Dissertation	d	c	a	b
Enseignant A	1	2	3	4
Enseignant B	2	4	3	1

Il faut alors dÃ©terminer combien de paires de rangs de l'enseignant B sont dans un ordre naturel l'un par rapport Ã l'autre. Ainsi, les rangs de la premiÃ¨re paire 2 et 4 sont dans l'ordre naturel, 2 prÃ©cÃ¨de 4. On affecte alors la valeur + 1 Ã cette paire. Les rangs de la seconde paire 2 et 3 sont dans un ordre correct et obtiennent + 1. La troisiÃ¨me paire (2 et 1) n'est pas dans un ordre correct et reÃ§oit la valeur - 1. Il faut alors considÃ©rer toutes les paires qui incluent le rang 4, puis le rang 3 et cette dÃ©marche nous permet de calculer la somme de tous les scores obtenus :

(+1) + (+1) + (-1) + (-1) + (-1) + (-1) = -2

Maintenant, le total maximum possible qui peut Ãªtre atteint par les scores affectÃ©s Ã l'ensemble des paires de jugements de l'enseignant B est obtenu lorsque tous les jugements des deux enseignants sont en parfait accord. Ce total maximum est le rÃ©sultat de la combinaison de quatre choses prises deux Ã deuxÂ =Â 6.

Le degrÃ© de relation existant entre les deux sÃ©ries de rangs est alors indiquÃ© par le rapport du total des scores des rangements du juge B au total maximum possible :

Le total maximum de combinaisons de N objets pris deux Ã deux peut Ãªtre exprimÃ© par 1/2 N (N - 1), et le total observÃ© dans l'Ã©chantillon par S, alors la formule suivante :

(A)

oÃ¹ N = le nombre d'objets ou d'individus rangÃ©s dans les deux sÃ©ries.

Le calcul de S peut Ãªtre simplifiÃ© de la faÃ§on suivante. Quand les rangs d'un des juges sont dans l'ordre naturel, et que les rangs correspondants de l'autre juge sont dans le mÃªme ordre, la valeur de S est dÃ©terminÃ©e en partant du premier nombre sur la gauche et en comptant le nombre de rangs sur sa droite qui lui sont supÃ©rieurs et en soustrayant de ce nombre, le nombre de rangs sur sa droite qui sont infÃ©rieurs. Ainsi, lorsque les rangs de l'enseignant B sont 2, 4, 3, 1, Ã la droite du rang 2 sont les rangs 3 et 4 qui sont supÃ©rieurs et le rang 1 qui est infÃ©rieur. Le rang 2 contribue donc (+2 -1) = +1 Ã S. Pour le rang 4, aucun rang Ã sa droite n'est supÃ©rieur, mais deux (les rangs 3 et 1) sont infÃ©rieurs. Le rang 4 contribue donc de (0 - 2) = - 2 Ã S. Pour le rang 3, aucun rang sur la droite n'est supÃ©rieur, mais un (le rang 1) est infÃ©rieur, et donc le rang 3 participe de (0 - 1) = - 1 Ã S. Leur participation totale Ã S est donc :

S = (+1) + (-2) + (-1) = -2

Connaissant la valeur de S, il est possible de calculer la valeur observÃ©e de :

- 0,33

Exemple

La relation entre l'autoritarisme des Ã©tudiants et leur conformisme social est recherchÃ©. L'autoritarisme des sujets et leur conformisme social sont apprÃ©ciÃ©s par le passage de tests. Les rÃ©sultats obtenus Ã ces deux tests par chacun de 12 Ã©tudiants et leurs rangs (en italique) sont prÃ©sentÃ©s dans le tableau suivant :

Etudiant	ApprÃ©ciations
Etudiant	de l'autoritarisme		du conformisme
A	82	2	42	3
B	98	6	46	4
C	87	5	39	2
D	40	1	37	1
E	116	10	65	8
F	113	9	88	11
G	111	8	86	10
H	83	3	56	6
I	85	4	62	7
J	126	12	92	12
K	106	7	54	5
L	117	11	81	9

Nous rÃ©arrangeons l'ordre des sujets de faÃ§on Ã ce que l'ordre des rangs pour le conformisme social se prÃ©sente dans l'ordre naturel :

Sujet	D	C	A	B	K	H	I	E	L	G	F	J
Â	Â	Â	Â	Â	Â	Â	Â	Â	Â	Â	Â	Â
Conformisme social	1	2	3	4	5	6	7	8	9	10	11	12
Autoritarisme	1	5	2	6	7	3	4	10	11	8	9	12

Nous pouvons alors dÃ©terminer la valeur de S :

S = (11 -0) + (7 -3) + (9 -0) + (6 - 2) + (5 - 2) + (6 -0) + (5 - 0) + (2 -2)

+ (1 -2) + (2 - 0) + (1 - 0) = 44

Connaissant S = 44 et N = 12 nous pouvons calculer

0,67

qui reprÃ©sente le degrÃ© de relation entre l'autoritarisme et le conformisme social de 12 Ã©tudiants.

Observations ex-Ã¦quo

Quand deux observations ou plus ont la mÃªme valeur soit pour une variable soit pour l'autre, nous utilisons la procÃ©dure habituelle : ces observations reÃ§oivent le rang moyen des rangs qu'elles auraient eu si elles n'avaient pas Ã©tÃ© liÃ©es. L'effet des ex-Ã¦quo consiste Ã modifier le dÃ©nominateur de la formule A

(A’)

L'effet correcteur est peu important. Ainsi dans un Ã©chantillon de 12 observations, l'une des variables prÃ©sente trois groupes de deux valeurs liÃ©es, deux sujets sont ex-Ã¦quo au rang 1,5, deux autres au rang 3,5 et deux au rang 10,5. Dans chaque cas, le nombre de valeurs ex-Ã¦quo est t = 2 et nous calculons Ty:

Les valeurs suivantes sont observÃ©es S = 25 et N = 12, Ty = 3 et Tx = 0, nous pouvons alors dÃ©terminer la valeur de

= 0,39

Si la correction n'avait pas Ã©tÃ© rÃ©alisÃ©e, en utilisant la formule A, nous aurions trouvÃ©

= 0,38.

Test de signification de

Si un Ã©chantillon est tirÃ© d'une population dans laquelle deux variables X et Y ne sont pas liÃ©es, et que les membres de l'Ã©chantillon sont rangÃ©s pour X et Y, alors pour tout ordre donnÃ© des rangs de X, tous les ordres possibles des rangs de Y sont Ã©galement observables.

Supposons que les rangs de X soient arrangÃ©s selon leur ordre naturel 1, 2, 3, ...., N. Pour cet arrangement des rangs de X, tous les N ! ordres possibles des rangs de Y sont Ã©galement probables sous H⁰. Par consÃ©quent, tout ordre particulier des rangs de Y a une probabilitÃ© associÃ©e de 1/ N!. Il est donc possible de calculer des tables de probabilitÃ©s pour chaque valeur de N. Cependant, cette mÃ©thode devient rapidement fastidieuse quand N augmente. Mais, quand N â‰¥ 8, la distribution d'Ã©chantillonnage de

est pratiquement comparable Ã celle de la distribution normale et la table de z peut Ãªtre utilisÃ©e.

Quand N est infÃ©rieur ou Ã©gal Ã 10, la table des valeurs critiques de S du coefficient de corrÃ©lation de Kendall (table 12) donne les probabilitÃ©s exactes d'obtenir un S donnÃ© (unilatÃ©ral). Si p est Ã©gal ou supÃ©rieur Ã a, H₀ peut Ãªtre rejetÃ©e.

Quand N est supÃ©rieur Ã 10,

peut Ãªtre considÃ©rÃ© comme normalement distribuÃ© avec une moyenne = 0

et un Ã©cart-type

Alors

Il faut alors dÃ©terminer la signification de z par rÃ©fÃ©rence Ã la table des z (Table 1).

Maintenant, les logiciels statistiques donnent la probabilitÃ© exacte (corrigÃ©e pour les ex-Ã¦quo) d’obtenir sous H₀ le z correspondant aux donnÃ©es. L’hypothÃ¨se nulle est alors rejetÃ©e si la probabilitÃ© exacte est Ã©gale ou infÃ©rieure au seuil de signification a choisi.

Exemple pour un Ã©chantillon de taille supÃ©rieure Ã 10

Nous avons d'ores et dÃ©jÃ calculÃ© la corrÃ©lation existant entre l'autoritarisme et le conformisme chez 12 Ã©tudiants

= 0,67.

Nous pouvons calculer

= 3,03

La table des z montre que z Ã©gal ou supÃ©rieur Ã 3,03 a une probabilitÃ© associÃ©e de pÂ =Â 0,0012. Nous pouvons rejeter H₀ Ã ce niveau de signification, et conclure que les deux variables sont associÃ©es dans la population Ã partir de laquelle l'Ã©chantillon a Ã©tÃ© extrait.

Exercice :

1. Calculer le coefficient de corrÃ©lation de Kendall et sa signification Ã partir des donnÃ©es sur la longueur du corps et la profondeur de poitrine chez les vaches laitiÃ¨res (

=0,39 ; z = 2,57 ; p = 0,0101).

Comparez ces rÃ©sultats avec ceux qui sont obtenus sur les mÃªmes donnÃ©es par le test de corrÃ©lation de Bravais-Pearson.

2. Deux experts, classant sÃ©parÃ©ment 10 Ã©chantillons de cidre, ont donnÃ© les ordres de prÃ©fÃ©rence suivants :

1er expert	2Ã¨me expert
1	3
2	1
3	4
4	2
5	6
6	5
7	9
8	8
9	10
10	7

Calculer le coefficient de corrÃ©lation, et concluez.

Le coefficient de corrÃ©lation de Spearman et celui de Kendall, bien que numÃ©riquement diffÃ©rents pour le mÃªme ensemble de donnÃ©es, ont un pouvoir identique de rejet de H₀.

7.3. Coefficient de corrÃ©lation de rang partiel de Kendall (The Kendall partial rank correlation coefficient)

Quand une corrÃ©lation est observÃ©e entre deux variables, il y a toujours la possibilitÃ© que cette corrÃ©lation soit due Ã l'association entre chacune des deux variables et une troisiÃ¨me variable.

Les effets de variation due Ã une troisiÃ¨me variable sur la relation entre deux autres variables X et Y sont Ã©liminÃ©s par une corrÃ©lation partielle. D'une autre faÃ§on, la corrÃ©lation entre X et Y est calculÃ©e alors que la troisiÃ¨me variable est maintenue constante.

En rÃ©alisant le protocole d'une expÃ©rience, nous avons l'alternative soit d'introduire des contrÃ´les expÃ©rimentaux de faÃ§on Ã Ã©liminer l'influence d'une troisiÃ¨me variable soit d'utiliser des mÃ©thodes statistiques pour Ã©liminer cette influence. Nous prÃ©sentons une mÃ©thode de contrÃ´le statistique qui peut Ãªtre utilisÃ©e avec le coefficient de corrÃ©lation de Kendall.

Principe

Supposons que trois variables (X, Y, Z) sont mesurÃ©es sur 4 sujets. Nous dÃ©sirons dÃ©terminer la corrÃ©lation entre X et Y quand Z est maintenu constant. Les rangs des variables sont

Sujet	a	b	c	d
rangs de Z	1	2	3	4
rangs de X	3	1	2	4
rangs de Y	2	1	3	4

Le nombre de paires de rangs possible de chaque variable est de 4 pris deux Ã deux. Ayant rangÃ©s les rangs de Z dans l’ordre naturel, nous observons chaque paire possible des rangs de X, des rangs de Y et des rangs de Z. Nous donnerons un signe + Ã chacune des paires pour lesquelles le rang le plus bas prÃ©cÃ¨de le plus hautÂ ; et un signe - Ã chacune des paires pour lesquelles le rang le plus Ã©levÃ© prÃ©cÃ¨de le rang le plus bas.

Paire	(a,b)	(a,c)	(a,d)	(b,c)	(b,d)	(c,d)
Z	+	+	+	+	+	+
X	-	-	+	+	+	+
Y	-	+	+	+	+	+

Ainsi, pour la variable X, le score pour la paire (a,b) est moins car les rangs de a et b, 3 et 1, ne sont pas dans l'ordre naturel.

Nous allons maintenant rÃ©sumer l'information dans un tableau Ã double entrÃ©e :

Total	A+C 5	B+D 1	6
	Paires de Y dont le signe concorde avec celui de Z	Paires de Y dont le signe ne concorde pas avec celui de Z	Total
Paires de X dont le signe concorde avec celui de Z	A 4	B 0	4
Paires de X dont le signe ne concorde pas avec celui de Z	C 1	D 1	2

ConsidÃ©rons les trois signes sous (a,b). Pour cet ensemble de rangs, X et Y ont tous deux un signe - alors que Z a un signe +. X et Y sont en dÃ©saccords avec Z. Cette information est placÃ©e dans la cellule D. Si l'on considÃ¨re la paire (a, c), le signe de Y est en accord avec celui de Z, mais le signe de X est en dÃ©saccord avec celui de Z. Ainsi, cette information est assignÃ©e Ã la cellule C. Dans chaque cas des paires restantes, le signe de Y et celui de X sont en accord avec celui de Z, les 4 paires sont placÃ©es dans la cellule A du tableau. Le coefficient de rang partiel de Kendall est calculÃ© Ã partir de ce tableau.

Il est dÃ©fini comme

(B)

Dans l'exemple des 4 objets considÃ©rÃ©s prÃ©cÃ©demment,

= 0,63

) est de 0,63.

= 0,67. Ceci suggÃ¨re que les relations entre X et Z et entre Y et Z n'influencent que faiblement la relation observÃ©e entre X et Y. Ce type d'infÃ©rence doit Ãªtre fait avec certaines rÃ©serves, Ã moins d'avoir des donnÃ©es pertinentes permettant de supposer quel effet est observÃ©.

dans cette expression suggÃ¨re que

MÃ©thode

(C)

Exemple

= 0,67.

= 0,39.

Ceci nous fait nous demander si la premiÃ¨re corrÃ©lation ne reprÃ©sente pas simplement l'intervention d'une troisiÃ¨me variable : la conformitÃ© aux groupes de pression.

Nous pouvons tester cette hypothÃ¨se en calculant le coefficient de corrÃ©lation partiel entre autoritarisme et le conformisme social, en maintenant constant l'effet du besoin de cÃ©der Ã la pression des groupes.

Â	Rangs
Sujet	Conformisme	Autoritarisme	ConformitÃ©
Â	X	Y	Z
A	3	2	1,5
B	4	6	1,5
C	2	5	3,5
D	1	1	3,5
E	8	10	5,0
F	11	9	6,0
G	10	9	7,0
H	6	3	8,0
I	7	4	9,0
J	12	12	10,5
K	5	7	10,5
L	9	11	12,0

= 0,67 et

= 0,39 et nous pouvons calculer

en utilisant la formule (C)

= 0,62

Le coefficient de corrÃ©lation partiel entre autoritarisme et conformisme social est de 0,62. Cette valeur est peu diffÃ©rente de celle de

= 0,67. Nous pouvons conclure que la relation entre l'autoritarisme et le conformisme social (mesurÃ©s avec ces Ã©chelles) est relativement indÃ©pendante de l'influence de la conformitÃ© Ã un groupe de pression.

Test de signification

La distribution d'Ã©chantillonnage du coefficient de corrÃ©lation partiel de Kendall n’est pas connue et donc aucun test de signification n'est possible.

Â

Â

Â
7.4. Coefficient de concordance de Kendall W (Kendall coefficient of concordance)

Quand on dispose, non pas de deux, mais de k distributions d'une mÃªme sÃ©rie d'individus en deux classes, la notion de corrÃ©lation de rang peut Ãªtre gÃ©nÃ©ralisÃ©e grÃ¢ce au coefficient de concordance. W exprime le degrÃ© d'association entre k variables.

Principe

Supposons que l'on demande Ã trois cadres de sociÃ©tÃ©s d’interviewer 6 demandeurs d'emploi et de les ranger sÃ©parÃ©ment suivant leurs capacitÃ©s Ã remplir le poste vacant. Les trois sÃ©ries indÃ©pendantes de rangs donnÃ©es par les trois cadres A, B, C sont exposÃ©es dans le tableau suivant :

Postulant
a b c d e f
Cadre A 1 6 3 2 5 4

Cadre B 1 5 6 4 2 3

Cadre C 6 3 2 5 4 1

Rj 8 14 11 11 11 8

	Postulant
	a	b	c	d	e	f
Cadre A	1	6	3	2	5	4
Cadre B	1	5	6	4	2	3
Cadre C	6	3	2	5	4	1
Rj	8	14	11	11	11	8

Si les trois cadres avaient Ã©tÃ© en parfait accord sur leur jugement des postulants, c'est-Ã -dire, s'ils les avaient rangÃ©s dans le mÃªme ordre, alors l'un des postulants aurait reÃ§u trois rangs 1 et sa somme de rangs serait de 3 = k. Le postulant suivant serait affectÃ© de la somme de rangs de 6 = 2 k et le moins performant des postulants serait affectÃ© de la somme de rangs de 18 = 6 k = N k. En gÃ©nÃ©ral, quand il y a accord parfait parmi les k sÃ©ries de rangements, nous obtenons, pour les sommes des rangs, les sÃ©ries k, 2k, 3k....Nk.

D'un autre cÃ´tÃ©, s'il n'y avait aucun accord parmi les cadres, les diffÃ©rentes sommes des rangs seraient approximativement Ã©gales. W, le coefficient de concordance, est une fonction de ce degrÃ© de variation.
MÃ©thode

Pour calculer W, nous cherchons la somme des rangs, Rj , de chaque colonne du tableau k x N. Puis, nous sommons les Rj et divisons cette somme par N pour obtenir la valeur moyenne de Rj. Enfin, nous calculons les dÃ©viations entre chaque Rj et la valeur moyenne et nous sommons les carrÃ©s de ces dÃ©viations s.

(D)

oÃ¹ s = somme des carrÃ©s des dÃ©viations entre les Rj observÃ©s et la moyenne de ces Rj.

k = nombre de sÃ©ries de rangements, nombre de juges.

N = nombre d'individus rangÃ©s

1/12 k² (N³ - N) = la somme s que l'on obtiendrait dans le cas d'un accord parfait entre les k rangements.

Ã€ partir des donnÃ©es prÃ©cÃ©dentes :

s = (8 -10,5)² + (14 - 10,5)² + (11 - 10,5)² + (11- 10,5)² + (11 - 10,5)² + (8 - 10,5)²= 25,5

et

0,16

Exemple

Kendall a donnÃ© un exemple oÃ¹ 10 objets sont rangÃ©s chacun pour 3 variables diffÃ©rentes X, Y, Z. Les rangs obtenus sont les suivants :

EntitÃ©s
Variable a b c d e f g h i j
X 1 4,5 2 4,5 3 7,5 6 9 7,5 10
Y 2,5 1 2,5 4,5 4,5 8 9 6,5 10 6,5
Z 2 1 4,5 4,5 4,5 4,5 8 8 8 10
Rj 5,5 6,5 9 13,5 12 20 23 23,5 25,5 26,5

La moyenne des Rj est 16,5.

s = (5,5 - 16,5)² + (6,5 - 16,5)² + (9 - 16,5)² + (13,5 - 16,5)² + (12 - 16,5)² + (20 - 16,5)² + (23 - 16,5)² + (23,5 - 16,5)²+ (25,5 - 16,5)² + (26,5 - 16,5)²= 591

	EntitÃ©s
Variable	a	b	c	d	e	f	g	h	i	j
X	1	4,5	2	4,5	3	7,5	6	9	7,5	10
Y	2,5	1	2,5	4,5	4,5	8	9	6,5	10	6,5
Z	2	1	4,5	4,5	4,5	4,5	8	8	8	10
Rj	5,5	6,5	9	13,5	12	20	23	23,5	25,5	26,5

Comme la proportion d'ex-Ã¦quo est importante, une correction est apportÃ©e au calcul de W.

(E)

oÃ¹
correspond Ã la somme des valeurs de T pour l’ensemble des ex-Ã¦quo

et et

pour le rangement de X : = 1

pour le rangement de Y : = 1,5

pour le rangement de Z : = 7

et la somme des T = 1 + 1,5 + 7 = 9,5

En utilisant la formule E, nous calculons W corrigÃ© pour les ex-Ã¦quo

= 0,828

Si nous n'avions pas tenu compte des ex-Ã¦quo, nous aurions trouvÃ© W = 0,796. Cette diffÃ©rence montre le faible effet des ex-Ã¦quo sur la valeur de W non corrigÃ©.

Test de signification de W

Petits Ã©chantillons

La distribution de s a Ã©tÃ© calculÃ©e et certaines valeurs critiques tabulÃ©es (Table des valeurs critiques de s pour le coefficient de concordance ; Table 13) pour des W significatifs aux seuils 0,05 et 0,01. Cette table est applicable pour k de 3 Ã 20 et N de 3 Ã 7.

Lorsqu’une valeur observÃ©e de s est Ã©gale ou supÃ©rieure Ã celle de la table pour un niveau de signification donnÃ©, alors H^o peut Ãªtre rejetÃ© Ã ce niveau de signification.

Dans le cas des 3 cadres jugeant 6 postulants, leur accord Ã©tait de W = 0,16. RÃ©fÃ©rence Ã la table prÃ©cÃ©dente rÃ©vÃ¨le que la valeur s associÃ©e Ã ce W (s = 25,5) n'est pas significative.

Grands Ã©chantillons

Quand N est supÃ©rieur Ã 7, l'expression donnÃ©e par la formule suivante F est approximativement distribuÃ©e comme un khi carrÃ© de ddl = N - 1

=

ou = k (N -1) W (F)

Si la valeur du calculÃ©e selon la formule F Ã©gale ou excÃ¨de celle de la table du khi carrÃ© pour un niveau de signification et un degrÃ© de libertÃ© donnÃ©e, l'hypothÃ¨se nulle peut Ãªtre rejetÃ©e Ã ce niveau de signification.

Exemple

Dans une Ã©tude de rangement des relations mÃ¨re-enfants de 20 mÃ¨res avec leur enfant sourd par le personnel soignant d'une institution (13), nous trouvons WÂ =Â 0,577, avec k = 13 et N = 20.

Nous calculons le = k (N -1) W = 13 (20 -1) (0,577) = 142,5

avec ddl = N - 1 = 20 - 1 = 19

La probabilitÃ© d'obtenir un tel est p < 0,001. Nous pouvons conclure que l'accord entre les 13 soignants n'est pas alÃ©atoire.