Introduction aux Statistiques


Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le Berre M. & Le Guelte L.



9. Compléments et Glossaire

Le calcul des probabilités déduit, de la connaissance exacte des probabilités, les conséquences relatives aux diverses éventualités susceptibles de se produire.

Alors qu'en statistique les probabilités exactes sont inconnues et doivent être recherchées à partir des données de l'observation. On voit la liaison entre les deux. L'étude statistique d'une série d'observations permet, par voie inductive, de formuler une hypothèse concernant l'existence de probabilités théoriques; par ses méthodes d'analyse déductive, le calcul des probabilités indique dans quelle mesure les observtions sont en accord avec cette hypothèse.

calculatrice &ecute;lectronique de poche. invention en 1972 par J.S. Kilby, J.D. Merryman et J.H. Van Tassel, USA.

Les chiffres non significatifs qui indiquent uniquement l'ordre de grandeur d'un nombre dont la valeur est approchée. Les nombres 5.903 ; 1,207 ; 0,580 ; 0,0018 ont respectivement 4, 4, 3 et 2 chiffres significatifs (en caractères gras).

La somme et la différence de deux ou plusieurs nombres décimaux approchés possède autant de décimales exactes que le terme initial qui en possède le moins. Ainsi 10,7 + 5,897 - 892,42 = 909,017 mais le résultat correctement agrandi s'écrira 909,0. Le résultat du produit ou de du quotient de deux ou plusieurs valeurs approchées (ou des racines carrées) s'écrit avec autant de chiffres significatifs que le facteur qui en possède le moins.

Classe

Sous-ensemble d'éléments d'une population sur lesquels on considère qu'une variable déterminée à la même mesure, à une approximation près dite intervalle de classe.

L'écart-type ou écart quadratique moyen ou déviation standard, Standard deviation
paramètre de dispersion, est la racine carré de la variance (moyenne arithmétique des carrés des écarts par rapport à la moyenne).

L'échantillon est un sous ensemble des éléments d'une population choisis au hasard parmi celle-ci. Dans la mesure où l'on est souvent conduit à étudier la distribution de caractères dans des populations très nombreuses la statistique étudie des échantillons à partir desquels elle cherche à estimer les paramètres de l'ensemble de la population.

échantillonnage aléatoire et simple L'échantillonnage ou le sondage est l'ensemble des opérations qui ont pour objet de prélever dans une population les individus qui doivent constituer un échantillon. Un échantillon est dit aléatoire lorsque tous les individus de la population ont une même probabilité de faire partie de l'échantillon. Il est simple lorsque les individus qui doivent former l'échantillon sont tous prélevés indépendamment l'un de l'autre. Différents procédés permettent d'assurer le caractère aléatoire des échantillons, le plus courant est l'emploi de tables de nombres aléatoires, que l'on trouve dans les manuels de statistiques (Dagnélie1969, table B, p358-359). Par exemple, si on veut mesurer la pollution d'un étang dont on possède le plan, on établit un quadrillage en utilisant du papier millimétré et on détermine, à l'aide d'une table de nombres aléatoires, les coordonnées du nombre voulu de points de prélévements d'eau. Ces tables sont constituées de listes de nombres telles que tous les chiffres soient présents dans l'ensemble un même nombre de fois. Pour assurer le caractère aléatoire du prélévement d'un échantillon, on associe chaque individu de la population à un ou plusieurs groupes de chiffres. On lit ensuite les nombres de la table, à partir d'un point arbitraire, et on inclut dans l'échantillon les individus dont le numéro apparaît.

La fréquence d'un caractère est le nombre d'individus qui le possèdent. La fréquence relative s'obtient en divisant la fréquence par le nombre total d'individus; on peut également l'exprimer en pourcentages. Exemple : Dans une population de 6.800 individus, on a dénombré 1.768 individus à yeux bleus et blonds et 807 à yeux bleus et bruns, la fréquence du caractère yBBl est 1.768 et sa fréquence relative est 1.768 / 6.800 = 0,26 ou 26 %; celle du caratère yBBr est de 807 et sa fréquence relative est de 807 / 6.800 = 0,118 ou 11,8 %. Les fréquences marginales sont les fréquences figurant dans les lignes total d'un tableau à deux variables; elles constituent deux distributions marginales qui indiquent le nombre d'individus ayant un caractère déterminé (une certaine couleur de cheveux) indépendamment de toute hypothèse sur le deuxième caractère (couleur des yeux). Dans le cas de variables mesurables, on obtient les fréquences cumulées en sommant les individus pour lesquels la variable est inférieure ou égale à une valeur donnée.

Groupe est un sous ensemble des éléments d'une population que l'on a distingué par une modalité commune.

hypothèses : proposition relative à l'explication d'un phénomène sensible, naturel ou expérimental, admise provisoirement avant d'être soumise au contrôle de l'expérience : supposition à vérifier par des traitements objectifs et probabilistes.

Pour que l'indépendance des observations soit respectée, il faut :
- soit remettre, après chaque tirage, la boule ou la carte dans l'urne ou le jeu et brasser soigneusement l'ensemble des boules ou du jeu, dans le cas du tirage d'une boule dans une urne contenant des boules blanches et noires dans certaines proportions ou de cartes dans un jeu de cartes à jouer,
- soit supposer que l'on a affaire à une "urne illimitée", contenant un nombre tellement grand de boules que l'extraction de l'une d'elles ne modifie pratiquement pas les proportions données.

La connaissance de la moyenne et de l'écart-type suffisent à définir complètement la loi de répartition de la loi de Gauss.

machine à calculer permettant l'addition (et la soustraction par complément) : Invention en 1639 par Pascal, France. Multiplication par additions successives : Moreland, Angleterre, 1666. Contrôle des métiers à par carton perforé, 1762 France. Exécution directe des 4 opérations, Hahn, 1770, Allemagne. Définition des principes des calculatrices électroniques, Babbage, 1833, Angleterre. Calcul binaire, Boole 1854, Angleterre. Machine à cartes perforées, Hollerith Powers (USA). Calculateur automatique Mark 1 (Université Harvard), 1944.

On appelle population l'ensemble des individus auxquels on s'intéresse, et échantillon la fraction de cette population qui est réellement observée.

Par exemple :
- Pour les instituts de sondage, la population étudiée sera un ensemble d'hommes et de femmes occupant une portion définie de l'espace (pays, région, commune) et l'échantillon " représentatif" sera un nombre limité mais représentatif des catégories pertinentes en fonction du problème posé (âge, sexe, catégories socio-professionnelles, origine géographique, etc.) (pour la France, échantillons de 1000 à 1200 individus pour une population de près de 60 millions d'habitants).
- Toute l'eau qui s'écoule d'une rivière à un moment donné constitue la population - les 20 prélèvements de 10 cm3 que l'on va analyser constituent l'échantillon.

(Processus stochastiques

Ils ne permettent que des prédictions statistiques et non absolues, du fait de la complexité des systèmes hiérarchiques, du nombre élevé des options possibles à chaque étapes, et des innombrables interactions entre les processus se produisant simultanément. Ils appartiennent cependant au mode de la causalité, tout comme les processus déterministes.

statistiques : Dérivé du latin Status (état). Statistique est un terme qui apparaît en France en 1785, à partir de l'allemand Statistik, du latin moderne statisticus " relatif à l'État".

Ce terme a deux significations :

Il désigne tout ensemble cohérent de données numériques concernant une catégorie de faits : statistiques économiques, démographiques, écologiques...).
Statistique correspond à l'ensemble des méthodes qui permettent de rassembler et d'analyser les données numériques précédentes.

Statistique essentialiste : elles essayent d'atteindre les vraies valeurs, afin d'effacer les effets perturbateurs de la variation. Quételet recherchait des lois déterministes et espérait calculer les caractéristiques de "l'homme moyen", c'est-à-dire de découvrir l'essence (le type) de l'homme. Les variations n'étaient que des "erreurs" autour de la moyenne.

Statistique populationnelle : Les valeurs moyennes attachés à des populations biologiques pleines de variabilité ne sont que des artifices de calcul. Les différences dans un groupe de personnes ne relèvent pas de l'imperfection des mesures, mais sont bien réelles. Le paramètre le plus important, dans la statistique relative à une population naturelle donnée, est la variation réelle, en quantité et en genre.

taille de l'échantillon N. Détermination du nombre de mesures
Dagnélie 1969, 1 : 324-325.

Le problème se pose de déterminer le nombre de mesures nécessaires pour atteindre lors de l'estimation d'un paramètre, une précision donnée. Cette question est étroitement liée à la notion d'intervalle de confiance, puisque la longueur d'un tel intervalle est directement fonction de l'effectif de l'échantillon considéré.

Variabilité

la statistique est un ensemble de méthodes visant à décrire, à résumer et à interpréter des phés;nomènes dont le caractère essentiel est la variabilité.

Ecart-type ou écart quadratique moyen ou déviation standard : Standard deviation
échantillon : Sample
échantillonnage : Sampling
Erreur de seconde espèce : Second kind error, bêta-error.
Erreur de première espèce : First kind error, alpha-error
Hypothèse alternative (H1) : Non-null hypothesis ou Alternative hypothesis
Hypothèse nulle (H0) : Null hypothesis
Homoscédasticité : Homoscedasticity
Niveau de signification (alpha ) : Significance level
Population : Population
Pouvoir d'un test : Test power
Région d'acceptation ou de non-rejet : Acceptance region
Région de rejet ou domaine de rejet ou région critique: Rejection region
Seuil de signification ou valeur critique : Significant point ou Critical value
Tests d'ajustement : Test of goodness of fit
Test binomial : Binomial test
Test d'hypothèses ou tests de signification : Test of hypothesis ou Significance tests
Tests statistiques bilatéraux :Double-tailed test ou two-sided test
Tests unilatéraux : Single-tailed test ou one-sided test

Acceptance region : Région d'acceptation ou de non-rejet
Binomial test : Test binomial
Double-tailed test or two-sided test : Tests statistiques bilatéraux
Double-tailed test or two-sided test : Tests statistiques bilatéraux
First kind error, alpha-error : Erreur de première espèce
Homoscedasticity : Homoscédasticité
Non-null hypothesis or Alternative hypothesi s : Hypothèse alternative (H1)
Null hypothesis : Hypothèse nulle (H0)
Rejection region or critical region : Région de rejet
Sample : échantillon
Sampling : échantillonnage
Second kind error, bêta-error . : Erreur de seconde espèce
Significance level : Niveau de signification (alpha)
Significant point or Critical value : Seuil de signification ou valeur critique
Standard deviation : Ecart-type ou écart quadratique moyen ou déviation standard
Test of goodness of fit : Tests d'ajustement
Test of hypothesis ou Significance tests : Test d'hypothèses ou tests de signification
Test power : Pouvoir d'un test


Sommaire