I. Notions élémentaires de la statistique inférentielles
L’inférence statistique désigne un ensemble de
méthode statistique permettant de formuler en terme probabiliste un
jugement sur une population à partir des résultats observés sur un
échantillon extrait au hasard de cette population. Autrement dit : désigne un ensemble de méthode qui
permettent de déterminer si oui ou non les résultats obtenus sur un
échantillon peuvent être extrapoler à l'ensemble de la population.
L'échantillonnage désigne l’extraction d'un
échantillon d'une population. Les techniques d'échantillonnages ont
pour but d'obtenir un échantillon aussi représentatif que possible
de la population.
L'indice est une entité numérique permettant de
résumer les différentes valeurs d'une variable. L'indice le plus
couramment utilisé est la moyenne (indice de position) mais il y'a
également le pourcentage, l'écart-type...
Un paramètre est une valeur donnée fixe d'un indice
dans la population étudiée. Ex : La taille
moyenne des français adulte est 165cm. Ici, la variable est la
taille ; l'indice est la moyenne et le paramètre est 165cm. Ce
paramètre à une valeur fixe car il provient de l'examen
exhaustif de tous les sujets de la population.
La statistique est la valeur particulière d'un
indice calculé sur un échantillon. Ex : La
moyenne de la taille des étudiants de ce groupe est 163cm. La valeur
de l'indice fluctue en fonction des échantillons (hasard) et on
obtient donc des statistiques différentes. Dans chaque échantillon,
une valeur statistique différente. C'est à partir d'une statistique
calculée sur un échantillon représentatif que l'on infère
statistiquement la valeur la plus probable du paramètre dans la
population.
La
distribution d'échantillonnage, c'est la distribution
d'un indice calculé sur tous les échantillons possibles. Ex :
La distribution de la moyenne de la taille dans tous les échantillons
d'adultes qu'il est possible de réaliser. C'est l'ensemble de toutes
les tailles moyennes. La distribution
d'échantillonnage désigne donc l'ensemble de toutes les
statistiques possibles de réaliser.
II.
Le raisonnement de l’inférence statistique
(cas
de l'inférence uni-variée sur une moyenne)
On veut connaître
la valeur d'un paramètre dans la population.
Ex :
On veut connaître la moyenne de la taille des français adulte. Mais
il est impossible de la connaître en la mesurant directement. Tout
simplement car il n'est pas possible d'aller mesurer directement tous
les français. Tout ce dont on peut disposer c'est d'une statistique
obtenue sur un échantillon restreint de français (exemple la
moyenne d'un échantillon).
→ Ce que l'on veut
connaître c'est la moyenne de tous les français adulte. (Le
paramètre dans la population). On ne peut avoir que la moyenne dans
un échantillon (statistique dans un échantillon).
> A partir d'une
théorie, on va formuler une hypothèse sur la valeur du paramètre
dans la population.
Ex :
On va postuler que la taille moyenne des français adulte est de
164cm. L'inférence statistique va nous permettre, ici, de savoir à
quel point notre hypothèse est plausible et probable en fonction de
la valeur de la statistique obtenue sur un échantillon restreint.
L'inférence va nous dire à quel point notre hypothèse est
compatible avec la valeur de la statistique obtenue sur un
échantillon restreint. Par exemple, si on postule que la moyenne de
la taille moyenne adulte est de 164cm (paramètre) et si on obtient
sur un échantillon une moyenne de 166cm (statistique) et bien
l'inférence statistique nous indique à quel point notre postulat
est compatible avec la statistique observée de 166cm. C'est à dire
qu'elle nous indique à quel point notre postulat est plausible.
III. Détail
du raisonnement inférentiel
Dans certains cas,
la distribution d'échantillonnage de l'ensemble de toutes les
statistiques possible suit une loi normale.
Ex :
Les différentes moyennes de taille que l'on peut obtenir dans les
différents échantillons de français adultes se distribuent selon
une loi normale. Or on connait les caractéristiques d'une
distribution à partir du moment où elle suit une loi normale, ce
qui veut dire que l'on peut réaliser des calculs de probabilités
permettant de tester la plausibilité du paramètre postulé étant
donnée la statistique observée.
On a une hypothèse
sur la population : Moyenne = 164cm (hypothèse, postulat). On
va tester cette hypothèse, c'est à dire que l'on va répondre à la
question suivante : A quel point la moyenne = 164 est plausible,
probable ? On ne peut tester cette hypothèse qu'a partir d'un
échantillon (parce que l'on n'a pas accès à toute la population).
On peut la tester qu'en la comparant à xbarre. On va donc répondre
à la question suivante : A quel point l'hypothèse moyenne =
164 (postulé sur l'échantillon) est compatible avec la valeur
xbarre est égale à 166 observée sur l'échantillon. Autrement, dit
la question que l'on se pose est la suivante : Est-ce que le
postulat théorique moyenne = 164 est compatible ou pas avec la
constatation empirique xbarre = 166. La question que l'on se pose est
la suivante : Est-ce que je conserve mon hypothèse mu = 164 car
je la juge suffisamment compatible, proche de mon observation xbarre
= 166 ou au contraire est-ce que je rejette cette hypothèse mu = 164
car elle est trop éloignée de xbarre = 166.
Le raisonnement est
le suivant : si l'hypothèse mu = 164 est vraiment vrai, quelle
est la probabilité d'obtenir xbarre = 166 ? C'est à dire que
ce qu'on le fait, on évalue si cette distance là est plausible,
normale ? Donc on mesure la probabilité d'obtenir un tel écart
(est-ce normal?).
→ P (xbarre ≥
166)
On va fixer un seuil de
probabilité alpha ( à 0,05% et on va comparer la probabilité
obtenue à ce seuil alpha. Deux cas possible : - Si
P>alpha, on va dire que l'hypothèse mu = 164 est plausible avec
les faits.
- Si P<alpha, on va dire que l'hypothèse mu = 164 n'est pas plausible, peu probable, pas compatible avec les faits.
On va utiliser la table
de la loi normale (p.26 du fascicule).
Aucun commentaire:
Enregistrer un commentaire