dimanche 9 mars 2014

Statistiques Inférentielles

I. Notions élémentaires de la statistique inférentielles


L’inférence statistique désigne un ensemble de méthode statistique permettant de formuler en terme probabiliste un jugement sur une population à partir des résultats observés sur un échantillon extrait au hasard de cette population. Autrement dit : désigne un ensemble de méthode qui permettent de déterminer si oui ou non les résultats obtenus sur un échantillon peuvent être extrapoler à l'ensemble de la population.

L'échantillonnage désigne l’extraction d'un échantillon d'une population. Les techniques d'échantillonnages ont pour but d'obtenir un échantillon aussi représentatif que possible de la population.

L'indice est une entité numérique permettant de résumer les différentes valeurs d'une variable. L'indice le plus couramment utilisé est la moyenne (indice de position) mais il y'a également le pourcentage, l'écart-type...

Un paramètre est une valeur donnée fixe d'un indice dans la population étudiée. Ex : La taille moyenne des français adulte est 165cm. Ici, la variable est la taille ; l'indice est la moyenne et le paramètre est 165cm. Ce paramètre à une valeur fixe car il provient de l'examen exhaustif de tous les sujets de la population.

La statistique est la valeur particulière d'un indice calculé sur un échantillon. Ex : La moyenne de la taille des étudiants de ce groupe est 163cm. La valeur de l'indice fluctue en fonction des échantillons (hasard) et on obtient donc des statistiques différentes. Dans chaque échantillon, une valeur statistique différente. C'est à partir d'une statistique calculée sur un échantillon représentatif que l'on infère statistiquement la valeur la plus probable du paramètre dans la population.

La distribution d'échantillonnage, c'est la distribution d'un indice calculé sur tous les échantillons possibles. Ex : La distribution de la moyenne de la taille dans tous les échantillons d'adultes qu'il est possible de réaliser. C'est l'ensemble de toutes les tailles moyennes. La distribution d'échantillonnage désigne donc l'ensemble de toutes les statistiques possibles de réaliser.


II. Le raisonnement de l’inférence statistique
(cas de l'inférence uni-variée sur une moyenne)

On veut connaître la valeur d'un paramètre dans la population.
Ex : On veut connaître la moyenne de la taille des français adulte. Mais il est impossible de la connaître en la mesurant directement. Tout simplement car il n'est pas possible d'aller mesurer directement tous les français. Tout ce dont on peut disposer c'est d'une statistique obtenue sur un échantillon restreint de français (exemple la moyenne d'un échantillon).
→ Ce que l'on veut connaître c'est la moyenne de tous les français adulte. (Le paramètre dans la population). On ne peut avoir que la moyenne dans un échantillon (statistique dans un échantillon).

> A partir d'une théorie, on va formuler une hypothèse sur la valeur du paramètre dans la population.
Ex : On va postuler que la taille moyenne des français adulte est de 164cm. L'inférence statistique va nous permettre, ici, de savoir à quel point notre hypothèse est plausible et probable en fonction de la valeur de la statistique obtenue sur un échantillon restreint. L'inférence va nous dire à quel point notre hypothèse est compatible avec la valeur de la statistique obtenue sur un échantillon restreint. Par exemple, si on postule que la moyenne de la taille moyenne adulte est de 164cm (paramètre) et si on obtient sur un échantillon une moyenne de 166cm (statistique) et bien l'inférence statistique nous indique à quel point notre postulat est compatible avec la statistique observée de 166cm. C'est à dire qu'elle nous indique à quel point notre postulat est plausible.

III. Détail du raisonnement inférentiel

Dans certains cas, la distribution d'échantillonnage de l'ensemble de toutes les statistiques possible suit une loi normale.
Ex : Les différentes moyennes de taille que l'on peut obtenir dans les différents échantillons de français adultes se distribuent selon une loi normale. Or on connait les caractéristiques d'une distribution à partir du moment où elle suit une loi normale, ce qui veut dire que l'on peut réaliser des calculs de probabilités permettant de tester la plausibilité du paramètre postulé étant donnée la statistique observée.

On a une hypothèse sur la population : Moyenne = 164cm (hypothèse, postulat). On va tester cette hypothèse, c'est à dire que l'on va répondre à la question suivante : A quel point la moyenne = 164 est plausible, probable ? On ne peut tester cette hypothèse qu'a partir d'un échantillon (parce que l'on n'a pas accès à toute la population). On peut la tester qu'en la comparant à xbarre. On va donc répondre à la question suivante : A quel point l'hypothèse moyenne = 164 (postulé sur l'échantillon) est compatible avec la valeur xbarre est égale à 166 observée sur l'échantillon. Autrement, dit la question que l'on se pose est la suivante : Est-ce que le postulat théorique moyenne = 164 est compatible ou pas avec la constatation empirique xbarre = 166. La question que l'on se pose est la suivante : Est-ce que je conserve mon hypothèse mu = 164 car je la juge suffisamment compatible, proche de mon observation xbarre = 166 ou au contraire est-ce que je rejette cette hypothèse mu = 164 car elle est trop éloignée de xbarre = 166.

Le raisonnement est le suivant : si l'hypothèse mu = 164 est vraiment vrai, quelle est la probabilité d'obtenir xbarre = 166 ? C'est à dire que ce qu'on le fait, on évalue si cette distance là est plausible, normale ? Donc on mesure la probabilité d'obtenir un tel écart (est-ce normal?).
→ P (xbarre 166)
On va fixer un seuil de probabilité alpha ( à 0,05% et on va comparer la probabilité obtenue à ce seuil alpha. Deux cas possible : - Si P>alpha, on va dire que l'hypothèse mu = 164 est plausible avec les faits.
                    • Si P<alpha, on va dire que l'hypothèse mu = 164 n'est pas plausible, peu probable, pas compatible avec les faits.
On va utiliser la table de la loi normale (p.26 du fascicule).

Aucun commentaire:

Enregistrer un commentaire