samedi 23 février 2013

Statistiques descriptives (L1 - Psychologie - Paris 8 - Pichat)

Bibliographie :

- Manuel de cours : Beaufils, B. (2009). Statistiques descriptives appliquées à la psychologie (2ème édition). Paris : Bréal.
- Manuel d'exercice : Beaufils, B. (2002). Statistiques descriptives appliquées à la psychologie : exercices résolus. Paris : Bréal.

I) Analyses univariée

Partie 1 :

Recueil des données :

Population : 
Définition : vaste ensemble d'unités statistiques regroupées au titre d'une caractéristique commune.
Exemples : la population peut être constituée d'objets particuliers (les HLM, les pièces fabriquées par une machine), d'événements (les accidents de la route), de personnes (les habitants de Paris, les agriculteurs, les personnes privées d'emploi, les personnes souffrant de troubles cardiaques).

Echantillon : 
Définition : fragment, sous ensemble de la population.

Unités statistiques : 
Définition : éléments (objets ou sujets) sur lesquels on va prélever une ou plusieurs information(s), sur lesquels on va opérer une ou plusieurs mesure(s).
Explication : les unités statistiques sont les éléments qui constituent un échantillon.

Variable : 
Définition : caractéristique étudiée chez les unités statistiques et susceptible de prendre différentes valeurs ou états.
Exemples : la taille, le QI, le poids, la note obtenue au baccalauréat de français, la couleur préférée.

Modalités :
Définition : ce sont les différent(e)s valeurs ou états possibles d'une variable.
Exemple : la variable "sexe" possède deux modalités : la modalité "homme" et la modalité "femme".

Propriétés : 
  • les différentes modalités d'une variable doivent être exhaustives : toute unité statistique mesurée doit être présente au moins dans une modalité possible de la variable.
  • les différentes modalités d'une variable doivent être exhaustives : toute unité statistique mesurée doit être présente au plus dans une modalité possible de la variable.
  • il en résulte donc que toute unité statistique mesurée doit être présente dans une et une seule modalité possible de la variable.
Explication : 
  1. les modalités possibles d'une variable sont l'ensemble des mesures qui peuvent a priori être assignées à une unité statistique.
  2. les modalités effectives d'une variable sont, au sein d'une étude donnée, l'ensemble des mesures qui sont réellement assignées aux unités statistiques impliquées.
Applicaiton :
Situation : un chercheur se demande si, en CM2, les garçons ont de meilleures performances en géographie que les filles (relation entre le sexe et la performance).
La population impliquée est...
L'échantillon est...
Les unités statistiques sont...
Une des deux variables est... Son nombre de modalités est... Ses différentes modalités sont...
L'autre variable est... Son nombre de modalités est... Ses différentes modalités sont...

Échelles de mesure :
Définition : ensemble des modalités d'une variable associé aux propriétés mathématiques qui leur sont inhérentes.

Echelle nominale :
Définition : une échelle de mesure est nominale (ou qualitative) si ses modalités sont des catégories non hiérarchisées.
Exemples de variables nominales : le sexe, les catégories socioprofessionnelles, les réponses  "oui"/"non"/"peut être" à un questionnaire, le fait d'habiter à la ville ou à la campagne, le département de naissance.
Particularité : une échelle nominale n'ayant que deux modalités est dite nominale dichotomique.

Echelle ordinale :
Définition : une échelle de mesure est ordinale si ses modalités sont des catégories hiérarchisées ne présentant pas de propriétés numériques.
Exemples de variables ordinales : le classement scolaire (1er, 2ème, 3ème, etc.), les réponses "pas du tout"/"un peu"/"moyennement"/"très"/"tout à fait" à un questionnaire, les classes d'âge, les catégories de revenu, les grades dans l'armée.

Echelle d'intervalle (rappelée improprement parfois numérique) :
Définition : une échelle de mesure est d'intervalle si ses modalités sont des nombres.
Propriété : les différentes modalités successives d'une échelle d'intervalle sont donc séparées par des intervalles égaux.
Exemples de variables d'intervalles : la note obtenue en mathématiques, la taille, le poids.

Tri à plat (tableau de distribution d'effectifs) :

Technique de construction d'un tri à plat :
  1. On construit un tableau au sein duquel on reporte sur la première ligne de toutes les modalités possibles de la variable.
  2. Sur la deuxième ligne, on fait correspondre, à chacune de ces modalités, l'effectif qui lui est associé.
  3. Sur la troisième ligne, on fait correspondre, à chacune de ces modalités, la fréquence, ou le pourcentage qui lui est associé.
  4. Si et seulement si la variable est ordinale ou d'intervalle : sur une quatrième, on indique la suite des effectifs cumulés croissants et sur une cinquième ligne, la suite des fréquences ou pourcentages cumulés croissants. 
Exercice : complétez les cellules vides
  • Fréquence d'une cellule = effectif de la cellule/effectif total
  • Pourcentage d'une cellule = 100*effectif de la cellule/effectif total = 100*fréquence de la cellule

Tableau  => effectifs, fréquences, pourcentages, effectifs cumulés croissants, fréquences cumulées croissantes, pourcentages cumulés croissants

Représentation graphique des données : diagramme, histogramme, polygone

Technique de réalisation d'un diagramme en étoiles ou en batons :


Etape n°1 :
On trace une ligne horizontale sur laquelle on reporte toutes les modalités possibles de la variable ainsi que le nom de cette variable à droite de cette ligne.
Remarque : s'il s'agit d'une variable nominale, on n'oriente pas la ligne horizontale (étant donné que l'ordre dans lequel on dispose les modalités de la variable sur cette ligne est totalement arbitraire), s'il s'agit d'une variable d'intervalles, on oriente (flèche) cette ligne horizontale et on respecte une échelle de graduation : la ligne devient alors un axe et il conviant d'y associer un repère (0).

Etape n°2 :
Diagramme en étoiles : au dessus de chaque modalité, on marque une étoile pour chaque unité statistique appartenant à cette modalité; le nombre d'étoiles est donc équivalent à l'effectif de la modalité. On peut également décider que chaque étoile représente un certain nombre d'unités statistiques plutot qu'une seule.
Diagramme en batons : on trace au dessus de chaque modalité un baton vertical dont la hauteur correspond à l'effectif, selon une échelle déterminée tracée sur l'axe vertical. On peut également indiquer l'effectif au dessus du baton. On peut tout aussi bien réaliser des diagrammes en batons d'effectifs, de fréquences ou de pourcentages.

Technique de réalisation d'un histogramme :

 

On utilise la même technique que celle relative au diagramme en batons, puis on "élargit" les batons obtenus.
Remarque : si l'échelle est nominale ou ordinale, les rectangles ne se touchent pas; si l'échelle est d'intervalles, les rectangles se touchent.

Technique de réalisation d'un polygone (d'effectifs, de fréquences ou de pourcentages) :


Note : un polygone ne peut être réalisé que si la variable est ordinale ou d'intervalle.
On réalise un diagramme en batons puis on joint les sommets successifs.
Un polygone peut être réalisé sur la base d'effectifs, de fréquences ou de pourcentages.
Il est possible de ne pas tracer les batons.

Technique de réalisation d'un diagramme à secteurs ou "camembert".

 

Cf fiche n°13.
Exemple : cf fichier Excel "Exemples de représentations graphiques".

Représentation numérique des données : indices de position 

Indice de position :
Définition : un indice de position permet de "remplacer", de "synthétiser" l'ensemble des valeurs prises par une variable par une valeur "typique" qui permet de résumer d'une façon (très) globale cet ensemble de valeurs.

Le mode : 
Définition : il s'agit de la modalité la plus fréquente de la distribution (représentée par le tri à plat).
Remarque : dans le cas d'échelles nominales, le mode (ou les modes) est le seul indice de position que l'on puisse utiliser.

La médiane :
Définition : au sein d'une distribution (cf. tri à plat) dont les modalités ont été rangées de manière croissante, la médiane est la modalité qui partage l'ensemble des observations en deux "moitiés" d'effectifs égaux, contenant donc chacune 50% des unités statistiques.
Remarques : une médiane ne peut être calculée que si la variable est au moins ordinale.
La médiane peut être une modalité réelle ou fictive.

La moyenne (arithmétique) :
Remarque : une moyenne ne peut être calculée que si la variable est d'intervalle.
Formule :
m = somme des observations / nombre d'observations
m = ∑x/n = ∑(chaque modalité*son effectif)/nombre d'observations

Représentation numérique des données : indices de dispersion

Indice de dispersion :
Définition : un indice de dispersion indique à quel point une distribution est regroupée (ramassée) ou, au contraire dispersée (étalée), autour de l'indice de position utilisé.
Remarque : un indice de dispersion d'une distribution nous indique donc la variabilité des observations constructives de cette distribution.

Intervalle de variation (étendue) :
Formule : Etendue = modalité effective la plus élevée - modalité effective la plus faible = x(max) - x(min)
Remarque : une étendue ne peut être calculée que si la variable est d'intervalle.
 

Les quartiles :
Définition : de même que la médiane découpe une distribution ordonnée en deux parties d'effectifs égaux, les quartiles sont les trois modalités (notées Q1, Q2, Q3) qui découpent la distribution en quatre parties d'effectifs égaux (c'est à dire contenant chacune 25% des observations).
Remarque : ces trois modalités (Q1, Q2, Q3) sont appelés les quartiles; ils peuvent être modalités réelles ou fictives.

L'écart type :
La moyenne associée à une distribution de nous donne pas suffisamment d'informations sur les valeurs effectives de cette distribution. Il nous faut savoir si les unités statistiques sont regroupées ou non autour de cette valeur moyenne.

Exemple : savoir que la moyenne d'une classe en mathématiques est de 10/20 ne nous dit rien en fait sur ses élèves : il se peut que les élèves soient des élèves moyens (ils ont des notes moyennes) ou il se peut que ces élèves soient des élèves extrêmes (une partie à de très bonnes notes, l'autre partie a de très mauvaises notes).

L'écart type apporte une réponse à ce problème : il nous indique, en moyenne (quadratique), à quel point les sujets sont regroupés ou non autour de la moyenne d'une distribution. Il indique la moyenne des positions des valeurs par rapport à la moyenne des valeurs sont en moyenne les différentes valeurs.

Exemple : si une classe a une moyenne de notes en mathématiques de 10 et un écart type de 2 alors les élèves de cette classe sont des élèves moyens car en moyenne, leurs notes sont soit de 8 soit de 12 (la classe est homogène). Si une autre classe à une même moyenne de 10 mais un écart type de 7 alors nous pouvons inférer que les élèves ont en moyenne des notes de 3 et de 17 ce qui dénote une classe composée d'élèves très forts et d'élèves très faibles (la classe est hétérogène).

Formule : écart-type = s = [(∑x² - (√∑)²) / n]

Remarque : ne pas confondre ∑x² et (∑x)² !

Représentation mixte numérique/graphique des données : représentation "boite et moustaches"


Partie 2 : La loi normale

Distribution :

Définition : la distribution d'une variable X (poids, taille, QI, scores, notes, préférences, etc.) est l'ensemble des valeurs xi que prend cette variable associé à l'ensemble des pourcentages (Pi) d'apparition de ces valeurs xi. Autrement dit, la distribution d'une variable X est l'ensemble des couples (xi, Pi).
Exemple : la distribution de la variable poids (des français) est l'ensemble des poids des français associé à l'ensemble des pourcentages d'apparition de ces poids : (50kg, 1,2%), (49kg, 2,5%), (51kg, 0,8%),... à l'infini gramme par gramme du plus petit poids au poids le plus élevé.

Loi normale :

- On s'est aperçu que certaines variables ont une distribtuion dite "normale" : aux paramètres m et s près, les couples (xi, Pi) sont toujours les mêmes. Autrement dit, aux paramètres m et s près, les différentes valeurs d'une variable à distribution normale apparaissent toujours avec le même pourcentage.

- Par "aux paramètres m et s près", on entend que ce sont en fait les couples ((xi - m)/s, Pi) qui sont toujours les mêmes. Autrement dit, lorsqu'on a une valeur xi donnée, on peut savoir quelle est son pourcentage d'apparition (Pi) en faisant simplement l'opération de "transformation" (xi - m)/s qui nous donne une valeur notée "z(xi)" à laquelle correspond toujours le même pourcentage Pi.

- Plus concrétement, cela veut dire que les pourcentages d'apparition des différentes valeurs d'une variable se répartissent toujours de la même façon par rapport à la moyenne de ces différentes valeurs. Autrement dit, il y a toujours le même pourcentage d'apparition à une distance donnée de la moyenne.

- En termes plus statistiques, on dit qu'il y a toujours le même pourcentage d'apparition à une même distance donnée en écart types de la moyenne.

- Note : la valeur (xi - m)/s indique bien la distance à la moyenne en unité d'écart types. Le résultat de l'opération (xi - m)/s est noté z(xi) pour indiquer que l'on a la valeur z qui correspond à xi.

- Graphiquement, une distribution normale est symétrique par rapport à la moyenne et à une forme de cloche. La décroissance des pourcentages de part et d'autre de la moyenne est d'abord rapide puis de plus en plus lente.

- Exemples graphiques : voir feuille.

Distribution normale centrée réduite :

Définition : une distribution normale pariculière est largement utilisée en statistiques : la distribution normal centrée réduite qui se caractérise par m = O et s = 1.

Exemple graphique : voir feuille.

Transformation de centration-réduction :

Pour connaitre le pourcentage (noté P(x>x0) de valeurs supérieures ou égales à une valeur x0, il convient de procéder comme suit :
  1. On "convertit" la valeur brute x0 en sa "traduction z" z0 en appliquant la formule : z0 = (x0 - m)/s. La valeur z0 obtenue est la "valeur centrée réduite".
  2. On cherche, au sein d'une table de la loi normale, le pourcentage (noté P(z>z0)) de valeurs z supérieures ou égales à z0.
  3. On applique le fait que P(x>x0) = P(z>z0).

Utilité :

- Cela permet de savoir avec quel pourcentage  on va obtenir une valeur donnée de n'importe quelle variable. Il suffit pour cela de soustraire la moyenne des valeurs à cette valeur et de diviser le résultat par l'écart type puis de regarder dans une "table de loi normale" le pourcentage associé à cette valeur z obtenue.
- En fait, pour des raisons mathématiques, une table de loi normale n'indique, non pas le pourcentage d'apparition de la valeur xi, mais le pourcentage de valeurs qui sont supérieures ou égales à xi. Par exemple on peut connaitre le pourcentage d'enfant de 8 ans qui ont un QI supérieur ou égal à 130.

Lecture de la table :

On lit les décimales dans les lignes, et les centièmes en colonnes. Par exemple, la valeur de P(z>1,65) se trouve à l'intersection de la ligne 1,6 et de la colonne 0,05 - on trouve P(z>1,65) = 0,0495*100 = 4,95%.

Exemple d'utilisation de la table normale centrée réduite : voir tableau.

II) Analyses bivariées

Notion de relations entre 2 variables :
Etude de la relation entre deux variables :

Définition : étudier la relation entre deux variables consiste à étudier dans quelle mesure le passage d'une modalité à une autre modalité sur une variable s'accompagne d'un changement de modalité sur l'autre variable.
Exemple : On peut se demander, par exemple, s'il existe une relation entre le fait de voter à droite ou à gauche et le fait d'être en faveur ou en défaveur d'un abaissement du niveau d'imposition.

Dépendance/Indépendance :
Indépendance : on dit que l'indépendance entre deux variables est imparfaite (ou que la relation est nulle) si un changement de modalité sur une variable ne s'accompagnent absolument pas d'un changement systématique de modalité sur l'autre variable.
Dépendance : on dit que la dépendance entre deux variables est parfaite (ou que la relation est totale) si un changement de modalité sur une variable s'accompagne d'un changement systématique de modalité sur l'autre variable.

Liaison, causalité et concordance :
Liaison et causalité : un lien, même fort, entre deux variables ne signifie pas systématiquement qu'il existe un lien de causalité entre ces deux variables.
Liaison et concordance : un lien, même fort, entre deux variables ne signifie pas systématiquement qu'il existe un lien de concordance entre ces deux variables.

Variables repérée et manipulées :
Variable repérée : une variable est dites repérée (ou invoquée) si le chercheur ne décide pas que les sujets seront dans telle ou telle modalité de la variable. Exemple : le sexe.
Variable manipulée : une variable est dites manipulée si le chercheur décide que les sujets seront dans telle ou telle modalité de la variable. Exemple : le fait d'être dans un groupe témoin ou expérimental.
Remarque : il n'est possible de parler de causalité à partir d'une expérience que si une (ou plusieurs) variable est manipulée.

Variables indépendantes et indépendantes :
Variable indépendante : les conditions initiales ayant potentiellement le statut de "causes" sont associées à des variables indépendantes.
Variable dépendante : les conditions résultantes ayant potentiellement le statut d'"effets" sont associées à des variables dépendantes.

Etude de relation entre deux variables normales :

Objectif : 
Démarche : on dispose du tableau (dit tableau des données brutes) à double entrée ci dessous et on désire étudier la relation entre le sexe des sujets et leur performance au baccalauréat.

Tableau des effectifs théoriques :
Démarche : on va réaliser un tableau fictif, dit tableau des effectifs théoriques. Ce tableau correspond aux effectifs "théoriques" que l'on devrait  avoir s'il n'y avait absolument aucun relation entre les deux variables, c'est à dire si le pourcentage de réussite était le même chez les garçons et chez les filles (en respectant le fait que le nombre de garçon n'est pas égal à celui des filles).
Formule de construction du tableau des effectifs théoriques : effectif théorique d'une cellule : total de la ligne * total de la colonne / total des effectifs.
Vérification : les totaux de lignes et de colonnes du tableau des effectifs théoriques doivent être les mêmes que ceux du tableau des données brutes.

Tableau des écarts bruts :
Démarche : on va comparer le tableau des effectifs bruts avec celui des effectifs théoriques, afin de savoir à quel point ils sont similaires ou différents. Cela nous permettra de savoir à quel point il existe une relation entre les deux variables : plus les tableaux sont différents et plus il existe une relation entre les deux variables; inversement, plus les tableaux sont similaires et moins il existe une relation entre les deux variables.
Formule de construction du tableau des écarts bruts : écart brut d'une cellule = effectif brut de cette cellule - effectif théorique de cette cellule.
Vérification : les totaux de lignes et de colonnes du tableau des écarts bruts doivent être égaux à 0.
Résultat : voir tableau.

Tableau des écarts pondérés :
Démarche : l'écart pondéré de chaque cellule du tableau des écarts pondérés nous indique si cette cellule contient plus ou moins de sujets qu'elle ne devrait en contenir s'il y avait indépendance entre les deux variables.
Formule de construction du tableau des écarts pondérés : écart pondéré d'une cellule = écart brut de cette cellule / effectif théorique de cette cellule.
Sur-représentation : un écart pondéré positif et important indique que la cellule contient "nettement" plus de sujets qu'elle ne devrait en contenir s'il y avait indépendance entre les deux variables : elle contribue à expliquer la signification de la relation.
Sous-représentation : un écart pondéré négatif et important en valeur absolue indique que la cellule contient "nettement" moins de sujets qu'elle ne devrait en contenir s'il y avait indépendance entre les deux variables : elle contribue à expliquer la signification de la relation.
Résultat ; voir tableau.
Analyse des sur et sous-représentations : on analyse les 50% des sur et sous-représentations les plus fortes en valeur absolue. On constate dans le tableau ci dessus qu'on a une sur-représentation (0,43) de garçons en échec : la relation entre les deux variables existe dans le sens où les garçons tendent à échouer. De même, on constate dans le tableau ci dessus qu'on a une sous-représentation (-0,29) de garçons réussissant : la relation entre les deux variables existe dans le sens où les garçons peut à réussir.

Calcul du "chi²" :
Fonction : le chi² mesure numériquement l'écart, la distance entre le tableau des données brutes et celui des effectifs théoriques.
Interprétation : plus le chi² est proche de 0, et plus les deux tableaux sont proches : cela va donc dans le sens de l'indépendance entre les deux variables. Inversement, plus le chi² est élevé, et plus les deux tableaux sont différents : cela va donc dans le sens de l'existence d'une relation entre les deux variables.
Formule de calcul du chi²:
X² = E (effectifs bruts - effectifs théoriques)² / effectifs théoriques
Résultat : X² = (-12)² + (12)² + (12)² + (-12)² = 13,19
Force de la relation :
Fonction : le coefficient de contingence "C" indique la force de la relation entre les deux variables. Il varie de 0 (force nulle) à 0,707 (force maximale).
Formule de calcul du coefficient C : C = Racine de (X²/(X²+N))
Résultat : C = Racine de (13,19/13,19+200)) = 0,25


Etude de la relation entre deux variables numériques :

=> Analyse graphique d'une corrélation :

Construction du graphique de corrélation linéaire :
Construire un graphique avec deux axes perpendiculaires, chaque axe représentant une variable.
Indiquer les modalités possibles sur chaque axe puis placer chaque unité statistique en fonction de sa position (coordonnées) pour chaque variable.
Reporter sur chaque axe une droite perpendiculaire correspondant à la moyenne associée à cet axe.
Résultat : voir graphique.

Analyse de la direction du nuage de corrélation :
Corrélation positive : si le nuage de points (formé en entourant l'ensemble des points) forme une ellipse de direction SO/NE, la corrélation entre les deux variables est négative : plus une variable augmente et plus l'autre variable diminue.
Exemple : corrélation positive.

Analyse de la forme de nuage de corrélation :
Corrélation forte : plus le nuage de points (formé en entourant l'ensemble des points) forme une ellipse aplati, plus la corrélation entre les deux variables est forte.
Corrélation faible : plus le nuage de points forme un cercle, plus la corrélation entre les deux variables est faible.
Exemple : corrélation assez forte.

Analyse des quadrants :
Technique : on découpe le graphe de corrélation de 4 quadrants (Q1, Q2, Q3, Q4) à partir des deux droites moyennes tracées. On détermine dans chaque quadrant le "nombre de sujets qui comptent" (c'est à dire qui ne sont pas trop proches des droites moyennes).
Interprétation : une majorité de sujets dans les quadrants Q3 et Q2 indique une corrélation positive entre les deux variables, une majorité de sujets dans les quadrants Q1 et Q4 indique une corrélation négative entre les deux variables. Plus l'écart entre (Q3UQ2) et (Q1UQ4) est important et plus la corrélation est forte.
Exemple : voir feuille.
Analyse : voir feuille.

=> Analyse numérique d'une corrélation :
Le coefficient de corrélation linéaire de Bravais-Pearson :
Formule : r(bp) = [(∑ x*y) - (∑x*∑y)/n] / [∑x² - (∑x)²/n * √∑y² - (∑y)²/n]
Interprétation du signe de la corrélation : si r est positif, la corrélation entre les deux variables est positive; si r est négatif, la corrélation entre les deux variables est négative.
Interprétation de la force de la corrélation : si r est proche de 1 en valeur absolue, la corrélation entre les deux variables est forte; si r est proche de 0 en valeur absolue, la corrélation entre les deux variables est faible (r varie -1 et 1).
Exemple : r(bp) = (12281 - 1026*1143/100) / (√12084 - 1026²/100 * √14269 - 1143²/100) = 553,82/ 39,48 * 34,71 = 0,4.
Analyse : r(bp) = 0,4 : la corrélation entre les deux variables est positive (car r est positif) et de force moyenne (car r = 0,4). 

Etude de la relation entre une variable numérique et une variable nominale : 
Technique : on compare deux représentations boite et moustaches apposées l'une à côté de l'autre, au sein d'un même graphique.

Les exercices du livre :

http://books.google.fr/books?id=UlmpioDQWXIC&pg=PA105&lpg=PA105&dq=TABLe+bilat%C3%A9rale&source=bl&ots=WPZV7Ju-5g&sig=_HAYAuZbm_NA_AzgsjdUMDcFbhQ&hl=fr&sa=X&ei=noWiUfDfGIfLhAf06YDABg&ved=0CIQBEOgBMA0#v=onepage&q=TABLe%20bilat%C3%A9rale&f=false

Aucun commentaire:

Enregistrer un commentaire