vendredi 18 avril 2014

Initiation à la Méthode des tests

I - DEFINITION

Les tests sont des dispositifs d’observation permettant de mettre en évidence des différences entre les individus. Ils peuvent être utilisés à des fins de recherche ou d’application, ils sont un élément des examens psychologiques. On distingue :

1) Les tests d’aptitude : Ils portent sur des aspects globaux ou analytiques du fonctionnement intellectuel, de son développement et de son efficience ou des tests psychomoteurs. Il s’agit également des tests construits afin de voir si un individu possède les caractéristiques permettant de réussir dans une formation ou une activité professionnelle.

2) Les tests de personnalité : Ils comportent des tests dits « objectifs » dans lesquelles, à partir de l’observation des conduites, on repère des manières habituelles de se comporter et les tests projectifs dans lesquelles à partir de la structuration d’un matériel ambigu, le sujet projette sa personnalité.

3) Les tests de connaissances scolaires ou professionnelles.
On peut également inclure les questionnaires de personnalité et les inventaires d’intérêts et de valeurs dans lesquels on recueille la description que le sujet se fait de lui-même.
Les tests peuvent être appliqués individuellement ou collectivement. Les tests où le sujet manipule un matériel sont des tests individuels. Les tests collectifs sont des tests où le sujet fournit sa réponse par écrit (test « papier-crayon »).
En général, on situe les individus sur des dimensions (Aptitudes, traits de personnalité, intérêts..) et ce dans un objectif de comparaison. Cette approche est dite normative. Par contre, on peut aussi caractériser les individus sans chercher à les comparer en décrivant leur singularité. Cette approche est dite idiographique. EX : le Q-sort : Une série de descripteurs de personnalité.

 II - OBSERVATION ET MESURE

L’observation est l’investigation d’un phénomène sans que le chercheur puisse intervenir dans le déroulement du phénomène pour en varier les facteurs, auquel cas il expérimente.
 
A- L’observation standardisée
Les procédures d’observation peuvent être placées sur un continuum avec à l’un un pôle l’observation libre et à l’autre une observation contrainte.  Observation libre : L’observateur n’a pas de règles, et les conditions de l’observation et les indications sont très variables et dépendent des circonstances. On peut observer des choses très différentes que l’on ne soupçonnait pas, la manière de caractériser la conduite du sujet relève de la décision de l’observateur.  Observation contrainte : Elle correspond à la situation de test. La situation est bien définie, les consignes sont spécifiées à l’avance, et le mode de caractérisation du sujet est explicité.  La standardisation est poussée à son maximum avec les tests de groupe utilisant des questions à choix multiples (QCM) : les sujets sont des conditions rigoureusement identiques et la correction se limite au relevé des bonnes réponses, de même, lorsque les tests sont informatisés.  La standardisation est moins stricte dans les tests individuels : Dans le cas d’un test de vocabulaire où le sujet doit fournir des définitions des mots. Certes, un barème accompagné de nombreux exemples, permet de coter les réponses fournies. Mais il n’est pas toujours aisé de faire entrer dans une catégorie du barème une réponse particulière. Par ailleurs, on n’indique pas jusqu’où l’observateur doit aller pour faire préciser une définition ou donner la possibilité au sujet de modifier sa réponse.  La standardisation est moins poussée dans les tests projectifs et plus particulièrement la cotation des réponses. Il existe cependant pour ces épreuves des procédures parfaitement objectives (Test de Rorschach).
La fonction de la standardisation est de permettre la comparabilité des sujets aux résultats d’une épreuve et de s’assurer que leurs différences ne relèvent pas des aléas de la situation ou de la subjectivité de l’observateur. L’épreuve doit répondre à de règles strictes de passation et de cotation. L’observateur doit suivre le manuel de passation et de cotation. L’observation standardisée est dite « objective » lorsqu’il y a accord entre les observateurs.

B- Les items
Les items sont des questions, des problèmes ou des tâches à effectuer. Le choix des items dépend des objectifs visés par le constructeur et de ses conceptions psychologiques et obéit à certaines considérations pratiques. Les objectifs visés peuvent consister à évaluer l’efficience dans un secteur particulier du fonctionnement cognitif (capacité verbale/visuelle), à évaluer le niveau scolaire des élèves, à identifier la source de certaines difficultés d’apprentissage, à sélectionner du personnel, à caractériser le sujet sur plusieurs traits de personnalité.
Le fait de définir les objectifs permet de restreindre la population des items possibles, les conceptions psychologiques permettent de la restreindre encore. Si le constructeur ne dispose pas de théorie, les items proviendront de la psychologie commune. S’il dispose de théorie, celle-ci donnera des indications sur la nature des items à retenir (Ex. Test introversion-extraversion : théorie structurale de Hans).

Le test doit être attrayant, mais il ne doit pas être trop long, il ne doit pas non plus impliquer la mis en oeuvre d’un matériel couteux et sophistiqué.

 Quels formats les items peuvent prendre?

a) 1er format : Le sujet peut produire librement la réponse : On peut lui demander de dire ce qu’il voit sur une image et analyser son discours pour évaluer sa capacité d’énumération, de description, d’interprétation. On peut lui présenter plusieurs images et lui demander de les ordonner afin d’évaluer sa capacité à pouvoir raconter une histoire cohérente.

b) 2ème format : Le sujet doit choisir la bonne réponse parmi plusieurs réponses possibles. Les mauvaises réponses sont appelées des distracteurs. Si les bonnes réponses sont choisies par hasard, il est possible de corriger son score en faisant une estimation des réponses faites par hasard.

c) 3ème format : Le sujet estime son degré d’accord (Tout à fait d’accord, plutôt d’accord, pas d’accord..) ou la fréquence de ses conduites (toujours, très souvent) avec une proposition sur une échelle en plusieurs points Ex : Echelle de Likert (5à7 échelons), Echelles Dichotomiques (Vrai/Faux, Oui/Non).

C- Les tendances de réponses
Dans les questionnaires, les réponses des sujets sont souvent biaisées par deux types de tendances de réponses :
La tendance à l’acquiescement consiste à répondre plutôt vrai que faux, d’accord que pas d’accord. Pour contrôler cette tendance, la méthode consiste à intégrer dans le questionnaire un nombre équivalent d'items, pour lesquels la réponse «oui» indique que les sujets se situent plutôt à un pôle de la dimension et des items dont la réponse «non» indique qu’ils se situent au même pôle de la dimension. Pour mesurer une opinion par exemple, le sujet en répondant favorablement à un item et défavorablement à un autre item formulé différemment, se situera sur le même pôle de la dimension.
La tendance à donner des réponses socialement désirables consiste à ne pas donner son véritable choix, à ne pas répondre selon ses propres convictions mais en donnant une réponse socialement valorisée. Pour contrôler cette tendance, on utilise classiquement deux méthodes :

 La première méthode consiste à mesurer la force de la tendance en construisant une échelle de mensonge. Dans cette échelle, certains items incitent les sujets à ne pas répondre dans un sens socialement désirable. Si à l'issu de cette évaluation un certain seuil est dépassé, les réponses des sujets au test ne seront pas prises en compte.

 La seconde méthode consiste à construire des items à choix forcés. Le constructeur du test va alors choisir des items où le sujet va devoir indiquer des réponses ayant le même degré de désirabilité sociale (qu'elle soit positive ou négative). Ainsi cette deuxième tendance est contrôlée dans la mesure où le sujet est face à des items présentant la même désirabilité.
Le choix de la méthode pour contrôler les biais de réponse se fait en fonction des objectifs du chercheur et doit être réfléchie au moment de la construction du test.

D- Les niveaux de difficultés des items : Le concept de sensibilité
Les items sont caractérisés par leur niveau de difficulté. Celui-ci est défini par la fréquence de réussite dans une population
- Les items sont très faciles ou très difficiles ne permettent pas une différenciation interindividuelle.
- Les items de moyennement faciles (50% de réussite) permettent une différenciation interindividuelle plus forte.
Dans des situations de sélection sévères, on peut utiliser des items très difficiles, ces tests sont appelés tests de puissance.
Toutefois, le niveau de difficulté n’est pas toujours le facteur retenu pour différencier les individus. C’est ainsi que dans certains tests, c’est la vitesse d’exécution qui permet de différencier les individus que les l’exactitude des réponses, ces tests sont appelés tests de vitesse.
Par ailleurs, à la différence des tests psychologiques, les tests pédagogiques ne visent pas à différencier les sujets : Si le test vise à évaluer les acquis à l’issue d’une formation, il n’ya pas une raison pour que les individus se différencier fortement, il serait préférable que les objectifs de la formations soient atteints par tous.

E- Les dimensions
De manière générale, un test est constitué de plusieurs items et la somme des résultats à ces différents items constituent un score global (exemple le QI). Une dimension ou un facteur existe lorsque les items sont regroupés et homogènes.
La question qui se pose est de savoir si tous les items évaluent la même dimension et donc est-il réellement possible de les sommer. 3 méthodes d’analyse des items sont utilisées :

 Indice de discrimination : Le but est de savoir si chaque item permet une bonne discrimination entre les sujets qui réussissent bien le test et ceux qui le réussissent mal : est ce que ceux qui réussissent le test globalement vont également réussir un item particulier.
Un indice de discrimination est donc calculé. On prend les 30% qui réussissent le mieux au test et les 30% qui réussissent le moins bien. Dans chacun de ces 2 groupes, on examine les pourcentages des sujets qui réussissent à un item particulier et ceux qui échouent à cet item. La différence de ces 2 pourcentages mesure le pouvoir discriminant de l’item. Si l’item discrimine bien, les bons au test réussiront plus souvent à l’item que les mauvais. L’indice de discrimination est lié à la difficulté de l’item. Les items de difficultés moyennes permettent une discrimination interindividuelle forte.

 Calcul de la corrélation entre chaque item et le test : corrélation item-test : Cet indice est moins ambigu que l’indice de discrimination. Il indique la part de variance commune au test et à l’item. Le score à l’item doit être lié au score au test.
 
 Corrélation item-item : corrélation entre les scores d’items : Il consiste à calculer les intercorrélations de tous les items entre eux. Si celles-ci sont suffisantes, on considérera que la dimension existe et on pourra sommer tous les résultats. (si les corrélations sont proches de 1, les items sont liés)
On peut ensuite faire une analyse factorielle pour rechercher si tous les items sont « saturés » de façon suffisante autour d’un même facteur. Il s’agit de faire ressortir les items pertinents et les plus discriminants.
Ces différentes méthodes permettent d’éliminer ou de reformuler des items et donc de ne garder que ceux qui évaluent la même dimension.

F- Le statut métrique de la mesure
Trois niveaux de mesure sont pertinents en psychologie : les échelles nominales, ordinales et d’intervalles :

 Les échelles nominales : Lorsque le psychologue regroupe ses observations en classes d’équivalence et ne fait que cela, il peut désigner par un nombre chaque chose. Ces nombres ne sont au fait des symboles et qu’on ne peut pas les ordonner en classes (Sex : 1/F et 2/M). Ce niveau de mesure est faible. Cette échelle permet quelques calculs statistiques : indices de dispersion, indices de tendance centrale (mode), degré de liaison entre 2 variables avec Chi2.

 Les échelles ordinales : Lorsque le psychologue peut établir un ordre entre les classes en montrant leurs relations anti systémique. Les nombres sont alors des symboles ordonnés. Cette échelle permet quelques calculs statistiques : Indice de tendance centrale (médiane), degré de liaison entre deux variables ordinales avec le taux de Kendall.

 Les échelles d’intervalles : Lorsque le psychologue peut définir des distances entre des casses. Cette échelle permet quelques calculs statistiques : Opérations arithmétiques (Moyenne), la Variance, le coefficient de corrélation de Bravais-Pearson.
Initiation à la méthode des Tests
Initiation à la méthode des Tests

G- Les étalonnages
Le score global qui permet de caractériser un sujet est une donnée brute dont la signification reste ambiguë tant qu’elle n’est pas comparée aux scores des sujets d’une population de référence. Cette comparaison est possible grâce à l’étalonnage.
L’étalonnage est la construction d’une échelle de notation standard à partir des résultats obtenus dans un échantillon représentatif d’une population de référence. Il permet de transformer un score brut en note standard ou étalonnées et de situer un sujet par rapport au groupe de référence. Ces notes sont directement comparables et permettent de faire des comparaisons interindividuelles et intra individuelles.
Une fois qu’un échantillon représentatif de la population de référence est constitué, et que les sujets de l’échantillon ont passé le test, on peut procéder à l’étalonnage de leurs scores. On pourra ainsi déterminer pour une population quelles notes au test correspondent à quel rang : jusqu’à quel score fait-on partie des 10%qui réussissent le moins bien. A partir de quel score au contraire fait-on partie de ceux qui réussissent le mieux. 2 techniques sont principalement utilisées :

 Le quantilage : Il s’agit d’ordonner les notes selon un ordre croissant, de les regrouper en classes de telle sorte que chaque classe contienne le même effectif et la même proportion de l’effectif total de calculer les limites de classe. Il y a plusieurs formes de quantilage en fonction du nombre de classes. Le choix dépend de ce que l’on cherche à obtenir. Plus il y a de classes, plus les résultats sont fins. Le quartilage : Faire un découpage de sorte à obtenir 4 classes dans la distribution des notes de l'effectif. 25% de l'effectif dans chaque classe, 4 interquartiles (étendue de la classe), délimités par 3 quartiles. Le quantilage : Faire un découpage de sorte à obtenir 5 classes, 20% de l’effectif dans chaque classe, 5 interquantiles, délimités par 4 quantiles. Le décilage : Faire un découpage de sorte à obtenir 10 classes, 10% de l’effectif dans chaque classe, 10 interdéciles, délimités par 9 déciles. Le centilage : Faire un découpage de sorte à obtenir de 100 classes, 1% de l’effectif dans chaque classe, 100 intercentiles, délimités par 99 centiles.

 Les échelles normalisées : La caractéristique principale est que les classes sont définies de telle sorte les effectifs (fréquences) qui correspondent à chaque classe soient conformes aux fréquences de la distribution normale. Celle-ci est une distribution symétrique en forme de cloche. On va donc transformer les valeurs de la variable en distance en écart type par rapport la moyenne (notes z). Les proportions de chaque classe dans une distribution normale dont lue dans une table selon le nombre de classes constituées.

 LA FIABILITE DES MESURES

H- Le coefficient de fidélité
Une mesure est dite fidèle (fiable) lorsqu’elle n’est pas entachée d’erreurs trop importantes. C’est pourquoi nous calculons le coefficient de fidélité. Deux types d’erreurs de mesure sont courants :

1) Les erreurs systématiques se manifestent toujours dans le même sens et avec la même intensité lors de la répétition de la mesure (sujet dont l’acuité visuelle est déficiente peut échouer à des tests spatiaux sans que ses capacités visuelles soient mises en cause, appareil mal réglé). Pour les éviter, il faut analyser les conditions d’observation et de s’assurer que le test ne mesure pas que ce qu’il est censé mesurer.

2) Les erreurs aléatoires diffèrent d’une passation à l’autre et apparaissent avec des intensités et des directions différentes.
Le coefficient de fidélité ne s'intéresse qu'aux erreurs aléatoires c'est à dire cherchera à déterminer si les différences individuelles de score au test peuvent être attribuées aux caractéristiques des sujets ou si elles sont dues à des erreurs lors des passations, erreurs sur le choix des items, dues à des observateurs différents, des conditions différentes lors des passages successifs. Un coefficient de corrélation entre la mesure à un test et la mesure au retest est effectué. Si le coefficient est proche de 1 l'erreur est peu importante si elle est proche de 0 le test n'est pas fiable puisqu'il ne permet pas d'évaluer la mesure vraie. Dans ce cas, le chercheur doit construire un autre test.

I- La stabilité et constance
On distingue 3 grandes modes de répétition de la mesure correspondant à trois grandes sources d’erreur. On peut donc :

1) Répéter la mesure à des moments différents : Les facteurs d’erreurs pris en compte correspondent à des événements qui se manifestent différemment d’une passation à l’autre.

2) Répéter la mesure en faisant varier le contenu de la situation qui conceptuellement demeure identique : Les facteurs d’erreurs sont alors relatifs aux décisions prises lors de l’opérationnalisation des idées sur lesquelles est fondé le test, ou, en d’autres termes à l’échantillonnage.3)

3) Demander à deux personnes différentes d’évaluer une même conduite. Les facteurs d’erreurs proviennent de la subjectivité de l’observateur. Cette source d’erreur est neutralisée dans les tests par la standardisation de la procédure d’application et de cotation. C’est sa fonction essentielle.

4) Qu’appelle-t-on Test-Retest ? : Pour prendre en compte les erreurs dues au moment de l’observation, on utilise la méthode de test-retest: Elle consiste à appliquer le même test à un même groupe d’individus à deux moments différents. Le coefficient de corrélation entre les deux séries de mesures obtenues est le coefficient de constance ou de stabilité.
Peut-il être interprété comme un coefficient de fidélité ?
Les différences de classement d’une passation à l’autre peuvent s’expliquer par des fluctuations aléatoires due à l’état du sujet qui peuvent être considérées comme des erreurs de mesures (Ex. un sujet peut être malade à une passation et pas à une autre, être confiant à une et pas à une autre, plus attentifs à une et pas à une autre, conflit collectif avant une passation).
La corrélation non parfaite entre le test et le retest peut s’expliquer par d’autres facteurs tels que l’effet de l’apprentissage : Ainsi, lorsque le sujet réalise plusieurs fois un même test, il va y avoir un effet d’apprentissage, soit une augmentation de ses performances entre T1 et T2 (ce qui réduit le coefficient de stabilité), soit une diminution (par exemple par manque d’intérêt de passer 2 fois le même test !) (Ce qui réduit aussi le coefficient de stabilité).
Si le t’intervalle entre le test et retest est long et les sujets ont été soumis à des apprentissages différents et s’ils se sont développés dans à des rythmes divers et dans des directions différentes, les coefficients de stabilités ne peuvent être interprétés comme des coefficients de fidélité : Le coefficient de stabilité est un indice ambigu qui ne peut renseigner sur le poids des erreurs aléatoires que lorsque l’intervalle entre le test et le retest est court.

J- L’équivalence et l’homogénéité
Le but est de savoir si un test mesure bien la même dimension dans ses différentes parties ou items. Diverses méthodes sont utilisées comme :
 
 La méthode des formes parallèles : il s’agit de construire deux versions d’un même test, les appliquer à un même groupe et calculer la corrélation entre les deux séries de mesures. Si le coefficient d’équivalence obtenu est proche de 1 les items choisis sont corrects, à contrario, si le coefficient d’équivalence est proche de 0, les items choisis sont entachés d’erreurs.
 
 La méthode du partage par moitié (split-half) : il s’agit de présenter un test mais qui sera coupé en deux parties. Cette méthode consiste à calculer la corrélation entre deux parties d'un test : avec les items pairs d'une part et les items impairs de l'autre, ou bien en répartissant les items en deux parties équivalentes selon le degré de difficulté. Si le coefficient d’homogénéité obtenu est proche de 1, on peut dire que l’instrument mesure bien une même dimension à travers ces différentes questions.
La méthode item score considère que plus le résultat de chaque item est fortement lié au score total de test, plus l’homogénéité d’un test est élevée.

 L’indice de Cronbach : C’est une méthode très souvent utilisée pour estimer les biais dus aux choix d’items qui est un calcul mathématique pour tester l’ensemble du test. Cette méthode est plus rapide et moins couteuse. Plus le coefficient de Cronbach est proche de 1 plus le degré d’homogénéité est élevé.
 
K- La généralisabilité
Deux sources d’erreurs essentielles, celles relatives au moment de l’observation et celle relative aux choix d’items. Toutefois d’autres sources d’items sont possibles que l’on peut examiner simultanément. La théorie de généralisabilité de Cronbach vise à restituer cette complexité de la notion de fidélité et d’évaluer les poids respectifs des diverses sources d’erreur.
La théorie de généralisabilité indique la précision des généralisations que l’on peut effectuer à partir d’une observation. Elle repose sur l’analyse de variance. Chaque condition est un facteur de classification et les coefficients de généralisabilité sont des rapports de variance. Ces coefficients permettent de déterminer le poids dune contribution par rapport à une autre ou par rapport à toutes les autres.

 L’ERREUR TYPE DE MESURE
Les coefficients de fidélité fournissent une indication sur l’importance des erreurs de mesure (celle-ci est d’autant plus grande que les coefficients sont faibles) mais ils n’indiquent pas précisément l’écart entre la note vraie et la note observée.
Si l’on répétait plusieurs fois la mesure, on pourrait mesurer cet écart type appelé erreur type ou erreur standard de mesure. Mais cette répétition est impossible aussi une formule permet de calculer l’erreur type à partir du coefficient de fidélité.
A retenir : Malgré une fidélité élevée, l’incertitude sur la note demeure importante.

L- Les facteurs qui affectent la fidélité
Plusieurs facteurs affectent la fidélité d’un test : l’homogénéité du groupe sur lequel elle a été estimée et sa longueur, la fidélité des scores de différence.
 L’homogénéité du groupe : Plus le groupe est homogène, c’est –à-dire, des individus semblables et peu différents et plus le risque d’avoir des erreurs toujours dans le même sens est important. En revanche plus le groupe est hétérogène, plus les individus sont mieux différenciés, plus les erreurs ont plus de « chances » d’être compensées, réduisant ainsi leur effet.  La longueur du test : Plus le test est long (items nombreux), plus il y a de mesures et plus on tend à mesurer le score vrai car en additionnant les erreurs aléatoires on réduit leur poids.

 LA VALIDITE DES OBSERVATIONS
Un test valide est un test qui permet d’atteindre de manière satisfaisante les objectifs poursuivis par son constructeur ou son utilisateur ou qu’il mesure bien ce qu’il est censé mesurer. La validité est la propriété des tests mais ce n’est pas un concept unitaire car un test peut être valide par rapport à un objectif et non pas par rapport à un autre.
On distingue 3 types de validité : la validité du contenu, la validité critérielle et la validité théorique. On parle aussi de validité apparente (de façade, de conviction) lorsque le test de première vue et sans que l’on dispose de la moindre preuve, parait valide. On parle parfois de validité interne (factorielle) d’un test pour désigner l’homogénéité d’un test.
 
1. La validité de contenu
La validité de contenu indique dans quelle mesure le contenu des items d’un test est représentatif du domaine visé par l’évaluation. Cela suppose que l’on puisse définir un univers de référence structuré et dont les frontières sont bien définies.
Par exemple, dans le domaine de l’évaluation de l’apprentissage, on peut se baser sur des programmes fixant le contenu des acquisitions visées et des textes officiels exposant les objectifs de l’enseignement, pour évaluer les acquis professionnels, on peut se baser sur la nomenclature des métiers.
Le constructeur de test doit définir son univers du test en se référant aux théories structurales du domaine. Après la définition de l’univers de référence, on tire une série d’items dont le contenu doit être soigneusement examiné. Ces items doivent correspondre aux différentes facettes de l’univers de référence et dans les mêmes proportions.
L’évaluation de la validité du contenu ne peut se faire qu’avec un travail approfondie de groupes d’expert.
Au-delà du contenu, il faut prendre en compte le format des items, la présentation de la consigne, le mode de recueil de la réponse.
 
2. La validité critérielle
La validité critérielle se définit comme étant le fait qu’un test corrèle notablement ou non avec un critère qui est une autre variable jugée intéressante. Elle est qualifiée parfois d’empirique quand al liaison test-critère n’est pas expliquée.
Le test est un prédicteur puisqu’à partir de lui on peut faire une prédiction sur le critère. La validité critérielle est meilleure quand la corrélation entre le test et le critère est élevée (coefficient de validité).
Il existe deux grands types de validité critèrielle : validité prédictive et validité concurrente : la première implique un intervalle de temps entre la mesure du prédicteur et celle du critère, et pour la seconde, il n’y a pas d’intervalle, la mesure de prédicteur et celle du test se font au même moment. Ces deux validités sont complémentaires et non équivalentes.
La corrélation entre le test et le critère est représentée par un diagramme de corrélation ou table d’expectation.
Exemple prédicteur : nombre d’année à un test, score à un test d’aptitude, résultat un à examen.
Critère : exemple : un chef de service remplit une échelle d’évaluation en fonction du volume des ventes effectuées par le sujet.
Quand les sujets passent un test d’aptitude pour entrer dans une société, le recruteur ne gardera que les meilleurs. Ensuite 5 ans après, le chef de service va s’interroger sur la valeur du test et va regardera l’efficacité des sujets recrutés.

3. L’erreur pronostic
Une erreur de pronostic s’observe lorsque la corrélation entre le prédicteur (test) et le critère n’est pas parfaite. C’est le cas par exemple d’une majorité des sujets ayant eu 9 au test (les meilleurs) réussissent la formation de pilote alors qu’il y a tout de même 5,5% de sujets qui ne réussissent pas. Donc le test n’est pas valide à 100%.

4. Les facteurs affectant la validité critérielle
Deux facteurs affectent la validité critèrielle : la restriction de la variabilité sur le prédicteur et la fidélité du prédicteur et du critère.

 La restriction de la variabilité sur le prédicteur : On ne peut pas toujours évaluer sur le critère l’ensemble des mêmes candidats que sur le prédicteur. En réalité, on procède à une sélection sur la base du test ou des variables associées au test. Et on examinera sur un groupe homogène que le groupe initial, la corrélation entre le test et le critère. Le coefficient de validité plus faible que si on avait retenu tous les le même groupe. Il existe des méthodes permettant d’estimer l’effet de cette réduction de variabilité, et de « corriger » le coefficient de validité obtenu.
 
 La fidélité du prédicteur et du critère : D’après théorie du score vrai, on conçoit que la corrélation entre deux variables ne puisse résulter que de la corrélation de leurs scores vrais. Cette corrélation ne peut être parfaite que si les fidélités sont parfaites également et elle sera d’autant plus atténuée que la fidélité seront faibles.
Connaissant les fidélités du prédicteur et du critère, on peut donc calculer la corrélation corrigée (ie sans erreur de mesure). Ainsi, la validité n’est pas une propriété du test mais tout autant une propriété du critère.

5. La validité théorique
Un premier aspect de la validité théorique est la validité du construit (les construits sont des dimensions assez abstraites : l’intelligence, sociabilité). Il s’agit de demander s’il y a une s’il ya une bonne adéquation entre le construit et le test dont il est une opérationnalisation. La question de validité du construit est présente tout au long du processus de construction du test. Celui-ci doit corréler notablement avec certaines variables proches du construit (validité convergente : certains tests sont saturés dans les mêmes facteurs) et faiblement avec certaines autres variables éloignées du construit (validité divergente : certains tests ne sont pas saturés dans les mêmes facteurs).
La méthode « muti-trait multi méthodes » est fréquemment utilisée pour valider les construits. On caractérise les sujets sur plusieurs traits au moyen de plusieurs méthodes. On peut par exemple, avec des enfants retenir les traits honnêteté, agressivité et intelligence et recueillir les données en appliquant un test, en procédant à des observations de comportement, en relevant le jugement des enseignants. Les sujets sont alors caractérisés par 9 variables. L’analyse de la table d’inter corrélation entre ces variables permet de réponde à plusieurs questions relatives à la validité du construit : observe-t-on de fortes corrélations ou de faibles entre les mesures du même trait évalués par la même méthode ? Et par des méthodes différentes ?

La validité conceptuelle est beaucoup plus générale que celle de validité de construit. Toute information nouvelle sur ce que mesure le test enrichit sa validité conceptuelle. Il peut s’agir d’informations provenant de la validité critérielle. Par exemple, une information selon laquelle une supériorité marquée du QI performance sur le QI verbal dans les échelles de Wechsler peut être associé à une scolarisation irrégulière ou à des troubles de lecture, contribue à la validité du test. Les informations concernant l’analyse de la conduite du sujet en cours des épreuves sont également utiles.

samedi 29 mars 2014

Devoir : Système nerveux et fonction sensori-motrices (Mertz)

Question 1 (4 pts) : Proposez une définition pour "système sensoriel". Pour cela vous vous aiderez des notions vues en cours concernant le fonctionnement et l'organisation des systèmes sensoriels. J'attends vos suggestions.

Question 2 (3 pts) : Lorsqu'on pose le bout du doigt sur le bord d'une feuille de papier fine, on en ressent le bord que lorsque le doigt est en mouvement. En revanche, si deux feuilles de papier sont empilées, on perçoit le bord même lorsque le contact est statique. Expliquez les raisons d'un tel phénomène.

Question 3 (3 pts) : 

 

Différentes études réalisées en neuroimagerie fonctionnelle ont montré chez des sujets aveugles (figure a) et chez des sujets (figure b), des activations au niveau des régions corticales qui ne sont pas classiquement associées à ces stimulations : activation du cortex visuel occipital chez des sujets aveugles dans des tâches tactiles ou auditives, activations du cortex auditif chez des sujets sourds pendant l'observation de la langue des signes, pendant des tâches visuelles ou des stimulations tactiles. 
A. Comment interprétez vous de tels résultats ?
B. Ces données confortent elle la loi des énergies sensorielles spécifiques ?

Question 4 (5 pts) : 

 

Dans la figure ci contre, le rectangle central est d'un gris uniforme. Toutefois, il semble plus sombre en haut et plus clair en bas.
Expliquez à quoi ce phénomène est dû.
Précisez votre explication à un niveau neuronal. Vous pouvez pour cela vous aider de schémas représentant les répartitions des activités au niveau d'un petit réseau de neurones, et ce pour différentes zones de la figure (par exemple dans la partie haute du rectangle et dans la partie basse du rectangle).

Question 5 (5 pts) : 

 

a. A l'aide de ces enregistrements, indiquez quelles sont les propriétés d'adaptation de ces trois récepteurs. Justifiez votre réponse.
b. Complétez de façon précise et sans ambiguïté, l'activité qu'on devrait enregistrer pour les trois récepteurs 1, 2 et 3 en réponse aux stimulations S2 et S3.
c. Pouvez vous déduire des réponses à S1 quelle est la nature des récepteurs tactiles 1, 2 et 3 ? Justifiez votre réponse.