Pourquoi s'assurer de la fiabilité des tests et évaluations
Qu’il s’agisse d’un recrutement, d’un diplôme, d’une certification ou d’une admission en école, les évaluations peuvent avoir des conséquences majeures, et ceux qui les mettent en œuvre ont le devoir de s’assurer qu’elles sont justes et fiables. Il n’est pas très difficile de poser des questions et d’additionner des points, mais quelle valeur a le score obtenu et peut-il être le fondement de décisions importantes ?
L’évaluation est réellement une science et doit être abordée comme telle, ses bonnes pratiques ne sont pas optionnelles. Il est essentiel en particulier de s’assurer de la qualité de ses bases de questions, de s’assurer de la cohérence des questions et de mesurer la fiabilité et la marge d’erreur des scores. Beaucoup ignorent même que cela est possible.
Il existe une mesure de qualité des évaluations que l’on appelle KR-20, qui peut être calculée à partir de tests passés. Il est possible aussi de déterminer la qualité de chacune des questions, en termes de cohérence avec l’objectif du test. En supprimant ou en corrigeant les questions les plus faibles, on améliorera immédiatement la fiabilité des évaluations.
Si l’on se propose d’évaluer la connaissance de collaborateurs ou d’étudiants au moyen d’un test, il est essentiel de savoir s’assurer de la fiabilité de ce test. C’est autant une nécessité pratique (si le test n’est pas fiable, chacun perd son temps), qu’une obligation morale envers les intéressés. Et pourtant, de très nombreux tests sont déployés, parfois à grande échelle, sans que leur fiabilité ne soit évaluée. Et ce qui est presque choquant, c’est de voir à quel point cette vérification peut être facile, et comment une démarche très simple permet d’améliorer la fiabilité des tests.
Lorsque l’on soumet un test d’évaluation objective afin de mesurer le niveau de connaissance d’une personne, chaque réponse apporte un peu d’information sur ses connaissances. Et la somme de ces réponses permet d’évaluer, par échantillonage, son niveau de manière fiable, pour autant qu’il y ait suffisamment de questions.
Mais il faut ajouter : “à condition que les questions posées soient de bonne qualité”.
Qu’est-ce qu’une question de qualité ?
Nous allons voir que la chose peut s’analyser sous deux angles : l’un est difficile, l’autre est très simple.
La manière difficile d’aborder le sujet, consiste à étudier chacune des questions, incluant les réponses proposées, tant dans sa formulation que dans sa sémantique. Est-elle clairement posée, facile à comprendre, sans ambiguïté ni complexité inutile ? Et surtout, est-elle correcte sur le fond, la réponse annoncée exacte l’est-elle vraiment ? Pour s’en assurer, il faut une excellente connaissance du domaine, de la langue, des usages et bonnes pratiques propres aux évaluations objectives. Et il faut du temps, bien sûr.
Il y a une seconde manière de valider la qualité d’un test, qui ne demande ni expertise, ni ressources. Oui, c’est quasiment magique. Voyons cela.
Si chaque réponse apportée par un utilisateur nous apprend quelque chose sur son niveau de connaissance, de manière égale chaque réponse nous apprend quelque chose sur la qualité de la question posée. En fait, une réponse nous apprend autant sur la personne que sur la question. Mais comme l’objectif premier était d’évaluer la personne et non la question, on oublie en général de se pencher sur les questions.
L’étude des questions repose sur des outils statistiques qui ne sont pas d’une complexité exceptionnelle, mais malgré tout ne sont pas à la portée de tous. Nous ne citerons aucune formule mathématique ici, ce n’est pas l’objet. Si vous voulez en savoir plus, vous pouvez consulter le livre blanc publié par ExperQuiz.
Le programme fait les calculs de fiabilité de vos tests pour vous
Ce qu’il est essentiel de retenir, c’est ceci: peu importe que des calculs sous-jacents soient complexes puisqu’un programme va faire ces calculs pour vous, et vous donner un résultat prêt à l’emploi, très facile à interpréter et à utiliser.
Le calcul de la corrélation.
L’indicateur le plus important est certainement le calcul de la corrélation entre chacune des questions et le test dans son ensemble. C’est un coefficient, propre à chaque question, qui prend une valeur comprise entre -1 et +1. S’il est proche de 1, cela signifie que, en moyenne, les personnes qui répondent correctement à cette question ont aussi un bon score au test dans son ensemble.
Une autre manière de le formuler est de dire que les personnes les plus expertes tendent à répondre correctement à cette question. Si la corrélation est proche de 0, cela signifie qu’il n’y a pas de lien entre une bonne réponse à cette question et le niveau d’expertise général. Par exemple une question sur Picasso insérée dans un test portant sur le droit du travail aura probablement une corrélation faible : elle n’apporte pas grand chose, mais ne nuit pas non plus.
Enfin, si la corrélation est négative, la chose est plus préoccupante. Cela traduit le fait que “plus on est expert du sujet, plus on répond faux à cette question”. C’est clairement un problème, et il est bien possible que la question soit tout simplement fausse.
L'écart des quartiles.
On peut calculer un autre coefficient, semblable à la corrélation, l’écart des quartiles. Il est un peu moins mathématique, et donc un peu plus facile à bien comprendre. Rangez tous les utilisateurs qui ont passé votre test du meilleur score global, jusqu’au moins bon. Prenez les 25% meilleurs, qu’on appellera ‘premier quartile’ et les 25% moins bons, le ‘dernier quartile’.
Maintenant, pour chacune des questions, calculez la note moyenne des personnes du premier quartile, et la note moyenne des personnes du dernier quartile, et considérez la différence de ces deux moyennes.
Le plus souvent, cette différence est supérieure à 20% (ou disons à 4 points si l’on note sur 20). Si cette différence est négative, alors comme pour une corrélation négative, la question mérite probablement d’être ré-examinée. L’identification claire et précise des problèmes est l’une des forces de la solution ExperQuiz.
Comment retravailler les questions à problème pour accroître la fiabilité de vos tests ?
La manière rapide et brutale consiste à les retirer de votre test. Si vous aviez suffisamment de questions au départ, et qu’un petit nombre seulement sont à problème, alors c’est une démarche raisonnable. La manière subtile consiste à demander à quelques-unes des personnes les plus expertes de bien vouloir expliquer pourquoi elles n’ont pas choisi la réponse attendue, et de vous dire si, à la réflexion, elles estiment que la réponse réputée bonne l’est véritablement.
Ce qu’il faut bien comprendre c’est que, dans la pratique, presque tous les tests comportent quelques questions de ce genre, qui méritent d’être revues. D’où le titre de cet article : il est probable que cela s’applique à vos tests aussi. En petit nombre, ces questions médiocres n’invalident pas totalement le test, mais du moins elles diminuent sa fiabilité. Or si l’on évalue des collaborateurs ou des étudiants sur la base de tests, la fiabilité doit être une préoccupation prioritaire.
Il existe un indicateur global de qualité d’un test, que l’on appelle le KR20, et qui mesure en quelques sortes l’alignement d’ensemble des questions du test. C’est un nombre en général compris entre 0 et 1 (on l’exprime parfois entre 0% et 100%). Pour qu’un test soit fiable, on considère qu’il doit avoir un KR20 meilleur que 70%. Si ce n’est pas le cas pour l’un de vos tests, faites la chasse aux questions faibles selon la démarche donnée plus haut.
Une chose essentielle à souligner, est que tous ces calculs statistiques ne sont pertinents que si l’on dispose d’un échantillon suffisamment important de réponses fournies. À moins d’une vingtaine, il est à peu près inutile de s’y pencher. À partir d’une quarantaine, ils commencent à avoir du sens. C’est pourquoi il est recommandé de gérer et faire vivre ses bases de questions sur la durée, si possible sur plusieurs années, de manière à disposer de statistiques très fiables, et ainsi d’améliorer en continu la qualité de ses questions, donc de ses tests.
En conclusion, gérer ses évaluations au moyen d’outils numériques ne doit pas seulement viser une meilleure productivité et un meilleur suivi. L’un des bénéfices les plus essentiels est de parvenir à des évaluations plus fiables, des évaluations dont le niveau de qualité est prouvé.