Des articles

1.6.5.4 : Normalité


Comment décider quel test utiliser, paramétrique ou non paramétrique, t-test ou Wilcoxon ? Nous devons savoir si la distribution suit ou au moins s'approche de la normalité. Cela peut être vérifié visuellement (Figure (PageIndex{1})) :

Code (PageIndex{1}) (R) :

Comment fonctionne l'intrigue QQ ? Tout d'abord, les points de données sont ordonnés et chacun est affecté à un quantile. Deuxièmement, un ensemble de quantiles théoriques—positions que les points de données auraient dû occuper dans un distribution normale-est calculé. Enfin, les quantiles théoriques et empiriques sont appariés et tracés.

Nous avons superposé le tracé avec une ligne passant par les quartiles. Lorsque les points suivent la ligne de près, la distribution empirique est normale. Ici beaucoup de points aux queues sont loin. Encore une fois, nous concluons que la distribution d'origine n'est pas normale.

R propose également des instruments numériques qui vérifient la normalité. Le premier d'entre eux est le test de Shapiro-Wilk (veuillez Cours ce code vous-même):

Code (PageIndex{2}) (R) :

Ici, le rendu est plutôt laconique. Les valeurs p sont faibles, mais quelle était l'hypothèse nulle ? Même l'aide intégrée ne l'indique pas. Pour comprendre, nous pouvons effectuer une expérience simple :

Code (PageIndex{3}) (R) :

La commande rnorm() génère des nombres aléatoires qui suivent une distribution normale, autant d'entre eux qu'indiqué dans l'argument. Ici, nous avons obtenu une valeur p approchant l'unité. Clairement, l'hypothèse nulle était « la distribution empirique est normale ».

Figure (PageIndex{1}) Vérification graphique de la normalité.

Forts de cette petite expérience, nous pouvons conclure que les distributions du salaire et du salaire2 ne sont pas normales.

Le test de Kolmogorov-Smirnov fonctionne avec deux distributions. L'hypothèse nulle est que les deux échantillons proviennent de la même population. Si nous voulons tester une distribution par rapport à la normale, le deuxième argument doit être pnorm :

Code (PageIndex{4}) (R) :

(Le résultat est comparable au résultat du test de Shapiro-Wilk. Nous avons mis à l'échelle les données car par défaut, le deuxième argument utilise une distribution normale mise à l'échelle.)

La fonction ks.test() accepte n'importe quel type du deuxième argument et pourrait donc être utilisée pour vérifier la fiabilité de l'approximation de la distribution actuelle avec tout distribution théorique, pas nécessairement normale. Cependant, le test de Kolmogorov-Smirnov renvoie souvent la mauvaise réponse pour les échantillons dont la taille est (< 50), il est donc moins puissant que le test de Shapiro-Wilks.

2.2e-16 nous soi-disant notation exponentielle, la façon d'afficher de très petits nombres comme celui-ci ((2.2 imes 10^{-16})). Si cette notation ne vous convient pas, il existe un moyen de vous en débarrasser :

Code (PageIndex{5}) (R) :

(L'option scipen est égale au nombre maximal autorisé de zéros.)

La plupart du temps, ces trois façons de déterminer la normalité sont en accord, mais ce n'est pas une surprise si elles renvoient des résultats différents. Le contrôle de normalité n'est pas une condamnation à mort, c'est juste une opinion basée sur la probabilité.

Encore une fois, si la taille de l'échantillon est petite, les tests statistiques et même les graphiques quantile-quantile échouent souvent à détecter la non-normalité. Dans ces cas, des outils plus simples comme le diagramme de tige ou l'histogramme fourniraient une meilleure aide.


Voir la vidéo: GEOLIFT ELECTRIC STRADDLE LEG STACKER CAPACITY - TON LIFTING HEIGHT - METER (Décembre 2021).