Tests :
Rappel / bilan / Tests non paramétriques
I Rappel 2
(*) : les écarts types sont égaux si le plus grand divisé par le plus petit donne un résultat inferieur ou égal à 2 2
II Bilan 3
III Test Exact de Fisher 4
IV R de Spearman 5
V Kruskal-Wallis 6
VI Test des rangs de Wilcoxon 7
I Rappel
Pour avoir le droit d'utiliser les tests, il faut que certaines conditions soient remplies. Vérifier les conditions, cela s'appelle faire un "Diagnostique de régression". Quand les conditions ne sont pas remplies, on ne peut pas utiliser le test, il faut alors utiliser un autre test à la place. Les tests de remplacement sont appelés "tests non-paramétriques". Le tableau suivant résume le type de variable, le test paramétrique à utiliser (tous les tests que nous avons déjà vu pendant les 8 semaines), le diagnostique de régression et le test non paramétrique (de remplacement) si le diagnostic de régression n'est pas rempli.
Variables
| Test paramétrique
| Diagnostic
| Test non paramétrique
| Qualitative & Qualitative
| Khi2
| Les valeurs de toutes les cases du tableau des effectifs attendus (deuxième tableau) doivent être supérieures ou égales a 5.
| Test exact de Fisher
| Qualitative & Numérique
| T de Student
| Les écart types sont égaux(*)
Pour chaque groupe, la variable numérique suit une loi normale OU les effectifs sont supérieurs égal à 15
| Test des rangs de Wilcoxon
| Qualitative & Numérique
| F de Fisher
(ANOVA)
| Les écart types sont égaux(*)
Pour chaque groupe, la variable numérique suit une loi normale OU les effectifs sont supérieurs égal à 15
| Test de Kruskal-Wallis
| Numérique & Numérique
| R de Pearson
(coefficient de corrélation)
| Au moins une des deux variables suit une loi normale
| R des rangs de Spearman
|
(*) : les écarts types sont égaux si le plus grand divisé par le plus petit donne un résultat inferieur ou égal à 2 II Bilan
Pour déterminer s'il y a un lien entre deux variables, vous devez donc :
Déterminer la nature des variables (pour savoir sur quelle ligne du tableau vous devez vous situer)
Faire le diagnostic de régression (colonne 3)
Choisir le test en fonction du diagnostic (colonne 2 ou 4)
Conclure grâce au p. Rappel : si p est petit (low en anglais), il y a un lien entre les variables.
Low Lien
III Test Exact de Fisher
Diagnostic
Si chaque case du tableau des effectifs attendus est supérieure ou égale a 5, alors Khi2. Sinon, test exact de Fisher.
Sous Excel
il est compliqué (voir impossible) de le calculer à la main.
Sous R
Chargez vos données en mémoire.
Calculez le tableau croisé (en utilisant table(Dn$colonne1,Dn$colonne2) et en le stockant dans la variable TableCroisee par exemple)
Diagnostic de régression : La fonction chisq.test calcule le chi2 ET vous donne le diagnostic de régression en même temps. Si, après avoir utilisé la fonction, un warning apparait : Warning message: l'approximation du Chi-2 est peut-être incorrecte, c'est que le diagnostic de régression n'est pas bon et qu'il vous faut calculer le test exact de fisher. Si aucun Warning n'apparait, le diagnostic de régression est bon, le test à utiliser est le chi2 (vous venez de le faire avec chi.test), il ne vous reste qu'a lire le p et vous avez fini.
Si le diagnostic de régression n'est pas bon, il faut calculer le test exact de Fisher. Pour cela, utilisez la fonction fisher.test que vous appliquez à TableCroisee
IV R de Spearman
Diagnostic de régression : représentez l'histogramme de la première variable, puis celui de la seconde variable (hist sous R ; impossible sous Excel). Si l'une des deux suit une loi normale, vous pouvez utiliser le R de Pearson (coefficiant.correlation sous Excel, cor.test sous R). Sinon R de Spearman
Sinon, sous Excel
Remplacez chaque donnée de la première variable par son rang (en utilisant la fonction rang ou à la main) puis chaque donnée de la deuxième variable par son rang également. Par exemple, les données (3 ; 48 ; 12 ; 53) doivent devenir (1 ; 3 ; 2 ;4)
Calculez le coefficient de corrélation non plus sur les données, mais sur les rangs ainsi obtenus. Le résultat est le R des rangs de Spearman
Sous R
Utilisez la fonction cor.test( Dn$Col1 , Dn$Col2 , method="spearman" ). La fonction donne aussi le p.
V Kruskal-Wallis
Diagnostic de régression
1) calculez les écarts types de chacun des groupes.
Si le plus grand divisé par le plus petit est inférieur a 2 ;
2) Pour chaque groupe :
Si le groupe a une taille supérieur ou égale a 30
ou si le groupe suit une loi normale,
alors appliquez le F de Fischer. Sinon Kruskal-Wallis
Sous R
la fonction kruskal.test(Dn$col1~Dn$col2) calcule le test de Kruskal-Wallis et donne le p.
VI Test des rangs de Wilcoxon
Diagnostic de régression
1) calculez les écarts types de chacun des groupes.
Si le plus grand divisé par le plus petit est inférieur a 2 ;
2) si les effectifs sont inférieurs à 30 et que l'histogramme de la variable quantitative suit une loi normale
Appliquez le T de Student. Sinon wilcoxon
Sous Excel
Pour les deux groupes mélangés, remplacez la variable par son rang.
Pour chacun des groupes, additionnez les rangs.
Considérez la plus petite des deux sommes SOM1 ainsi obtenue et reportez-la sur une table des rangs :
http://www.socr.ucla.edu/Applets.dir/WilcoxonRankSumTable.html
Reportez sur la première colonne les effectifs du plus grand de vos deux groupes. Sur la deuxième colonne, reportez l'effectif de votre deuxième groupe. La cinquième donne alors la valeur en dessous de laquelle il y a un lien : si SOM1 est plus petit ou égale à la valeur lu dans la cinquième colonne, il y a un lien entre les variables. Sinon, il n'y a pas de lien.
Sous R
la fonction wilcox.test(Dn$col1~Dn$col2) calcule le test des rang de wilcoxon et donne le p.
|