Friedman-testet är ett icke-parametriskt test som används för att testa skillnader mellan grupper när den beroende variabeln är minst ordinal (kan vara kontinuerlig). Friedman-testet är det icke-parametriska alternativet till envägs-ANOVA med upprepade åtgärder (eller komplett blockdesign och ett specialfall av Durbin-testet). Om data är signifikant annorlunda än normalfördelade blir detta testet att föredra framför att använda en ANOVA.
Testproceduren rangordnar varje rad (block) tillsammans och tar sedan hänsyn till värdena av rangordningarna av kolumnerna. Data organiseras i en matris med B rader (block) och T kolumner (behandlingar) med en enda operation i varje cell i matrisen.
Antaganden
Som med nästan alla statistiska test finns det antaganden att beakta. Låt oss här belysa fyra element att ta hänsyn till:
- Det finns en grupp testpersoner som mäts vid tre eller flera olika tillfällen.
- Gruppen är ett slumpmässigt urval från populationen.
- Den beroende variabeln är minst en ordinal eller kontinuerlig (Likert-skalor, tid, intelligent, procentuellt korrekt osv.)
- Stickproven behöver inte vara normalfördelade.
Sätt upp hypoteserna
Nollhypotesen är medianbehandlingseffekter i populationen är alla lika. Kort sagt, behandlingarna har ingen effekt.
Den alternativa hypotesen är att effekterna inte alla är lika. Anger att det finns en urskiljbar skillnad i behandlingseffekter.
Den data vi har att göra med återspeglar situationen där vi vill jämföra T behandlingar med N försökspersoner. Försökspersonerna tilldelas slumpmässigt till de olika grupperna. Jämförelsen sker inom varje grupp och inte mellan grupper.
Teststatistiken
För jämförelsen gäller de rangordnade resultaten av de ordinala eller kontinuerliga uppgifterna, genom att tilldela ett rangordningsvärde från 1, 2, till T för var och en av de B raderna eller behandlingarna.
Då nollhypotesen är att behandlingarna inte har någon effekt bör rangordningarna summan av rangordningarna för varje kolumn (behandling) vara lika.
Den totala summan av rangordningarna är BT(T+1)/2, så varje behandlings summa av rangordningarna, om den är lika, bör ligga relativt nära B(T+1)/2. Därför är teststatistiken en funktion av summan av kvadraterna av avvikelserna mellan behandlingens rangsummor (R1, R2, …, RT) och det förväntade B(T+1)/2-värdet.
Teststatistiken, S, är
$$$ \displaystyle\large S=\sum\limits_{t=1}^{T}{R_{t}^{2}-\frac{{{{B}^{2}}}T{{{\left( T+1 \right)}^{2}}}}{4}}$$$
Det kritiska värdet
Nu måste vi jämföra teststatistiken med det kritiska värdet för att avgöra om avvikelsen avviker tillräckligt mycket för att man ska kunna dra slutsatsen att behandlingarna inte alla är lika. Här kommer programvara väl till pass, som Minitab, R eller något annat paket som har tabellerna inbyggda.
Här är en undantagen tabell för tre eller fyra behandlingar. Om ditt experiment har fler behandlingar eller ett stort urval kan du approximera det kritiska värdet med hjälp av en chi-kvadratfördelning (mer om det en annan gång).
För T = 3 för olika signifikansvärden
N | α <.10 | α ≤.05 | α <.01 |
3 | 6.00 | 6.00 | – |
4 | 6.00 | 6.50 | 8.00 |
5 | 5.20 | 6.40 | 8.40 |
6 | 5.33 | 7.00 | 9.00 |
7 | 5.43 | 7.14 | 8.86 |
8 | 5.25 | 6.25 | 9.00 |
9 | 5.56 | 6.22 | 8.67 |
10 | 5.00 | 6.20 | 9.60 |
11 | 4.91 | 6.54 | 8.91 |
12 | 5.17 | 6.17 | 8.67 |
13 | 4.77 | 6.00 | 9.39 |
∞ | 4.61 | 5.99 | 9.21 |
k=4 för olika signifikansvärden