Den ikke-parametriske Friedman-test er en ikke-parametrisk test, der anvendes til at teste for forskelle mellem grupper, når den afhængige variabel er mindst ordinær (kan være kontinuerlig). Friedman-testen er det ikke-parametriske alternativ til envejs ANOVA med gentagne målinger (eller det komplette blokdesign og et særligt tilfælde af Durbin-testen). Hvis dataene er signifikant anderledes end normalfordelte, bliver dette den foretrukne test frem for at bruge en ANOVA.
Testproceduren rangordner hver række (blok) sammen og overvejer derefter værdierne af rangordene efter kolonner. Dataene organiseres i en matrix med B rækker (blokke) og T kolonner (behandlinger) med en enkelt operation i hver celle i matrixen.
Ansætninger
Som med næsten enhver statistisk test er der antagelser, der skal tages i betragtning. Lad os her belyse fire elementer, der skal tages i betragtning:
- Der er en gruppe af forsøgspersoner, som måles ved tre eller flere forskellige lejligheder.
- Gruppen er en tilfældig stikprøve fra populationen.
- Den afhængige variabel er mindst en ordinal eller kontinuerlig (Likert-skalaer, tid, intelligent, procent korrekt osv.)
- Stikprøverne behøver ikke at være normalfordelte.
Stilling af hypoteser
Nulhypotesen er, at medianbehandlingseffekterne i populationen alle er ens. Kort sagt, behandlingerne har ingen effekt.
Den alternative hypotese er, at effekterne ikke alle er ens. Det indikerer, at der er en mærkbar forskel i behandlingseffekterne.
De data, vi har med at gøre, afspejler den situation, hvor vi ønsker at sammenligne T behandlinger med N forsøgspersoner. Forsøgspersonerne er tildelt tilfældigt til de forskellige grupper. Sammenligningen er inden for hver gruppe og ikke mellem grupperne.
Teststatistikken
Sammenligningen er af de rangordnede resultater af de ordinale eller kontinuerte data, idet der tildeles en rangordningsværdi fra 1, 2, til T for hver af B-rækkerne eller behandlingerne.
Da nulhypotesen er, at behandlingerne ikke har nogen effekt på rangordene, bør summen af rangordene for hver kolonne (behandling) alle være lige store.
Den samlede sum af rangordene er BT(T+1)/2, således bør hver behandlings sum af rangordene, hvis de er lige store, være relativt tæt på B(T+1)/2. Teststatistikken er derfor en funktion af summen af kvadrater af afvigelser mellem behandlingens rangsummer (R1, R2, …, RT) og den forventede B(T+1)/2-værdi.
Teststatistikken, S, er
$$$ \displaystyle\large S=\sum\limits_{t=1}^{T}{R_{t}^{2}-\frac{{{{{B}^{2}}}T{{{{\left( T+1 \right)}^{2}}}}{4}}}$$$
Den kritiske værdi
Nu skal vi sammenligne teststatistikken med den kritiske værdi for at afgøre, om afvigelsen afviger nok til at konkludere, at behandlingerne ikke alle er lige. Her kommer software til nytte, som Minitab, R eller en anden pakke, der har tabellerne indbygget.
Her er en undtaget tabel for tre eller fire behandlinger. Hvis dit forsøg har flere behandlinger eller en stor stikprøvestørrelse, kan du tilnærme den kritiske værdi ved hjælp af en chi-kvadratfordeling (mere om det en anden gang).
For T = 3 for forskellige signifikansværdier
N | α <.10 | α ≤.05 | α <.01 |
3 | 6.00 | 6.00 | – |
4 | 6.00 | 6.50 | 8.00 |
5 | 5.20 | 6.40 | 8.40 |
6 | 5.33 | 7.00 | 9.00 |
7 | 5.43 | 7.14 | 8.86 |
8 | 5.25 | 6.25 | 9.00 |
9 | 5.56 | 6.22 | 8.67 |
10 | 5.00 | 6.20 | 9.60 |
11 | 4.91 | 6.54 | 8.91 |
12 | 5.17 | 6.17 | 8.67 |
13 | 4.77 | 6.00 | 9,39 |
∞ | 4,61 | 5,99 | 9,21 |
k=4 for forskellige signifikansværdier