A Friedman-teszt egy nem-parametrikus teszt, amelyet a csoportok közötti különbségek tesztelésére használnak, ha a függő változó legalább ordinális (lehet folyamatos). A Friedman-teszt az ismételt mérésekkel végzett egyutas ANOVA (vagy a teljes blokkterv és a Durbin-teszt speciális esete) nemparametrikus alternatívája. Ha az adatok szignifikánsan eltérnek a normális eloszlástól, akkor ez lesz az ANOVA használatával szemben előnyben részesített teszt.
A teszteljárás minden sort (blokkot) együttesen rangsorol, majd a rangsorok értékeit oszloponként veszi figyelembe. Az adatokat egy B sorokat (blokkok) és T oszlopokat (kezelések) tartalmazó mátrixba szervezzük, a mátrix minden cellájában egyetlen művelettel.
Feltételek
Mint szinte minden statisztikai tesztnél, itt is vannak feltételezések, amelyeket figyelembe kell venni. Itt most négy figyelembe veendő elemet világítunk meg:
- Létezik a vizsgálati alanyok egy csoportja, amelyet három vagy több különböző alkalommal mérnek.
- A csoport véletlen minta a populációból.
- A függő változó legalább ordinális vagy folytonos (Likert-skála, idő, intelligens, helyes százalék stb.)
- A mintáknak nem kell normális eloszlásúnak lenniük.
A hipotézisek felállítása
A nullhipotézis szerint a populáció medián kezelési hatásai mind azonosak. Röviden, a kezeléseknek nincs hatása.
Az alternatív hipotézis az, hogy a hatások nem mind egyformák. Azt jelzi, hogy a kezelési hatások között érzékelhető különbség van.
Az adatok, amelyekkel foglalkozunk, azt a helyzetet tükrözik, amikor T kezelést akarunk összehasonlítani N alany esetében. Az alanyokat véletlenszerűen osztjuk be a különböző csoportokba. Az összehasonlítás az egyes csoportokon belül történik, nem pedig a csoportok között.
A tesztstatisztika
Az összehasonlítás az ordinális vagy folytonos adatok rangsorolt eredményeinek összehasonlítása, a B sorok vagy kezelések mindegyikéhez 1, 2 és T közötti rangsorértéket rendelve.
Mivel a nullhipotézis szerint a kezeléseknek nincs hatása a rangsorokra, az egyes oszlopok (kezelések) rangsorainak összegének mind egyenlőnek kell lennie.
A rangsorok teljes összege BT(T+1)/2, tehát az egyes kezelések rangsorainak összegének, ha egyenlő, viszonylag közel kell lennie a B(T+1)/2-hez. Ezért a tesztstatisztika a kezelési rangösszegek (R1, R2, …, RT) és a várható B(T+1)/2 érték közötti eltérések négyzetösszegének függvénye.
A tesztstatisztika, S,
$$$ \displaystyle\large S=\sum\limits_{t=1}^{T}{R_{t}^{2}-\frac{{{B}^{2}}}T{{\left( T+1 \right)}^{2}}}}{4}}$$
A kritikus érték
Most össze kell hasonlítanunk a tesztstatisztikát a kritikus értékkel, hogy meghatározzuk, az eltérések eléggé eltérnek-e ahhoz, hogy arra következtessünk, hogy a kezelések nem mind egyenlőek. Itt jön jól egy szoftver, például a Minitab, az R vagy valamilyen más csomag, amely beépített táblázatokkal rendelkezik.
Itt van egy kivételes táblázat három vagy négy kezelésre. Ha a kísérletedben több kezelés vagy nagy mintanagyság van, a kritikus értéket chi négyzet eloszlással is közelítheted (erről majd máskor).
T = 3 esetén különböző szignifikanciaértékek esetén
N | α <.10 | α ≤.05 | α <.01 |
3 | 6.00 | 6.00 | – |
4 | 6.00 | 6.50 | 8.00 |
5 | 5.20 | 6.40 | 8.40 |
6 | 5.33 | 7.00 | 9.00 |
7 | 5.43 | 7.14 | 8.86 |
8 | 5.25 | 6.25 | 9.00 |
9 | 5.56 | 6.22 | 8.67 |
10 | 5.00 | 6.20 | 9.60 |
11 | 4.91 | 6.54 | 8.91 |
12 | 5.17 | 6.17 | 8.67 |
13 | 4.77 | 6.00 | 9.39 |
∞ | 4.61 | 5.99 | 9.21 |
k=4 különböző szignifikanciaértékek
esetén.