Der Friedman-Test ist ein nicht-parametrischer Test, der verwendet wird, um auf Unterschiede zwischen Gruppen zu testen, wenn die abhängige Variable zumindest ordinal ist (kann auch kontinuierlich sein). Der Friedman-Test ist die nichtparametrische Alternative zur einseitigen ANOVA mit wiederholten Messungen (oder dem vollständigen Blockdesign und einem Spezialfall des Durbin-Tests). Wenn sich die Daten signifikant von der Normalverteilung unterscheiden, wird dieser Test der ANOVA vorgezogen.
Das Testverfahren ordnet die einzelnen Zeilen (Blöcke) zusammen und betrachtet dann die Werte der Ränge nach Spalten. Die Daten werden in einer Matrix mit B Zeilen (Blöcken) und T Spalten (Behandlungen) mit einer einzigen Operation in jeder Zelle der Matrix organisiert.
Annahmen
Wie bei fast jedem statistischen Test gibt es Annahmen zu berücksichtigen. Hier wollen wir vier Elemente beleuchten:
- Es gibt eine Gruppe von Testpersonen, die bei drei oder mehr verschiedenen Gelegenheiten gemessen werden.
- Die Gruppe ist eine Zufallsstichprobe aus der Grundgesamtheit.
- Die abhängige Variable ist mindestens ordinal oder kontinuierlich (Likert-Skalen, Zeit, intelligent, prozentual richtig usw.)
- Die Stichproben müssen nicht normalverteilt sein.
Aufstellen der Hypothesen
Die Nullhypothese lautet, dass die mittleren Behandlungseffekte der Population alle gleich sind. Kurz gesagt, die Behandlungen haben keine Wirkung.
Die Alternativhypothese lautet, dass die Wirkungen nicht alle gleich sind. Das bedeutet, dass es einen erkennbaren Unterschied in den Behandlungseffekten gibt.
Die Daten, mit denen wir es zu tun haben, spiegeln die Situation wider, in der wir T Behandlungen mit N Probanden vergleichen wollen. Die Probanden werden nach dem Zufallsprinzip den verschiedenen Gruppen zugewiesen. Der Vergleich findet innerhalb jeder Gruppe und nicht zwischen den Gruppen statt.
Die Teststatistik
Der Vergleich ist ein Vergleich der geordneten Ergebnisse der ordinalen oder kontinuierlichen Daten, wobei für jede der B Zeilen oder Behandlungen ein Rangwert von 1, 2, bis T zugewiesen wird.
Da die Nullhypothese lautet, dass die Behandlungen keinen Einfluss auf die Rangfolge haben, sollte die Summe der Rangfolge für jede Spalte (Behandlung) gleich sein.
Die Gesamtsumme der Ränge ist BT(T+1)/2, daher sollte die Summe der Ränge jeder Behandlung, wenn sie gleich ist, relativ nahe an B(T+1)/2 liegen. Daher ist die Teststatistik eine Funktion der Summe der Quadrate der Abweichungen zwischen den Rangsummen der Behandlungen (R1, R2, …, RT) und dem erwarteten B(T+1)/2-Wert.
Die Teststatistik, S, ist
$$ \displaystyle\large S=\sum\limits_{t=1}^{T}{R_{t}^{2}-\frac{{B}^{2}}T{{\left( T+1 \right)}^{2}}}{4}}$$
Der kritische Wert
Jetzt müssen wir die Teststatistik mit dem kritischen Wert vergleichen, um festzustellen, ob die Abweichungen groß genug sind, um darauf zu schließen, dass die Behandlungen nicht alle gleich sind. Hier kommt eine Software wie Minitab, R oder ein anderes Paket mit eingebauten Tabellen zum Einsatz.
Hier ist eine Ausnahmetabelle für drei oder vier Behandlungen. Wenn Ihr Experiment mehr Behandlungen oder einen großen Stichprobenumfang hat, können Sie den kritischen Wert mithilfe einer Chi-Quadrat-Verteilung annähern (mehr dazu ein anderes Mal).
Für T = 3 für verschiedene Signifikanzwerte
N | α <.10 | α ≤.05 | α <.01 |
3 | 6.00 | 6.00 | – |
4 | 6.00 | 6.50 | 8.00 |
5 | 5.20 | 6.40 | 8.40 |
6 | 5.33 | 7.00 | 9.00 |
7 | 5.43 | 7.14 | 8.86 |
8 | 5.25 | 6.25 | 9.00 |
9 | 5.56 | 6.22 | 8.67 |
10 | 5.00 | 6.20 | 9.60 |
11 | 4.91 | 6.54 | 8.91 |
12 | 5.17 | 6.17 | 8.67 |
13 | 4.77 | 6.00 | 9.39 |
∞ | 4.61 | 5.99 | 9.21 |
k=4 für verschiedene Signifikanzwerte