Klausur-relevant · Testen

ANOVA & Mehrstichprobentests

Der t-Test vergleicht zwei Gruppen. Aber was, wenn du mehr hast? Otto züchtet Lachse (Salmo salar) in drei verschiedenen Käfigtypen und will wissen, ob der Käfigtyp die Größe der Fische beeinflusst. Drei Gruppen: Der naive Reflex wäre, einfach alle Paare mit t-Tests durchzuprobieren. Genau das geht schief. In dieser Lektion lernst du, warum man stattdessen einen Test über alle Gruppen rechnet: die .

Kurzer Rückblick auf die letzte Lektion:

Weißt du noch?

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Was stellen die „erwarteten“ Werte E in der χ²-Rechnung dar?
2. Ist eine erwartete Häufigkeit E kleiner als 5, wird die χ²-Näherung unzuverlässig und man wechselt z. B. auf Fishers exakten Test.

Das Problem: viele Vergleiche blähen den Fehler auf

Bei drei Käfigtypen gibt es drei Paare (Netz–Fest, Netz–Tief, Fest–Tief), bei vier Gruppen wären es schon sechs und bei fünf zehn. Jeder einzelne t-Test hat seine eigene 5 %-Chance auf einen , auch wenn in Wahrheit gar kein Unterschied besteht. Diese kleinen Risiken summieren sich. Die Wahrscheinlichkeit, in der ganzen Familie von Tests mindestens einen Fehlalarm zu erwischen, heißt .

Probier es im FWER-Roulette unten gleich selbst aus: rein zufällige Daten, keinerlei echter Unterschied, und trotzdem klettert die Fehlalarmrate mit jedem Vergleich nach oben. Die (jeden Test zum strengeren Niveau α/c) zieht sie wieder herunter.

FWER-Roulette: wie der Fehlalarm mit vielen Vergleichen explodiert

Vergleiche g Gruppen REIN ZUFÄLLIGER Daten (H0 wahr) paarweise mit t-Tests. Wie oft schlägt mindestens einer fälschlich an? Schalte die Bonferroni-Korrektur dazu.

c = 6 Vergleiche

Fehlalarm (empirisch) = 19,7 %

Theorie 1 − (1 − α)^c = 26,5 %

Der gelbe Punkt ist die gemessene Fehlalarmrate aus 600 Runden, die korallene Kurve die Theorie 1 − (1 − α)^c. Ohne Korrektur klettert der Fehlalarm weit über die gewünschten 5 %. Schalte die Bonferroni-Korrektur (α/c) ein — der Punkt fällt zurück Richtung grüne 5 %-Linie.

Anzahl Gruppen g = 4 (→ c = 6 paarweise Vergleiche)

Bonferroni-Korrektur (Schwelle α/c)

Die Lösung: ein Test über die Varianzzerlegung

Die ANOVA prüft alle Gruppen auf einmal. Ihr Trick ist die : Die gesamte Streuung in den Lachsgrößen lässt sich sauber in zwei Teile zerlegen — einen Teil zwischen den Gruppen (wie weit die Käfig-Mittelwerte voneinander abweichen) und einen Teil innerhalb der Gruppen (wie sehr die Fische desselben Käfigs um ihr eigenes Mittel streuen).

Anschaulich teilt sich die Gesamtstreuung wie dieser Balken auf: Der korallene Anteil ist das, was die Käfigtypen erklären, der gedämpfte Teil bleibt unerklärt:

Beispiel: Lachsgröße in drei Käfigtypen

85 %

15 %

zwischen den Gruppen (Käfigtyp) (SS = 106,17) innerhalb der Gruppen (Rauschen) (SS = 18,75)

η² = 0,85

Die zentrale Intuition: F = zwischen ÷ innerhalb

Jetzt die wichtigste Idee der Lektion. Die ANOVA heißt , aber sie testet Unterschiede in den Mittelwerten. Über einen Umweg: Sie setzt die beiden Streuungsanteile ins Verhältnis. Aus den Quadratsummen werden zuerst mittlere Quadrate (MS) (Quadratsumme geteilt durch Freiheitsgrade), und ihr Quotient ist das .

Selbst ausprobieren: das F-Verhältnis

Drei Käfigtypen, Lachsgröße in cm. Mit dem ersten Regler veränderst du den Abstand der Gruppenmittel (das Signal), mit dem zweiten die Streuung innerhalb der Gruppen (das Rauschen). Unten zerlegt sich die Streuung live in „zwischen“ und „innerhalb“, und du siehst F, p und η². Probier:

Setz einen klaren Abstand und dreh die Streuung innerhalb klein: F schießt hoch, p wird winzig, der korallene „zwischen“-Anteil dominiert.
Lass den Abstand stehen, aber dreh die Streuung innerhalb groß — dasselbe Signal, jetzt im Rauschen ertränkt: F fällt, p steigt, nicht mehr signifikant.
Zieh den Abstand auf 0: alle Käfige gleich, F geht gegen 0, η² gegen 0.

F-Verhältnis zum Anfassen: Signal zwischen, Rauschen innerhalb

Drei Käfigtypen, Lachsgröße in cm. Schieb den Abstand der Gruppenmittel (Signal) und die Streuung innerhalb der Gruppen (Rauschen) — und sieh, wie F und p reagieren.

F = 25,44

p = < 0,001 · signifikant

MS_zw. = 768,0 · MS_inn. = 30,2

Varianzzerlegung: SS_total = SS_zwischen + SS_innerhalb

61 %

39 %

zwischen den Gruppen (SS = 1536,00) innerhalb der Gruppen (SS = 996,37)

η² = 0,61

Das F-Verhältnis teilt die Varianz zwischen den Gruppenmitteln durch die Varianz innerhalb der Gruppen. Schieb die Streuung innerhalb hoch → das Rauschen wächst, F schrumpft, p steigt (derselbe Abstand wird unbedeutend). Mehr Abstand der Mittel → F wächst, p sinkt.

Abstand der Gruppenmittel = 8,0 cm (Signal, zwischen den Gruppen)

0 (alle gleich)20 cm

Streuung innerhalb der Gruppen = 6,0 cm (Rauschen, SD je Gruppe)

1 (leise)20 (laut)

Voraussetzungen & die nicht-parametrische Alternative

Wie der t-Test ist auch die ANOVA an Annahmen geknüpft. Sind sie verletzt, wird der p-Wert unzuverlässig:

Nach der ANOVA: welche Gruppen? Und wie stark?

Ein signifikantes Ergebnis sagt nur: irgendein Käfig-Mittelwert weicht ab, aber nicht welcher. Diese Frage beantwortet ein . Der gängigste ist : Er vergleicht alle Gruppenpaare und hält dabei die familienweise Fehlerrate auf α. Er löst das multiple-Testen-Problem also sauber, statt es wie naive t-Tests zu ignorieren.

Und wie stark ist der Effekt? Dafür gibt es die : der Anteil der Gesamtstreuung, den die Gruppenzugehörigkeit erklärt. Es ist genau der korallene Anteil aus der Varianzzerlegung, und das ANOVA-Pendant zum R² der Regression.

Rechnen wir es für die Lachse durch. Aus der Varianzzerlegung kennen wir SS_zwischen = 106,17 und SS_innerhalb = 18,75, zusammen SS_total = 124,92. Also η² = 106,17 / 124,92 ≈ 0,85: Der Käfigtyp erklärt rund 85 % der gesamten Streuung in der Lachsgröße, genau der korallene Anteil aus dem Balken oben. Zur Einordnung dienen Cohens Faustwerte für η²:

So sieht das in R aus

Die ANOVA rechnest du mit aov() und liest sie mit summary(). Für die konkreten Paare folgt TukeyHSD(). So liest du die Ausgabe:

R Code (nur Anzeige)

# Lachsgroesse (cm) je Kaefigtyp; "kaefig" ist ein Faktor mit 3 Stufen.
modell <- aov(groesse ~ kaefig, data = lachse)
summary(modell)

Ausgabe

            Df Sum Sq Mean Sq F value   Pr(>F)
kaefig       2 106.17   53.08   25.48 0.000197 ***
Residuals    9  18.75   2.083
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

kaefig: Die Zeile „zwischen den Gruppen“: hier steckt die durch den Käfigtyp erklärte Streuung.
Residuals: Die Zeile „innerhalb der Gruppen“: das unerklärte Rauschen.
Df: Freiheitsgrade: k − 1 = 2 zwischen, N − k = 9 innerhalb.
Sum Sq: Die Quadratsummen SS: 106,17 zwischen und 18,75 innerhalb (zusammen SS_total).
Mean Sq: Mittlere Quadrate MS = Sum Sq / Df: 53,08 und 2,083 — die beiden Varianzschätzungen.
F value: Das F-Verhältnis = 53,08 / 2,083 = 25,48. Signal deutlich über Rauschen.
Pr(>F): Der rechtsseitige p-Wert = 0,000197 < 0,05 → mindestens ein Käfig-Mittel weicht ab.

Die ANOVA war signifikant. Aber welche Käfige unterscheiden sich? Das sagt der Post-hoc-Test:

R Code (nur Anzeige)

# Post-hoc: welche Kaefig-Paare unterscheiden sich? FWER bleibt kontrolliert.
TukeyHSD(modell)

Ausgabe

  Tukey multiple comparisons of means
    95% family-wise confidence level

$kaefig
                       diff     lwr     upr   p adj
Festkaefig-Netzkaefig   7.0   4.227   9.773  0.0002
Tiefkaefig-Netzkaefig   3.0   0.227   5.773  0.0345
Tiefkaefig-Festkaefig  -4.0  -6.773  -1.227  0.0079

family-wise confidence level: Tukey hält die FAMILIENWEISE Fehlerrate auf 5 % — es korrigiert das multiple Testen für dich.
diff: Die geschätzte Mittelwertdifferenz des Paares (in cm).
lwr: Untere Grenze des 95 %-Konfidenzintervalls der Differenz. Schließt es die 0 ein, ist das Paar nicht signifikant.
p adj: Der für alle Vergleiche KORRIGIERTE p-Wert. Hier sind alle drei Paare < 0,05 — sie unterscheiden sich alle.

Zwei Faktoren auf einmal: die zweifaktorielle ANOVA

Bisher hatten wir einen Faktor (den Käfigtyp). Oft wirken aber zwei Einflüsse gleichzeitig. Stell dir vor, du untersuchst das Wachstum von Pflanzen unter zwei Faktoren: Düngung (mit/ohne) und Lichtmenge (wenig/viel). Werden beide Faktoren in allen Kombinationen geprüft (sie sind also ), dann rechnet man eine . Sie liefert nicht einen, sondern drei Tests: den Haupteffekt der Düngung, den Haupteffekt des Lichts und, besonders spannend, ihre Wechselwirkung.

Ein bedeutet: Die Wirkung des einen Faktors hängt von der Stufe des anderen ab. Vielleicht hilft die Düngung den Pflanzen nur, wenn genug Licht da ist, und bleibt im Schatten wirkungslos. Dann kannst du den Düngeeffekt nicht mehr für sich allein angeben, er ist eben licht-abhängig. Genau diese „es kommt darauf an“-Situation steckt im Interaktionsterm.

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Du willst die Größe von Lachsen in drei Käfigtypen vergleichen. Warum rechnest du EINE ANOVA statt mehrerer einzelner paarweiser t-Tests?
2. Was vergleicht das F-Verhältnis in deiner ANOVA — und was bedeutet ein großes F?
3. „Eine signifikante ANOVA (p < 0,05) sagt dir bereits, WELCHE Käfigtypen sich in der Lachsgröße unterscheiden.“
4. Obwohl die ANOVA mit Varianzen rechnet, dreht sich ihre Nullhypothese um etwas anderes. Was genau besagt H₀ bei einer einfaktoriellen ANOVA über drei Käfigtypen?