t-Tests & nicht-parametrische Alternativen
Zwei Zugvogelarten, Buchfink und Mönchsgrasmücke, legen unterschiedlich weite Strecken ins Winterquartier zurück. Du misst die Zugdistanz einiger Vögel jeder Art und siehst: Im Schnitt fliegt die eine Art ein gutes Stück weiter. Aber ist das ein echter Artunterschied oder nur Zufall zwischen zwei Stichproben? Der beantwortet genau das. In dieser Lektion lernst du die eine Intuition, die alles zusammenhält: Der t-Wert ist ein Signal-zu-Rausch-Verhältnis.
Die zentrale Idee: Signal geteilt durch Rauschen
Stell dir den t-Wert als eine einzige, ehrliche Frage vor: Wie groß ist der beobachtete Unterschied im Vergleich dazu, wie stark er allein durch Zufall schwanken würde? Oben im Zähler steht das Signal, die Differenz der mittleren Zugdistanzen. Unten im Nenner steht das Rauschen: der der Differenz, also wie stark dieser Unterschied von Stichprobe zu Stichprobe wackeln würde.
Die Formel SE = s·√(2/n) gilt für den vereinfachten Fall gleich großer Gruppen mit gleicher Streuung, genau die Welt des Reglers weiter unten. Im Allgemeinen rechnet man den Standardfehler aus beiden Stichprobenvarianzen; die Intuition bleibt aber dieselbe.
Selbst ausprobieren: der Signal-vs-Rausch-Regler
Hier wird die Intuition zum Anfassen. Die grüne Glocke ist die Zugdistanz der Buchfinken, die korallene die der Mönchsgrasmücken; die Punkte sind beispielhafte gemessene Vögel. Oben liest du live den t-Wert und den p-Wert ab. Probier:
- Lass Δ fest und dreh die Streuung s hoch: t schrumpft, p wächst, derselbe Unterschied wird unbedeutend.
- Dreh s wieder klein — t wächst, p sinkt, das Ergebnis kippt zurück auf signifikant.
- Erhöh den Stichprobenumfang n: über das √n im Standardfehler steigt t ebenfalls, p fällt.
- Setz Δ = 0: Es gibt keinen Unterschied mehr, t fällt auf 0 und p geht gegen 1.
Signal-zu-Rausch-Regler: der t-Wert zum Anfassen
Zwei Vogelarten und ihre Zugdistanz: Buchfink (grün) gegen Mönchsgrasmücke (koralle). Δ ist das Signal, die Streuung s das Rauschen, n die Datenmenge. Sieh zu, wie t und p reagieren.
Der t-Wert ist Signal ÷ Rausch: t = Δ / SE mit SE = s·√(2/n). Dreh die Streuung s hoch → der Standardfehler wächst, t schrumpft, p steigt (dieselbe Differenz wird unbedeutend). Mehr Daten n oder ein größeres Δ → t wächst, p sinkt.
Wie groß ist der Effekt? Cohen's d
Ein p-Wert sagt dir, ob ein Unterschied wahrscheinlich echt ist — aber nicht, wie groß er ist. Genau das ist der Unterschied zwischen signifikant und relevant. Wie du am Regler gesehen hast, wird bei riesigem n schon eine winzige Differenz signifikant: Buchfink und Mönchsgrasmücke könnten sich im Mittel um lächerliche 5 km unterscheiden, und mit genug Vögeln wäre selbst das „hochsignifikant“, biologisch aber völlig belanglos. Deshalb gehört zu jedem p-Wert eine .
Das gängigste Maß beim t-Test ist Cohen's d. Die Idee ist verblüffend einfach: Miss die Mittelwertdifferenz nicht in Kilometern, sondern in Standardabweichungen. Ein d = 1 heißt dann „die beiden Arten liegen im Schnitt eine ganze Streuungsbreite auseinander“, eine Aussage, die unabhängig von Stichprobengröße und Messeinheit ist.
Rechnen wir es für die Zugvögel durch. Die beiden Arten unterscheiden sich um Δ = 310 km, und die gepoolte Streuung der Zugdistanzen beträgt sp ≈ 320 km. Also d = 310 / 320 ≈ 0,97, ein großer Effekt: Die mittlere Zugdistanz der beiden Arten liegt fast eine volle Standardabweichung auseinander. Zur Einordnung dienen Cohens Faustwerte:
Drei Situationen, drei t-Tests
Je nach Datenlage gibt es verschiedene Spielarten des t-Tests. Die Signal-durch-Rausch-Idee steckt in allen.
1 · Ein-Stichproben-t-Test
Der vergleicht den Mittelwert einer Stichprobe mit einem festen Erwartungswert μ₀. Beispiel: Aus der Literatur „weiß“ man, Buchfinken ziehen im Mittel 1500 km. Stimmt das für deine gemessene Population? Signal ist x̄ − μ₀, Rauschen der Standardfehler des einen Mittelwerts.
2 · Zwei unabhängige Stichproben: Student vs. Welch
Bei zwei unabhängigen Gruppen (Buchfink vs. Mönchsgrasmücke) gibt es zwei
Varianten. Der nimmt an, dass beide Gruppen dieselbe Varianz haben, und „poolt“ die Streuung zu einem gemeinsamen
Schätzer. Der verzichtet auf diese Annahme: Er erlaubt ungleiche Varianzen und korrigiert dafür die Freiheitsgrade
(Welch-Satterthwaite). In R ist Welch der Standard von t.test(), und das aus gutem Grund: Er ist robuster und kostet bei
gleichen Varianzen kaum Genauigkeit.
3 · Gepaarter t-Test
Manchmal sind die beiden Messreihen nicht unabhängig, sondern paarweise verknüpft: dieselbe Pflanze vor und nach einer Düngebehandlung, oder derselbe Vogel in zwei aufeinanderfolgenden Jahren. Dann bildet der für jedes Paar die Differenz und testet, ob deren Mittelwert null ist. Der entscheidende Vorteil: Die Paarbildung rechnet die Schwankung zwischen den Individuen heraus: weniger Rauschen, mehr Power. Wichtig: Die Normalverteilungsannahme betrifft hier die Differenzen, nicht die Rohwerte.
Voraussetzungen — und ihre verdrehte Logik
Damit ein t-Test gültige p-Werte liefert, müssen drei Dinge halten:
Prüfen kannst du das mit eigenen Tests: der für die
Normalität (in R shapiro.test()) und der F-Test für die (in R var.test()).
Doch Vorsicht: Hier lauert ein klassischer Stolperstein.
So sieht das in R aus
Der Befehl t.test() erledigt alles. Standardmäßig rechnet
er den Welch-Test. So liest du die Ausgabe:
# Zugdistanz (km) zweier unabhaengiger Arten vergleichen
t.test(distanz ~ art, data = voegel) Welch Two Sample t-test
data: distanz by art
t = -3.142, df = 36.8, p-value = 0.003281
alternative hypothesis: true difference in means
between group Buchfink and group Moenchsgrasmuecke is not equal to 0
95 percent confidence interval:
-512.4 -108.7
sample estimates:
mean in group Buchfink mean in group Moenchsgrasmuecke
1487.3 1797.8- t = -3.142
- Die Teststatistik: Signal ÷ Rausch. Negativ, weil die erste Gruppe (Buchfink) den kleineren Mittelwert hat. Entscheidend ist der Betrag, |t| = 3,14.
- df = 36.8
- Die Welch-Freiheitsgrade — nicht ganzzahlig, weil Welch sie aus beiden Varianzen korrigiert. Das verrät dir, dass hier kein gepoolter Student-Test lief.
- p-value = 0.003281
- Klar kleiner als 0,05 → der Unterschied ist signifikant. Unter „kein Unterschied“ wäre ein so großes |t| sehr unwahrscheinlich.
- 95 percent ...
- Das Konfidenzintervall der Differenz: −512 bis −109 km. Es schließt die 0 NICHT ein — passt zum signifikanten p-Wert.
- sample estimates
- Die beiden Gruppenmittel: 1487 km vs. 1798 km. Die Differenz von rund 310 km ist dein Signal.
Brauchst du den Student-Test mit gepoolter Varianz, setzt du var.equal = TRUE; für gepaarte Daten paired = TRUE.
Wenn die Normalität nicht hält: rangbasierte Alternativen
Ist die Normalverteilungsannahme deutlich verletzt (oder ist deine Stichprobe so klein, dass du es nicht beurteilen kannst), dann greifst du zu einem . Statt mit den Rohwerten arbeiten diese Tests mit deren Rängen und vergleichen eher die Lage (Mediane) als die Mittelwerte. Sie sind verteilungsfrei und robuster gegen Ausreißer: Ein einzelner extrem weit ziehender Vogel kippt das Ergebnis nicht. Der Preis: etwas geringere Power, wenn die Daten in Wahrheit doch normalverteilt wären.
# Verteilungsfreie Alternative: dieselben Daten, ohne Normalitaetsannahme
wilcox.test(distanz ~ art, data = voegel) Wilcoxon rank sum test with continuity correction data: distanz by art W = 88, p-value = 0.004713 alternative hypothesis: true location shift is not equal to 0
- W = 88
- Die Rangsummen-Teststatistik (Mann-Whitney-U) — sie beruht auf den Rängen der Distanzen, nicht auf ihren genauen Werten. Deshalb robust gegen Ausreißer.
- p-value = 0.004713
- Auch hier signifikant. Das Ergebnis bestätigt den t-Test, ohne Normalverteilung vorauszusetzen.
- location shift
- Getestet wird eine Lageverschiebung (grob: der Median-/Rangunterschied), nicht der Mittelwert. Daher „location shift“ statt „difference in means“.
Welcher Test? Klick dich durch
Der Entscheidungsbaum führt dich durch die vier Schlüsselfragen — Datentyp, Design, Normalität, Varianzen — bis zum passenden Test. Beantworte sie für dein Zugvogel-Beispiel und sieh, wo du landest. (Genau diesen Baum vertieft später die Lektion „Welcher Test?“.)
Entscheidungsbaum: Welcher Mittelwert-Test?
Beantworte die Fragen Schritt für Schritt — am Ende leuchtet der passende Test auf. Jederzeit zurücksetzen.
Sind deine Daten metrisch (Messwerte wie Zugdistanz in km)?
Mittelwertvergleiche brauchen metrische Daten. Häufigkeiten/Kategorien gehören zu anderen Tests (Chi-Quadrat).
Sitzt es? Drei kurze Fragen
Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.
Selbsttest
Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.
1. Du misst dieselbe Mittelwertdifferenz Δ = 300 km in der Zugdistanz von Buchfink und Mönchsgrasmücke. In welchem Szenario ist das Ergebnis am ehesten signifikant?
2. Du vergleichst die Zugdistanz zweier unabhängiger Arten. Ein F-Test (var.test) auf gleiche Varianzen liefert p = 0,40. Was bedeutet dieser p-Wert hier — und welchen Test wählst du?
3. Wenn die Normalverteilungsannahme verletzt ist, ist der Mann-Whitney-U-Test eine sinnvolle Alternative zum unabhängigen t-Test.