Klausur-relevant · Testen

t-Tests & nicht-parametrische Alternativen

Zwei Zugvogelarten, Buchfink und Mönchsgrasmücke, legen unterschiedlich weite Strecken ins Winterquartier zurück. Du misst die Zugdistanz einiger Vögel jeder Art und siehst: Im Schnitt fliegt die eine Art ein gutes Stück weiter. Aber ist das ein echter Artunterschied oder nur Zufall zwischen zwei Stichproben? Der beantwortet genau das. In dieser Lektion lernst du die eine Intuition, die alles zusammenhält: Der t-Wert ist ein Signal-zu-Rausch-Verhältnis.

Kurzer Rückblick auf die letzte Lektion:

Weißt du noch?

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Was besagt ein p-Wert von 0,03?
2. Ein nicht-signifikantes Ergebnis (p > α) beweist, dass es keinen Unterschied gibt.

Die zentrale Idee: Signal geteilt durch Rauschen

Stell dir den t-Wert als eine einzige, ehrliche Frage vor: Wie groß ist der beobachtete Unterschied im Vergleich dazu, wie stark er allein durch Zufall schwanken würde? Oben im Zähler steht das Signal, die Differenz der mittleren Zugdistanzen. Unten im Nenner steht das Rauschen: der der Differenz, also wie stark dieser Unterschied von Stichprobe zu Stichprobe wackeln würde.

Und woher kommt die 2 unter der Wurzel? Du vergleichst zwei Gruppen, und jede bringt ihre eigene Streuung mit. Beide Unsicherheiten addieren sich zum Rauschen der Differenz — daher die 2. Die folgende Formel gilt für den vereinfachten Fall gleich großer Gruppen (gleiches n) mit gleicher Streuung (gleiches s) — genau die Welt des Reglers gleich unten.

Sind die Gruppen unterschiedlich groß oder streuen sie unterschiedlich stark, rechnet man den Standardfehler aus beiden Stichprobenvarianzen einzeln — die Signal-durch-Rausch-Intuition bleibt dabei genau dieselbe.

Selbst ausprobieren: der Signal-vs-Rausch-Regler

Hier wird die Intuition zum Anfassen. Die grüne Glocke ist die Zugdistanz der Buchfinken, die korallene die der Mönchsgrasmücken; die Punkte sind beispielhafte gemessene Vögel. Oben liest du live den t-Wert und den p-Wert ab. Probier:

Lass Δ fest und dreh die Streuung s hoch: t schrumpft, p wächst, derselbe Unterschied wird unbedeutend.
Dreh s wieder klein — t wächst, p sinkt, das Ergebnis kippt zurück auf signifikant.
Erhöh den Stichprobenumfang n: über das √n im Standardfehler steigt t ebenfalls, p fällt.
Setz Δ = 0: Es gibt keinen Unterschied mehr, t fällt auf 0 und p geht gegen 1.

Signal-zu-Rausch-Regler: der t-Wert zum Anfassen

Zwei Vogelarten und ihre Zugdistanz: Buchfink (grün) gegen Mönchsgrasmücke (koralle). Δ ist das Signal, die Streuung s das Rauschen, n die Datenmenge. Sieh zu, wie t und p reagieren.

t = 3,79

p = < 0,001 · signifikant

SE = 79 km · df = 38

Der t-Wert ist Signal ÷ Rausch: t = Δ / SE mit SE = s·√(2/n). Dreh die Streuung s hoch → der Standardfehler wächst, t schrumpft, p steigt (dieselbe Differenz wird unbedeutend). Mehr Daten n oder ein größeres Δ → t wächst, p sinkt.

Mittelwertdifferenz Δ = 300 km (Signal)

0 (kein Unterschied)800 km

Streuung s = 250 km (Rauschen, SD je Gruppe)

50 (leise)700 (laut)

Stichprobenumfang je Gruppe n = 20

3120

Wie groß ist der Effekt? Cohen's d

Ein p-Wert sagt dir, ob ein Unterschied wahrscheinlich echt ist — aber nicht, wie groß er ist. Genau das ist der Unterschied zwischen signifikant und relevant. Wie du am Regler gesehen hast, wird bei riesigem n schon eine winzige Differenz signifikant: Buchfink und Mönchsgrasmücke könnten sich im Mittel um lächerliche 5 km unterscheiden, und mit genug Vögeln wäre selbst das „hochsignifikant“, biologisch aber völlig belanglos. Deshalb gehört zu jedem p-Wert eine .

Das gängigste Maß beim t-Test ist Cohen's d. Die Idee ist verblüffend einfach: Miss die Mittelwertdifferenz nicht in Kilometern, sondern in Standardabweichungen — dann wird sie über Arten und Messgrößen hinweg vergleichbar. Als Maßstab dient dabei die gepoolte Standardabweichung s_p: die gemeinsame Streuung, die man aus beiden Gruppen zu einem Wert zusammenfasst. Ein d = 1 heißt dann „die beiden Arten liegen im Schnitt eine ganze Streuungsbreite auseinander“, eine Aussage, die unabhängig von Stichprobengröße und Messeinheit ist.

Rechnen wir es für die Zugvögel durch. Die beiden Arten unterscheiden sich um Δ = 310 km, und die gepoolte Streuung der Zugdistanzen beträgt s_p ≈ 320 km. Also d = 310 / 320 ≈ 0,97, ein großer Effekt: Die mittlere Zugdistanz der beiden Arten liegt fast eine volle Standardabweichung auseinander. Zur Einordnung dienen Cohens Faustwerte:

Drei Situationen, drei t-Tests

Je nach Datenlage gibt es verschiedene Spielarten des t-Tests. Die Signal-durch-Rausch-Idee steckt in allen.

1 · Ein-Stichproben-t-Test

Nimm ihn, wenn du nur eine Gruppe hast und sie gegen einen festen, vorher bekannten Vergleichswert prüfst. Der vergleicht den Mittelwert einer Stichprobe mit diesem festen Wert μ₀ (sprich „mü null“ — der erwartete Wert aus Theorie oder Literatur). Beispiel: Aus der Literatur „weiß“ man, Buchfinken ziehen im Mittel 1500 km, also μ₀ = 1500. Stimmt das für deine gemessene Population? Signal ist x̄ − μ₀, Rauschen der Standardfehler des einen Mittelwerts.

2 · Zwei unabhängige Stichproben: Student vs. Welch

Nimm sie, wenn du zwei unabhängige Gruppen vergleichst (Buchfink vs. Mönchsgrasmücke). Hier gibt es zwei Varianten, und sie unterscheiden sich nur in einer Frage: Darfst du annehmen, dass beide Gruppen gleich stark streuen? Der nimmt an, dass beide Gruppen dieselbe Varianz haben, und „poolt“ die Streuung zu einem gemeinsamen Schätzer. Der verzichtet auf diese Annahme: Er erlaubt ungleiche Varianzen und korrigiert dafür die Freiheitsgrade (mit einer kleinen Korrektur namens Welch-Satterthwaite — die Details brauchst du dir nicht zu merken). In R ist Welch der Standard von t.test(), und das aus gutem Grund: Er ist robuster und kostet bei gleichen Varianzen kaum Genauigkeit.

3 · Gepaarter t-Test

Manchmal sind die beiden Messreihen nicht unabhängig, sondern paarweise verknüpft: dieselbe Pflanze vor und nach einer Düngebehandlung, oder derselbe Vogel in zwei aufeinanderfolgenden Jahren. Dann bildet der für jedes Paar die Differenz und testet, ob deren Mittelwert null ist. Der entscheidende Vorteil: Die Paarbildung rechnet die Schwankung zwischen den Individuen heraus: weniger Rauschen, mehr Power. Wichtig: Die Normalverteilungsannahme betrifft hier die Differenzen, nicht die Rohwerte.

Voraussetzungen — und ihre verdrehte Logik

Damit ein t-Test gültige p-Werte liefert, müssen drei Dinge halten:

Prüfen kannst du das mit eigenen Tests: der für die Normalität (in R shapiro.test()) und der F-Test für die (in R var.test()). Doch Vorsicht: Hier lauert ein klassischer Stolperstein.

So sieht das in R aus

Der Befehl t.test() erledigt alles. Standardmäßig rechnet er den Welch-Test. So liest du die Ausgabe:

R Code (nur Anzeige)

# Zugdistanz (km) zweier unabhaengiger Arten vergleichen
t.test(distanz ~ art, data = voegel)

Ausgabe

	Welch Two Sample t-test

data:  distanz by art
t = -3.142, df = 36.8, p-value = 0.003281
alternative hypothesis: true difference in means
  between group Buchfink and group Moenchsgrasmuecke is not equal to 0
95 percent confidence interval:
 -512.4  -108.7
sample estimates:
  mean in group Buchfink  mean in group Moenchsgrasmuecke
                  1487.3                           1797.8

t = -3.142: Die Teststatistik: Signal ÷ Rausch. Negativ, weil die erste Gruppe (Buchfink) den kleineren Mittelwert hat. Entscheidend ist der Betrag, |t| = 3,14.
df = 36.8: Die Welch-Freiheitsgrade — nicht ganzzahlig, weil Welch sie aus beiden Varianzen korrigiert. Das verrät dir, dass hier kein gepoolter Student-Test lief.
p-value = 0.003281: Klar kleiner als 0,05 → der Unterschied ist signifikant. Unter „kein Unterschied“ wäre ein so großes |t| sehr unwahrscheinlich.
95 percent ...: Das Konfidenzintervall der Differenz: −512 bis −109 km. Es schließt die 0 NICHT ein — passt zum signifikanten p-Wert.
sample estimates: Die beiden Gruppenmittel: 1487 km vs. 1798 km. Die Differenz von rund 310 km ist dein Signal.

Brauchst du den Student-Test mit gepoolter Varianz, setzt du var.equal = TRUE; für gepaarte Daten paired = TRUE.

Wenn die Normalität nicht hält: rangbasierte Alternativen

Ist die Normalverteilungsannahme deutlich verletzt (oder ist deine Stichprobe so klein, dass du es nicht beurteilen kannst), dann greifst du zu einem . Diese Tests sind rangbasiert: Statt mit den Rohwerten rechnen sie nur mit deren Reihenfolge, den Rängen, und vergleichen eher die Lage (Mediane) als die Mittelwerte. Damit sind sie verteilungsfrei — sie setzen keine bestimmte Verteilung (etwa die Normalverteilung) voraus — und robuster gegen Ausreißer: Ein einzelner extrem weit ziehender Vogel kippt das Ergebnis nicht. Der Preis: etwas geringere Power, wenn die Daten in Wahrheit doch normalverteilt wären.

R Code (nur Anzeige)

# Verteilungsfreie Alternative: dieselben Daten, ohne Normalitaetsannahme
wilcox.test(distanz ~ art, data = voegel)

Ausgabe

	Wilcoxon rank sum test with continuity correction

data:  distanz by art
W = 88, p-value = 0.004713
alternative hypothesis: true location shift is not equal to 0

W = 88: Die Rangsummen-Teststatistik (Mann-Whitney-U) — sie beruht auf den Rängen der Distanzen, nicht auf ihren genauen Werten. Deshalb robust gegen Ausreißer.
p-value = 0.004713: Auch hier signifikant. Das Ergebnis bestätigt den t-Test, ohne Normalverteilung vorauszusetzen.
location shift: Getestet wird eine Lageverschiebung (grob: der Median-/Rangunterschied), nicht der Mittelwert. Daher „location shift“ statt „difference in means“.

Welcher Test? Klick dich durch

Der Entscheidungsbaum führt dich durch die vier Schlüsselfragen — Datentyp, Design, Normalität, Varianzen — bis zum passenden Test. Beantworte sie für dein Zugvogel-Beispiel und sieh, wo du landest. (Genau diesen Baum vertieft später die Lektion „Welcher Test?“.)

Entscheidungsbaum: Welcher Mittelwert-Test?

Beantworte die Fragen Schritt für Schritt — am Ende leuchtet der passende Test auf. Jederzeit zurücksetzen.

Sind deine Daten metrisch (Messwerte wie Zugdistanz in km)?

Mittelwertvergleiche brauchen metrische Daten. Häufigkeiten/Kategorien gehören zu anderen Tests (Chi-Quadrat).

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Du misst dieselbe Mittelwertdifferenz Δ = 300 km in der Zugdistanz von Buchfink und Mönchsgrasmücke. In welchem Szenario ist das Ergebnis am ehesten signifikant?
2. Du vergleichst die Zugdistanz zweier unabhängiger Arten. Ein F-Test (var.test) auf gleiche Varianzen liefert p = 0,40. Was bedeutet dieser p-Wert hier — und welchen Test wählst du?
3. Wenn die Normalverteilungsannahme verletzt ist, ist der Mann-Whitney-U-Test eine sinnvolle Alternative zum unabhängigen t-Test.
4. Du misst die Blattgröße derselben Pflanzen vor und nach einer Behandlung. Warum hat der gepaarte t-Test hier oft mehr Power als ein unabhängiger t-Test auf denselben Werten?