Klausur-relevant · Testen

t-Tests & nicht-parametrische Alternativen

Zwei Zugvogelarten, Buchfink und Mönchsgrasmücke, legen unterschiedlich weite Strecken ins Winterquartier zurück. Du misst die Zugdistanz einiger Vögel jeder Art und siehst: Im Schnitt fliegt die eine Art ein gutes Stück weiter. Aber ist das ein echter Artunterschied oder nur Zufall zwischen zwei Stichproben? Der beantwortet genau das. In dieser Lektion lernst du die eine Intuition, die alles zusammenhält: Der t-Wert ist ein Signal-zu-Rausch-Verhältnis.

Die zentrale Idee: Signal geteilt durch Rauschen

Stell dir den t-Wert als eine einzige, ehrliche Frage vor: Wie groß ist der beobachtete Unterschied im Vergleich dazu, wie stark er allein durch Zufall schwanken würde? Oben im Zähler steht das Signal, die Differenz der mittleren Zugdistanzen. Unten im Nenner steht das Rauschen: der der Differenz, also wie stark dieser Unterschied von Stichprobe zu Stichprobe wackeln würde.

Die Formel SE = s·√(2/n) gilt für den vereinfachten Fall gleich großer Gruppen mit gleicher Streuung, genau die Welt des Reglers weiter unten. Im Allgemeinen rechnet man den Standardfehler aus beiden Stichprobenvarianzen; die Intuition bleibt aber dieselbe.

Selbst ausprobieren: der Signal-vs-Rausch-Regler

Hier wird die Intuition zum Anfassen. Die grüne Glocke ist die Zugdistanz der Buchfinken, die korallene die der Mönchsgrasmücken; die Punkte sind beispielhafte gemessene Vögel. Oben liest du live den t-Wert und den p-Wert ab. Probier:

  1. Lass Δ fest und dreh die Streuung s hoch: t schrumpft, p wächst, derselbe Unterschied wird unbedeutend.
  2. Dreh s wieder klein — t wächst, p sinkt, das Ergebnis kippt zurück auf signifikant.
  3. Erhöh den Stichprobenumfang n: über das √n im Standardfehler steigt t ebenfalls, p fällt.
  4. Setz Δ = 0: Es gibt keinen Unterschied mehr, t fällt auf 0 und p geht gegen 1.

Signal-zu-Rausch-Regler: der t-Wert zum Anfassen

Zwei Vogelarten und ihre Zugdistanz: Buchfink (grün) gegen Mönchsgrasmücke (koralle). Δ ist das Signal, die Streuung s das Rauschen, n die Datenmenge. Sieh zu, wie t und p reagieren.

t = 3,79
p = < 0,001 · signifikant
SE = 79 km · df = 38
Δ = 300 kmBuchfinkMönchsgrasmückeZugdistanz (km) →

Der t-Wert ist Signal ÷ Rausch: t = Δ / SE mit SE = s·√(2/n). Dreh die Streuung s hoch → der Standardfehler wächst, t schrumpft, p steigt (dieselbe Differenz wird unbedeutend). Mehr Daten n oder ein größeres Δ → t wächst, p sinkt.

0 (kein Unterschied)800 km
50 (leise)700 (laut)
3120

Wie groß ist der Effekt? Cohen's d

Ein p-Wert sagt dir, ob ein Unterschied wahrscheinlich echt ist — aber nicht, wie groß er ist. Genau das ist der Unterschied zwischen signifikant und relevant. Wie du am Regler gesehen hast, wird bei riesigem n schon eine winzige Differenz signifikant: Buchfink und Mönchsgrasmücke könnten sich im Mittel um lächerliche 5 km unterscheiden, und mit genug Vögeln wäre selbst das „hochsignifikant“, biologisch aber völlig belanglos. Deshalb gehört zu jedem p-Wert eine .

Das gängigste Maß beim t-Test ist Cohen's d. Die Idee ist verblüffend einfach: Miss die Mittelwertdifferenz nicht in Kilometern, sondern in Standardabweichungen. Ein d = 1 heißt dann „die beiden Arten liegen im Schnitt eine ganze Streuungsbreite auseinander“, eine Aussage, die unabhängig von Stichprobengröße und Messeinheit ist.

Rechnen wir es für die Zugvögel durch. Die beiden Arten unterscheiden sich um Δ = 310 km, und die gepoolte Streuung der Zugdistanzen beträgt sp ≈ 320 km. Also d = 310 / 320 ≈ 0,97, ein großer Effekt: Die mittlere Zugdistanz der beiden Arten liegt fast eine volle Standardabweichung auseinander. Zur Einordnung dienen Cohens Faustwerte:

Drei Situationen, drei t-Tests

Je nach Datenlage gibt es verschiedene Spielarten des t-Tests. Die Signal-durch-Rausch-Idee steckt in allen.

1 · Ein-Stichproben-t-Test

Der vergleicht den Mittelwert einer Stichprobe mit einem festen Erwartungswert μ₀. Beispiel: Aus der Literatur „weiß“ man, Buchfinken ziehen im Mittel 1500 km. Stimmt das für deine gemessene Population? Signal ist x̄ − μ₀, Rauschen der Standardfehler des einen Mittelwerts.

2 · Zwei unabhängige Stichproben: Student vs. Welch

Bei zwei unabhängigen Gruppen (Buchfink vs. Mönchsgrasmücke) gibt es zwei Varianten. Der nimmt an, dass beide Gruppen dieselbe Varianz haben, und „poolt“ die Streuung zu einem gemeinsamen Schätzer. Der verzichtet auf diese Annahme: Er erlaubt ungleiche Varianzen und korrigiert dafür die Freiheitsgrade (Welch-Satterthwaite). In R ist Welch der Standard von t.test(), und das aus gutem Grund: Er ist robuster und kostet bei gleichen Varianzen kaum Genauigkeit.

3 · Gepaarter t-Test

Manchmal sind die beiden Messreihen nicht unabhängig, sondern paarweise verknüpft: dieselbe Pflanze vor und nach einer Düngebehandlung, oder derselbe Vogel in zwei aufeinanderfolgenden Jahren. Dann bildet der für jedes Paar die Differenz und testet, ob deren Mittelwert null ist. Der entscheidende Vorteil: Die Paarbildung rechnet die Schwankung zwischen den Individuen heraus: weniger Rauschen, mehr Power. Wichtig: Die Normalverteilungsannahme betrifft hier die Differenzen, nicht die Rohwerte.

Voraussetzungen — und ihre verdrehte Logik

Damit ein t-Test gültige p-Werte liefert, müssen drei Dinge halten:

Prüfen kannst du das mit eigenen Tests: der für die Normalität (in R shapiro.test()) und der F-Test für die (in R var.test()). Doch Vorsicht: Hier lauert ein klassischer Stolperstein.

So sieht das in R aus

Der Befehl t.test() erledigt alles. Standardmäßig rechnet er den Welch-Test. So liest du die Ausgabe:

R Code (nur Anzeige)
# Zugdistanz (km) zweier unabhaengiger Arten vergleichen
t.test(distanz ~ art, data = voegel)
Ausgabe
	Welch Two Sample t-test

data:  distanz by art
t = -3.142, df = 36.8, p-value = 0.003281
alternative hypothesis: true difference in means
  between group Buchfink and group Moenchsgrasmuecke is not equal to 0
95 percent confidence interval:
 -512.4  -108.7
sample estimates:
  mean in group Buchfink  mean in group Moenchsgrasmuecke
                  1487.3                          1797.8
t = -3.142
Die Teststatistik: Signal ÷ Rausch. Negativ, weil die erste Gruppe (Buchfink) den kleineren Mittelwert hat. Entscheidend ist der Betrag, |t| = 3,14.
df = 36.8
Die Welch-Freiheitsgrade — nicht ganzzahlig, weil Welch sie aus beiden Varianzen korrigiert. Das verrät dir, dass hier kein gepoolter Student-Test lief.
p-value = 0.003281
Klar kleiner als 0,05 → der Unterschied ist signifikant. Unter „kein Unterschied“ wäre ein so großes |t| sehr unwahrscheinlich.
95 percent ...
Das Konfidenzintervall der Differenz: −512 bis −109 km. Es schließt die 0 NICHT ein — passt zum signifikanten p-Wert.
sample estimates
Die beiden Gruppenmittel: 1487 km vs. 1798 km. Die Differenz von rund 310 km ist dein Signal.

Brauchst du den Student-Test mit gepoolter Varianz, setzt du var.equal = TRUE; für gepaarte Daten paired = TRUE.

Wenn die Normalität nicht hält: rangbasierte Alternativen

Ist die Normalverteilungsannahme deutlich verletzt (oder ist deine Stichprobe so klein, dass du es nicht beurteilen kannst), dann greifst du zu einem . Statt mit den Rohwerten arbeiten diese Tests mit deren Rängen und vergleichen eher die Lage (Mediane) als die Mittelwerte. Sie sind verteilungsfrei und robuster gegen Ausreißer: Ein einzelner extrem weit ziehender Vogel kippt das Ergebnis nicht. Der Preis: etwas geringere Power, wenn die Daten in Wahrheit doch normalverteilt wären.

R Code (nur Anzeige)
# Verteilungsfreie Alternative: dieselben Daten, ohne Normalitaetsannahme
wilcox.test(distanz ~ art, data = voegel)
Ausgabe
	Wilcoxon rank sum test with continuity correction

data:  distanz by art
W = 88, p-value = 0.004713
alternative hypothesis: true location shift is not equal to 0
W = 88
Die Rangsummen-Teststatistik (Mann-Whitney-U) — sie beruht auf den Rängen der Distanzen, nicht auf ihren genauen Werten. Deshalb robust gegen Ausreißer.
p-value = 0.004713
Auch hier signifikant. Das Ergebnis bestätigt den t-Test, ohne Normalverteilung vorauszusetzen.
location shift
Getestet wird eine Lageverschiebung (grob: der Median-/Rangunterschied), nicht der Mittelwert. Daher „location shift“ statt „difference in means“.

Welcher Test? Klick dich durch

Der Entscheidungsbaum führt dich durch die vier Schlüsselfragen — Datentyp, Design, Normalität, Varianzen — bis zum passenden Test. Beantworte sie für dein Zugvogel-Beispiel und sieh, wo du landest. (Genau diesen Baum vertieft später die Lektion „Welcher Test?“.)

Entscheidungsbaum: Welcher Mittelwert-Test?

Beantworte die Fragen Schritt für Schritt — am Ende leuchtet der passende Test auf. Jederzeit zurücksetzen.

Sind deine Daten metrisch (Messwerte wie Zugdistanz in km)?

Mittelwertvergleiche brauchen metrische Daten. Häufigkeiten/Kategorien gehören zu anderen Tests (Chi-Quadrat).

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

  1. 1. Du misst dieselbe Mittelwertdifferenz Δ = 300 km in der Zugdistanz von Buchfink und Mönchsgrasmücke. In welchem Szenario ist das Ergebnis am ehesten signifikant?

  2. 2. Du vergleichst die Zugdistanz zweier unabhängiger Arten. Ein F-Test (var.test) auf gleiche Varianzen liefert p = 0,40. Was bedeutet dieser p-Wert hier — und welchen Test wählst du?

  3. 3. Wenn die Normalverteilungsannahme verletzt ist, ist der Mann-Whitney-U-Test eine sinnvolle Alternative zum unabhängigen t-Test.