Vertiefung · Abschluss

Welcher Test?

Du hast den ganzen Werkzeugkasten kennengelernt: t-Tests, Chi-Quadrat, ANOVA, Korrelation, Regression und ihre nicht-parametrischen Geschwister. Diese letzte Lektion verknüpft alles zu der einen praktischen Frage, vor der du in der echten Auswertung stehst: Welchen Test nimmst du eigentlich? Die gute Nachricht: Es ist kein Raten. Mit vier kurzen Fragen landest du fast immer beim richtigen Werkzeug.

Kurzer Rückblick auf die letzte Lektion:

Weißt du noch?

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Ein Futter wird auf 5 Becken pro Gruppe verteilt, in jedem Becken werden 20 Fische gemessen. Was ist die echte Stichprobengröße?

Den Test wählst du VOR dem Blick auf den p-Wert

Die wichtigste Regel überhaupt: Welchen Test du rechnest, steht fest, bevor du das Ergebnis siehst. Du entscheidest ihn aus vier Dingen:

Datentyp: kategorial (Häufigkeiten) → ; kontinuierlich (Messwerte) → t-Test / / .
Anzahl der Gruppen: eine gegen einen Referenzwert, zwei, oder drei und mehr.
Gepaart vs. unabhängig: dieselben Einheiten zweimal gemessen, oder getrennte Gruppen?
Annahmen erfüllt? Normalverteilung, Varianzhomogenität. Sind sie verletzt, weichst du auf einen aus.

Die Frage lautet also nicht „was wird signifikant?“, sondern „was passt zur Fragestellung, zum Design und zu den Daten?“. Wer den Test erst nach dem Blick auf den aussucht, betreibt p-Hacking.

Der Spickzettel: Fragestellung → Test → R

Hier die sechs kanonischen biologischen Beispiele auf einen Blick, jeweils mit dem passenden Test und der R-Funktion. Die rechte Spalte zeigt die Abzweigung „Annahmen verletzt“ — den nicht-parametrischen Plan B.

Fragestellung (biologisch)	Passender Test	R-Funktion	Annahmen verletzt →
Blutgruppen-Verteilung vs. erwartet	Chi-Quadrat-Anpassungstest	chisq.test(b, p=e)	Fishers exakter Test (E < 5)
Cholesterinwert vs. Referenz 200	Ein-Stichproben-t-Test (einseitig)	t.test(x, mu=200)	Wilcoxon-Vorzeichen-Rang-Test
Dünger A vs. Dünger B (Ertrag)	Zwei-Stichproben-t-Test	t.test(a, b)	Mann-Whitney-U-Test
Blutdruck vorher/nachher (gleiche Personen)	Gepaarter t-Test	t.test(v, n, paired=TRUE)	Wilcoxon-Vorzeichen-Rang-Test (gepaart)
Genexpression bei 3 Behandlungen	Einfaktorielle ANOVA + Tukey-Post-hoc	aov(...); TukeyHSD(...)	Kruskal-Wallis-Test
Körpergröße → Lungenkapazität	Lineare Regression	lm(y ~ x)	Spearman-Korrelation / Transformation

In R: ein Spickzettel der Aufrufe

Dieselben sechs Tests, jeweils als R-Aufruf. Diesen Block kannst du dir gut merken, er deckt fast alles ab, was in der Biologie-Auswertung vorkommt.

R Code (nur Anzeige)

# (1) Kategorial: Blutgruppen vs. erwartetes Verhaeltnis
chisq.test(beobachtet, p = erwartet)

# (2) Eine Stichprobe vs. fester Referenzwert (einseitig)
t.test(cholesterin, mu = 200, alternative = "greater")

# (3) Zwei unabhaengige Gruppen: Duenger A vs. B
t.test(ertrag ~ duenger)            # in R standardmaessig Welch

# (4) Gepaart: Blutdruck vorher / nachher (gleiche Personen)
t.test(vorher, nachher, paired = TRUE)

# (5) Drei+ Gruppen: ANOVA, dann Post-hoc (NICHT mehrere t-Tests!)
modell <- aov(expression ~ behandlung)
summary(modell)
TukeyHSD(modell)

# (6) Zusammenhang/Vorhersage: Groesse -> Lungenkapazitaet
lm(lungenkapazitaet ~ groesse)

chisq.test(beobachtet, p = erwartet): Kategoriale Häufigkeiten gegen ein erwartetes Verhältnis: der Anpassungstest. Bei kleinen Erwartungswerten stattdessen fisher.test().
mu = 200: Der feste Referenzwert μ₀ beim Ein-Stichproben-t-Test. alternative = "greater" macht ihn einseitig.
t.test(ertrag ~ duenger): Zwei unabhängige Gruppen. R nimmt standardmäßig den Welch-Test (robust gegen ungleiche Varianzen).
paired = TRUE: Macht aus dem Test den gepaarten t-Test — für dieselben Einheiten vorher/nachher. Ohne dieses Flag würde die Paarung ignoriert.
TukeyHSD(modell): Der Post-hoc-Test NACH einer signifikanten ANOVA: Er sagt, welche Gruppenpaare sich unterscheiden, bei kontrollierter Fehlerrate.
lm(lungenkapazitaet ~ groesse): Die lineare Regression: legt eine Gerade durch die Daten und sagt Y (Lungenkapazität) aus X (Größe) vorher.

Die vier häufigsten Stolpersteine

Selbst ausprobieren: der Entscheidungsbaum & das Szenario-Spiel

Jetzt bist du dran. Das Widget hat zwei Modi. Im Entscheidungsbaum beantwortest du Schritt für Schritt die vier Fragen und landest auf dem passenden Test, quer durch alle Familien. Im Szenario-Spiel bekommst du die sechs biologischen Studien und wählst jeweils den richtigen Test; achte beim Drei-Gruppen-Fall auf die verlockende Falle.

„Welcher Test?“ — Entscheidungsbaum & Szenario-Spiel

Zwei Modi: Lauf den Entscheidungsbaum durch oder spiel die sechs biologischen Szenarien.

Beantworte Schritt für Schritt: erst der Datentyp, dann die Anzahl der Gruppen, ob gepaart, und ob die Annahmen erfüllt sind. Am Ende leuchtet der passende Test auf — quer durch alle Familien (χ², t-Tests, ANOVA, Regression und die nicht-parametrischen Alternativen).

Entscheidungsbaum: Welcher Test passt?

Datentyp → Gruppenzahl → gepaart? → Annahmen erfüllt? → passender Test. Jederzeit zurücksetzen.

Welcher Datentyp liegt vor?

Zählst du Fälle in Kategorien (Blutgruppe, Geschlecht, Habitat)? Oder misst du Zahlen auf einer Skala (Ertrag, Cholesterin, Größe)?

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Du misst die Genexpression unter DREI Behandlungsgruppen und willst wissen, ob sich die Mittelwerte unterscheiden. Welcher Test, und was kommt danach?
2. Bei welcher dieser Studien sind die Daten GEPAART (abhängig) und nicht unabhängig?
3. „Den passenden Test wählt man am besten, nachdem man gesehen hat, was signifikant wird.“
4. Du willst wissen, ob sich der Parasitenbefall (je Tier nur befallen ja/nein) zwischen DREI Habitaten unterscheidet. Welcher Test passt?