Vertiefung · Design & Replikation

Designtypen & Pseudoreplikation

Stell dir vor, du willst wissen, ob ein Dünger Blätter wachsen lässt. Du nimmst ein paar Pflanzen, misst an jeder viele Blätter, rechnest einen t-Test und bekommst einen winzigen p-Wert. Klingt nach einem klaren Effekt. Aber Vorsicht: Vielleicht hast du dich gerade selbst betrogen. Diese Lektion handelt davon, wie man ein Experiment so anordnet, dass die Statistik den Behandlungseffekt überhaupt sauber herausrechnen kann — und vom häufigsten Trugschluss dabei, der .

Die Grundgleichung der Versuchsplanung

Jeder einzelne Messwert ist eine Summe trennbarer Quellen. Misst du die Länge eines Blattes, steckt darin nicht nur der Dünger, sondern auch die individuelle Pflanze, der Messfehler des Lineals und reiner Zufall. Schematisch:

Gutes ordnet diese Quellen vorab so an, dass der Behandlungseffekt τ nicht mit einer Störquelle vermischt (konfundiert) wird. Der entscheidende Satz dahinter: „Careful planning must precede data collection, not follow it.“ Die Statistik kann hinterher nämlich nur trennen, was das Design schon getrennt hat — keine noch so raffinierte Auswertung rettet einen Aufbau, in dem Dünger und Pflanzenidentität untrennbar zusammenfallen.

Ein kleiner Zoo der Designtypen

Es gibt nicht „das eine“ richtige Design. Die Struktur der Störquellen bestimmt, welches passt. Die wichtigsten Typen, jeweils mit einem biologischen Beispiel:

Warum genau wird der p-Wert zu klein? Der t-Wert ist Signal geteilt durch Rauschen, und das Rauschen, der Standardfehler, schrumpft mit √n. Schiebst du fälschlich die Zahl der Messungen als n ein statt die Zahl der unabhängigen Einheiten, wird der Standardfehler künstlich klein und die Freiheitsgrade groß. Der Test hält das für viel mehr Information, als wirklich da ist.

Faktor oder Zahl? Wie du eine Variable kodierst

Eine zweite, leise Designentscheidung: Behandelst du eine Variable als kategorial (Faktor) oder als kontinuierlich (numerisch)? Kontrolle vs. Dünger ist kategorial → . Eine Düngermenge in Gramm (0, 5, 10, 15 …) ist kontinuierlich → . Die falsche Kodierung kostet: Kodierst du eine echte Dosis als bloßen Faktor, wirfst du die Information über die Reihenfolge und die Abstände weg und verlierst Power. Behandelst du umgekehrt reine Kategorien als Zahlen, erzeugst du einen Schein-Trend, der gar nicht existiert.

In R: der naive Fehler und zwei saubere Wege

Hier dieselbe Studie dreimal: einmal falsch (jedes Blatt als unabhängig), einmal über Mittelwerte pro Pflanze, einmal mit einem Error()-Term, der R sagt, wo die echte Replikationsebene liegt.

R Code (nur Anzeige)
# Daten: pflanze = echte Einheit, blatt-Messungen sind Subsamples.
# behandlung: Kontrolle vs. Duenger.

# (1) NAIV — jedes Blatt zaehlt als unabhaengig  -> PSEUDOREPLIKATION
aov(blattlaenge ~ behandlung, data = blaetter)   # df aufgeblaeht, p zu klein!

# (2) KORREKT A — erst Mittelwert pro Pflanze, dann testen
library(dplyr)
pro_pflanze <- blaetter |>
  group_by(behandlung, pflanze) |>
  summarise(m = mean(blattlaenge), .groups = "drop")
aov(m ~ behandlung, data = pro_pflanze)          # df = Anzahl Pflanzen - ...

# (3) KORREKT B — Error()-Term: Pflanze als Fehlerebene
aov(blattlaenge ~ behandlung + Error(pflanze), data = blaetter)

# Alternative: ein Mixed Model
# library(lme4)
# lmer(blattlaenge ~ behandlung + (1 | pflanze), data = blaetter)
aov(... ~ behandlung)
Die naive ANOVA über alle Blätter: Sie nimmt jedes Blatt als eigenständige Beobachtung, die Freiheitsgrade werden aufgebläht, der p-Wert künstlich klein.
group_by + summarise
Bildet EINEN Mittelwert pro Pflanze. Danach hat jede Pflanze genau einen Wert — die ehrliche Replikationseinheit.
aov(m ~ behandlung)
Die korrekte ANOVA über die Pflanzen-Mittelwerte: df folgen aus der Zahl der Pflanzen, nicht der Blätter.
Error(pflanze)
Sagt R, dass die Behandlung auf Pflanzen-Ebene wirkt. R legt den Test auf die richtige Fehlerebene — das ist der Standardweg gegen Pseudoreplikation.
(1 | pflanze)
Im Mixed Model: ein zufälliger Achsenabschnitt je Pflanze. Modelliert die Abhängigkeit der Blätter explizit, statt zu mitteln.

Selbst ausprobieren: die Pseudoreplikations-Falle

Hier siehst du den Trugschluss live. Zwei Behandlungen (Kontrolle vs. Dünger), je ein paar Pflanzen (echte Einheiten), je Pflanze mehrere Blätter (Subsamples). Schalte oben zwischen „Naiv: jedes Blatt zählt“ und „Korrekt: Mittelwert pro Pflanze“ um und beobachte, wie sich n, die Freiheitsgrade, der t-Wert und der p-Wert ändern. Hol dir diese Aha-Momente:

  1. Stell viele Blätter pro Pflanze ein. Naiv wird der p-Wert winzig (signifikant) — schalte auf korrekt: oft ist der Effekt plötzlich nicht signifikant. Das ist die Schein-Signifikanz.
  2. Dreh die Streuung zwischen den Pflanzen hoch. Je stärker sich die Pflanzen untereinander unterscheiden, desto deutlicher führt die naive Methode in die Irre.

Pseudoreplikations-Falle: zählt jedes Blatt?

Zwei Behandlungen, je ein paar Pflanzen (echte Einheiten), je Pflanze mehrere Blätter (Subsamples). Schalte zwischen „jedes Blatt zählt“ und „Mittelwert pro Pflanze“ um — und sieh, wie sich df, t und p ändern.

Replikationseinheit jedes Blatt
n je Gruppe 32
Freiheitsgrade 56,8
t-Wert -6,33
p-Wert < 0,001
Signifikant (p = < 0,001). Aber prüfe gegen: Hält der Effekt auch bei „Mittelwert pro Pflanze“?
Kontrolle 4 Pflanzen · 8 Blätter
P1P2P3P4
Dünger 4 Pflanzen · 8 Blätter
P1P2P3P4

Jede Punktwolke ist eine Pflanze, jeder Punkt ein Blatt, der Strich der Pflanzenmittelwert. Die Blätter einer Pflanze klumpen zusammen — sie sind eben nicht unabhängig. Naiv tut der Test so, als wären alle 32 Blätter je Gruppe eigenständige Tiere; korrekt zählt nur, was wirklich unabhängig ist: die 4 Pflanzen.

210
120
0 (kein Effekt)20
0 (Pflanzen gleich)15
0,5 (eng)15

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

  1. 1. Eine Studie verteilt ein neues Futter auf 5 Becken pro Gruppe und misst in jedem Becken 20 Fische, also 100 Fische je Gruppe. Was ist die echte Stichprobengröße (Replikationseinheit)?

  2. 2. Warum liefert die naive Analyse (jeder Fisch als unabhängig) einen irreführend kleinen p-Wert?

  3. 3. „Mehrere Messungen am selben Individuum (z. B. dreimal dasselbe Tier wiegen) sind unabhängige Replikate und dürfen als getrennte Datenpunkte in den Test eingehen.“