Vertiefung · Design & Replikation

Designtypen & Pseudoreplikation

Stell dir vor, du willst wissen, ob ein Dünger Blätter wachsen lässt. Du nimmst ein paar Pflanzen, misst an jeder viele Blätter, rechnest einen t-Test und bekommst einen winzigen p-Wert. Klingt nach einem klaren Effekt. Aber Vorsicht: Vielleicht hast du dich gerade selbst betrogen. Diese Lektion handelt davon, wie man ein Experiment so anordnet, dass die Statistik den Behandlungseffekt überhaupt sauber herausrechnen kann — und vom häufigsten Trugschluss dabei, der .

Kurzer Rückblick auf die letzte Lektion:

Weißt du noch?

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Ein nicht-signifikantes Ergebnis beweist, dass es keinen Effekt gibt.
2. Welche Maßnahme erhöht die Power einer Studie NICHT?

Die Grundgleichung der Versuchsplanung

Jeder einzelne Messwert ist eine Summe trennbarer Quellen. Misst du die Länge eines Blattes, steckt darin nicht nur der Dünger, sondern auch die individuelle Pflanze, der Messfehler des Lineals und reiner Zufall. Schematisch:

Gutes ordnet diese Quellen vorab so an, dass der Behandlungseffekt τ nicht mit einer Störquelle vermischt (konfundiert) wird. Der entscheidende Satz dahinter: „Careful planning must precede data collection, not follow it.“ Die Statistik kann hinterher nämlich nur trennen, was das Design schon getrennt hat — keine noch so raffinierte Auswertung rettet einen Aufbau, in dem Dünger und Pflanzenidentität untrennbar zusammenfallen.

Ein kleiner Zoo der Designtypen

Es gibt nicht „das eine“ richtige Design. Die Struktur der Störquellen bestimmt, welches passt. Die wichtigsten Typen, jeweils mit einem biologischen Beispiel:

Die gängigen Designtypen auf einen Blick

: jede Pflanze wird rein zufällig Kontrolle oder Dünger zugeteilt. Einfach und sauber, solange die Einheiten ähnlich sind.
: liegen die Pflanzen in mehreren Beeten mit unterschiedlichem Boden, fasst du jedes Beet als auf und randomisierst INNERHALB jedes Beets. Die Beet-Variation wird so aus dem Fehler herausgerechnet.
: du misst dasselbe Tier zu mehreren Zeitpunkten (Wachstum über Wochen). Die Messungen am selben Tier sind abhängig und verlangen einen passenden Fehlerterm.
: Bewässerung wird auf ganzen Parzellen variiert, die Düngersorte auf Teilflächen darin. Zwei Randomisierungsebenen, zwei Fehlerterme.
vs. : Pflanzen sind in Behandlungen verschachtelt (jede Pflanze gehört zu genau einer Behandlung); Faktoren wie Behandlung × Geschlecht sind gekreuzt (jede Kombination kommt vor), nur dann lassen sich Wechselwirkungen schätzen.

Die zentrale Falle: Pseudoreplikation

Das ist der wichtigste Gedanke der Lektion. Subsamples — mehrere Blätter pro Pflanze, mehrere Fische pro Becken, wiederholte Messungen am selben Tier — sind statistisch abhängig. Sie teilen alles, was ihre Einheit ausmacht.

Behandelt man sie als unabhängige Replikate, bläht man die künstlich auf (n = 100 Fische statt 5 Becken).
Aufgeblähte Freiheitsgrade → ein künstlich kleiner Standardfehler → künstlich kleine p-Werte → Schein-Signifikanz.
Die wahre Replikationseinheit ist die unabhängige (die Pflanze, das Becken) — nicht die Einzelmessung.

Lösungen: einen Mittelwert pro Einheit bilden und damit testen, einen Error()-Term setzen, oder gleich ein Mixed Model rechnen. Alle drei zählen ehrlich nur die unabhängigen Einheiten.

Warum genau wird der p-Wert zu klein? Der t-Wert ist Signal geteilt durch Rauschen, und das Rauschen, der Standardfehler, schrumpft mit √n. Schiebst du fälschlich die Zahl der Messungen als n ein statt die Zahl der unabhängigen Einheiten, wird der Standardfehler künstlich klein und die Freiheitsgrade groß. Der Test hält das für viel mehr Information, als wirklich da ist.

Faktor oder Zahl? Wie du eine Variable kodierst

Eine zweite, leise Designentscheidung: Behandelst du eine Variable als kategorial (Faktor) oder als kontinuierlich (numerisch)? Kontrolle vs. Dünger ist kategorial → . Eine Düngermenge in Gramm (0, 5, 10, 15 …) ist kontinuierlich → . Die falsche Kodierung kostet: Kodierst du eine echte Dosis als bloßen Faktor, wirfst du die Information über die Reihenfolge und die Abstände weg und verlierst Power. Behandelst du umgekehrt reine Kategorien als Zahlen, erzeugst du einen Schein-Trend, der gar nicht existiert.

In R: der naive Fehler und zwei saubere Wege

Hier dieselbe Studie dreimal: einmal falsch (jedes Blatt als unabhängig), einmal über Mittelwerte pro Pflanze, einmal mit einem Error()-Term, der R sagt, wo die echte Replikationsebene liegt.

R Code (nur Anzeige)

# Daten: pflanze = echte Einheit, blatt-Messungen sind Subsamples.
# behandlung: Kontrolle vs. Duenger.

# (1) NAIV — jedes Blatt zaehlt als unabhaengig  -> PSEUDOREPLIKATION
aov(blattlaenge ~ behandlung, data = blaetter)   # df aufgeblaeht, p zu klein!

# (2) KORREKT A — erst Mittelwert pro Pflanze, dann testen
library(dplyr)
pro_pflanze <- blaetter |>
  group_by(behandlung, pflanze) |>
  summarise(m = mean(blattlaenge), .groups = "drop")
aov(m ~ behandlung, data = pro_pflanze)          # df = Anzahl Pflanzen - ...

# (3) KORREKT B — Error()-Term: Pflanze als Fehlerebene
aov(blattlaenge ~ behandlung + Error(pflanze), data = blaetter)

# Alternative: ein Mixed Model
# library(lme4)
# lmer(blattlaenge ~ behandlung + (1 | pflanze), data = blaetter)

aov(... ~ behandlung): Die naive ANOVA über alle Blätter: Sie nimmt jedes Blatt als eigenständige Beobachtung, die Freiheitsgrade werden aufgebläht, der p-Wert künstlich klein.
group_by + summarise: Bildet EINEN Mittelwert pro Pflanze. Danach hat jede Pflanze genau einen Wert — die ehrliche Replikationseinheit.
aov(m ~ behandlung): Die korrekte ANOVA über die Pflanzen-Mittelwerte: df folgen aus der Zahl der Pflanzen, nicht der Blätter.
Error(pflanze): Sagt R, dass die Behandlung auf Pflanzen-Ebene wirkt. R legt den Test auf die richtige Fehlerebene — das ist der Standardweg gegen Pseudoreplikation.
(1 | pflanze): Im Mixed Model: ein zufälliger Achsenabschnitt je Pflanze. Modelliert die Abhängigkeit der Blätter explizit, statt zu mitteln.

Selbst ausprobieren: die Pseudoreplikations-Falle

Hier siehst du den Trugschluss live. Zwei Behandlungen (Kontrolle vs. Dünger), je ein paar Pflanzen (echte Einheiten), je Pflanze mehrere Blätter (Subsamples). Schalte oben zwischen „Naiv: jedes Blatt zählt“ und „Korrekt: Mittelwert pro Pflanze“ um und beobachte, wie sich n, die Freiheitsgrade, der t-Wert und der p-Wert ändern. Hol dir diese Aha-Momente:

Stell viele Blätter pro Pflanze ein. Naiv wird der p-Wert winzig (signifikant) — schalte auf korrekt: oft ist der Effekt plötzlich nicht signifikant. Das ist die Schein-Signifikanz.
Dreh die Streuung zwischen den Pflanzen hoch. Je stärker sich die Pflanzen untereinander unterscheiden, desto deutlicher führt die naive Methode in die Irre.

Pseudoreplikations-Falle: zählt jedes Blatt?

Zwei Behandlungen, je ein paar Pflanzen (echte Einheiten), je Pflanze mehrere Blätter (Subsamples). Schalte zwischen „jedes Blatt zählt“ und „Mittelwert pro Pflanze“ um — und sieh, wie sich df, t und p ändern.

Kontrolle 4 Pflanzen · 8 Blätter

Dünger 4 Pflanzen · 8 Blätter

Replikationseinheit jedes Blatt

n je Gruppe 32

Freiheitsgrade 56,8

t-Wert -6,33

p-Wert < 0,001

Signifikant (p = < 0,001). Aber prüfe gegen: Hält der Effekt auch bei „Mittelwert pro Pflanze“?

Jede Punktwolke ist eine Pflanze, jeder Punkt ein Blatt, der Strich der Pflanzenmittelwert. Die Blätter einer Pflanze klumpen zusammen — sie sind eben nicht unabhängig. Naiv tut der Test so, als wären alle 32 Blätter je Gruppe eigenständige Tiere; korrekt zählt nur, was wirklich unabhängig ist: die 4 Pflanzen.

Pflanzen je Gruppe = 4 (echte Einheiten)

210

Blätter je Pflanze = 8 (Subsamples)

120

Behandlungseffekt = 6,0 cm (Dünger − Kontrolle)

0 (kein Effekt)20

Streuung ZWISCHEN Pflanzen σ = 5,0 cm

0 (Pflanzen gleich)15

Streuung INNERHALB einer Pflanze σ = 4,0 cm (Blatt zu Blatt)

0,5 (eng)15

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Eine Studie verteilt ein neues Futter auf 5 Becken pro Gruppe und misst in jedem Becken 20 Fische, also 100 Fische je Gruppe. Was ist die echte Stichprobengröße (Replikationseinheit)?
2. Warum liefert die naive Analyse (jeder Fisch als unabhängig) einen irreführend kleinen p-Wert?
3. „Mehrere Messungen am selben Individuum (z. B. dreimal dasselbe Tier wiegen) sind unabhängige Replikate und dürfen als getrennte Datenpunkte in den Test eingehen.“
4. Wie musst du den Futterversuch anlegen, damit du echte Replikate hast und keine Pseudoreplikation betreibst?