Vertiefung · Planung & Power

Experimentelles Design & Power

Otto will wissen, ob zwei Vogelpopulationen unterschiedlich weit ziehen. Er besendert ein paar Tiere pro Gruppe, misst die Zugdistanz, rechnet einen t-Test und bekommt nicht signifikant. Heißt das: kein Unterschied? Nicht unbedingt. Vielleicht war seine Studie schlicht zu klein, um den Unterschied zu entdecken. Genau hier setzt diese Lektion an: Wie plant man ein Experiment so, dass es eine echte Chance hat, einen vorhandenen Effekt auch zu finden? Die zentrale Größe dafür heißt .

Kurzer Rückblick auf die letzte Lektion:

Weißt du noch?

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Die Steigung deiner Regression ist hochsignifikant (p < 0,001), aber R² = 0,12. Wie liest du das?

Bevor du misst: gutes Design

Die schönste Statistik rettet kein schlechtes Experiment. Über Erfolg oder Misserfolg entscheidet die Planung. Ein paar Kriterien, an denen sich jedes biologische Experiment messen lassen muss:

Die Planungskriterien auf einen Blick

: deine Stichprobe muss die widerspiegeln. Misst du nur die kräftigsten Vögel, darfst du nicht auf die ganze Population schließen.
(der Goldstandard): verteile die Tiere per Zufall auf die Gruppen. Das streut bekannte UND unbekannte Störvariablen gleichmäßig und schützt vor systematischem Bias.
: fasse ähnliche Einheiten zu Blöcken zusammen (z. B. nach Fanggebiet oder Alter) und randomisiere innerhalb jedes Blocks. So rechnest du störende Variation aus dem Fehler heraus — das senkt σ und hebt die Power.
Kontrollen: die zeigt, was ohne Behandlung passiert, die zeigt, dass dein Aufbau einen echten Effekt überhaupt erkennen kann.
: single-blind (die Versuchseinheit weiß nicht, in welcher Gruppe sie ist) oder double-blind (auch der Beobachter nicht). Das verhindert unbewusste Verzerrung der Messung.
: isoliere den eigentlichen Effekt, sodass keine dritte Variable Behandlung und Ergebnis gleichzeitig beeinflusst und den Vergleich verfälscht.

Echte Wiederholungen: Replikation vs. Pseudoreplikation

Damit du den Behandlungseffekt von der zufälligen Streuung trennen kannst, brauchst du , also mehrere voneinander unabhängige Wiederholungen. Der häufigste Designfehler ist die : Du misst denselben Vogel zehnmal und tust so, als hättest du zehn unabhängige Tiere. Das bläht die Stichprobe künstlich auf und liefert falsch kleine p-Werte. Faustregel: Replikate müssen wirklich unabhängig sein. (Mehr dazu in der nächsten Lektion.)

Treffgenauigkeit vs. Exaktheit

Zwei Qualitäten einer Messung, die man leicht verwechselt: heißt, die Messungen liegen im Mittel nah am wahren Wert, also wenig systematischer Fehler (Bias). heißt, die Messungen streuen untereinander wenig, also gute Reproduzierbarkeit. Beides ist unabhängig: Ein Sender kann sehr exakt immer dieselbe falsche Distanz liefern (exakt, aber nicht treffgenau) — oder breit streuen, aber im Mittel richtig liegen (treffgenau, aber nicht exakt).

Die Kopplung steckt in einer einzigen Beziehung. Grob gilt: Die Power hängt davon ab, wie groß das Signal (die Effektgröße, skaliert mit √n) im Verhältnis zum Rauschen (der Streuung σ) ist:

Wie viele Vögel pro Gruppe? Der Mindeststichprobenumfang

Genau Ottos Frage: Wie viele Vögel pro Gruppe brauche ich? Für die typische Vorgabe (Power 0,8, α = 0,05, zweiseitig) gibt es eine handliche Faustformel:

So rechnet R das aus: power.t.test()

In R erledigt power.t.test() die Power-Analyse exakt. Der Trick: Du gibst vier der fünf Größen an und setzt die gesuchte fünfte auf NULL — R rechnet sie aus. Hier lässt Otto sich das nötige n für Power 0,8 ausgeben:

R Code (nur Anzeige)

# Vogelzug-Power-Analyse: Wie viele Voegel pro Gruppe?
# Gesucht: n. Daher n = NULL und power = 0.8 vorgeben.
power.t.test(n = NULL, delta = 20, sd = 40,
             sig.level = 0.05, power = 0.8)

Ausgabe

     Two-sample t test power calculation

              n = 63.77
          delta = 20
             sd = 40
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

power.t.test: Die Power-Analyse für den Zweistichproben-t-Test: vier Größen vorgeben, eine auf NULL setzen.
n = NULL: Die gesuchte Größe auf NULL setzen — hier der Stichprobenumfang pro Gruppe.
delta = 20: Die zu entdeckende Differenz (Effektgröße) der Zugdistanz in km.
sd = 40: Die angenommene Streuung σ der Zugdistanz innerhalb einer Gruppe.
sig.level = 0.05: Das Signifikanzniveau α (zweiseitig).
power = 0.8: Die geforderte Power 1 − β = 0,8.

R sagt: rund 64 Vögel pro Gruppe, fast identisch zur Faustformel (n ≈ 64). Genauso gut könntest du n vorgeben und power = NULL setzen, um die erreichbare Power deiner geplanten Studie abzulesen.

Selbst ausprobieren: der Power-Spielplatz

Zieh an den vier Schiebern: Effektgröße δ (Unterschied der Zugdistanz), Streuung σ, Stichprobenumfang n (pro Gruppe) und α. Die große Zahl ist die resultierende Power (1 − β), die Kurve zeigt die Power als Funktion von n (mit der Ziellinie bei 0,8 und einer Marke am aktuellen n). Hol dir diese beiden Aha-Momente:

Halte die Power bei 0,8 (n so wählen, dass die Marke die Ziellinie trifft) — was passiert mit dem nötigen n, wenn du die Streuung σ verdoppelst? Es vervierfacht sich grob.
Verkleinere die Effektgröße δ — beobachte, wie das nötige n geradezu explodiert, weil n ungefähr mit 1/d² wächst.

Power-Spielplatz: das gekoppelte System zum Anfassen

Vogelzug: Wie viele Vögel pro Gruppe brauchst du, um einen Unterschied in der Zugdistanz nachzuweisen? Zieh an δ, σ, n und α — Power (1 − β) und die Power-Kurve laufen live mit.

Power = 1 − β 64 %

β (Effekt übersehen) = 36 % Für Power 0,8 nötig: n ≈ 29 pro Gruppe

Die grüne Kurve zeigt, wie die Power mit größerem n steigt. Die korallene Linie ist die übliche Zielmarke 0,8. Liegt die Marke unter der Ziellinie, hast du zu wenig Power — ein nicht-signifikantes Ergebnis hieße dann nicht „kein Effekt“, sondern vielleicht nur „zu kleines n“.

Effektgröße δ = 30 km (Unterschied der Zugdistanz)

5 (klein)120 (groß)

Streuung σ = 40 km (Variation je Gruppe)

10 (eng)120 (breit)

Stichprobenumfang n = 20 (Vögel je Gruppe)

2120

Signifikanzniveau α = 0,05

0,01 (streng)0,20 (locker)

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Otto vergleicht die Zugdistanz zweier Vogelpopulationen mit je 8 besenderten Vögeln. Der t-Test liefert p = 0,21, also nicht signifikant. Welche Schlussfolgerung ist korrekt?
2. Otto möchte die Power seiner Vogelzug-Studie erhöhen. Welche Maßnahme tut das NICHT?
3. „Um einen kleineren Effekt (z. B. einen geringeren Unterschied der Zugdistanz) zuverlässig nachzuweisen, brauchst du eine größere Stichprobe.“
4. Eine Studie mit sehr großem n findet, dass sich zwei Vogelpopulationen in der Zugdistanz um im Schnitt 4 km unterscheiden — hochsignifikant mit p < 0,001. Was zeigt dieses Ergebnis?