Vertiefung · Planung & Power

Experimentelles Design & Power

Otto will wissen, ob zwei Vogelpopulationen unterschiedlich weit ziehen. Er besendert ein paar Tiere pro Gruppe, misst die Zugdistanz, rechnet einen t-Test und bekommt nicht signifikant. Heißt das: kein Unterschied? Nicht unbedingt. Vielleicht war seine Studie schlicht zu klein, um den Unterschied zu entdecken. Genau hier setzt diese Lektion an: Wie plant man ein Experiment so, dass es eine echte Chance hat, einen vorhandenen Effekt auch zu finden? Die zentrale Größe dafür heißt .

Bevor du misst: gutes Design

Die schönste Statistik rettet kein schlechtes Experiment. Über Erfolg oder Misserfolg entscheidet die Planung. Ein paar Kriterien, an denen sich jedes biologische Experiment messen lassen muss:

Echte Wiederholungen: Replikation vs. Pseudoreplikation

Damit du den Behandlungseffekt von der zufälligen Streuung trennen kannst, brauchst du , also mehrere voneinander unabhängige Wiederholungen. Der häufigste Designfehler ist die : Du misst denselben Vogel zehnmal und tust so, als hättest du zehn unabhängige Tiere. Das bläht die Stichprobe künstlich auf und liefert falsch kleine p-Werte. Faustregel: Replikate müssen wirklich unabhängig sein. (Mehr dazu in der nächsten Lektion.)

Treffgenauigkeit vs. Exaktheit

Zwei Qualitäten einer Messung, die man leicht verwechselt: heißt, die Messungen liegen im Mittel nah am wahren Wert, also wenig systematischer Fehler (Bias). heißt, die Messungen streuen untereinander wenig, also gute Reproduzierbarkeit. Beides ist unabhängig: Ein Sender kann sehr exakt immer dieselbe falsche Distanz liefern (exakt, aber nicht treffgenau) — oder breit streuen, aber im Mittel richtig liegen (treffgenau, aber nicht exakt).

Die Kopplung steckt in einer einzigen Beziehung. Grob gilt: Die Power hängt davon ab, wie groß das Signal (die Effektgröße, skaliert mit √n) im Verhältnis zum Rauschen (der Streuung σ) ist:

Wie viele Vögel pro Gruppe? Der Mindeststichprobenumfang

Genau Ottos Frage: Wie viele Vögel pro Gruppe brauche ich? Für die typische Vorgabe (Power 0,8, α = 0,05, zweiseitig) gibt es eine handliche Faustformel:

So rechnet R das aus: power.t.test()

In R erledigt power.t.test() die Power-Analyse exakt. Der Trick: Du gibst vier der fünf Größen an und setzt die gesuchte fünfte auf NULL — R rechnet sie aus. Hier lässt Otto sich das nötige n für Power 0,8 ausgeben:

R Code (nur Anzeige)
# Vogelzug-Power-Analyse: Wie viele Voegel pro Gruppe?
# Gesucht: n. Daher n = NULL und power = 0.8 vorgeben.
power.t.test(n = NULL, delta = 20, sd = 40,
             sig.level = 0.05, power = 0.8)
Ausgabe
     Two-sample t test power calculation

              n = 63.77
          delta = 20
             sd = 40
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group
power.t.test
Die Power-Analyse für den Zweistichproben-t-Test: vier Größen vorgeben, eine auf NULL setzen.
n = NULL
Die gesuchte Größe auf NULL setzen — hier der Stichprobenumfang pro Gruppe.
delta = 20
Die zu entdeckende Differenz (Effektgröße) der Zugdistanz in km.
sd = 40
Die angenommene Streuung σ der Zugdistanz innerhalb einer Gruppe.
sig.level = 0.05
Das Signifikanzniveau α (zweiseitig).
power = 0.8
Die geforderte Power 1 − β = 0,8.

R sagt: rund 64 Vögel pro Gruppe, fast identisch zur Faustformel (n ≈ 64). Genauso gut könntest du n vorgeben und power = NULL setzen, um die erreichbare Power deiner geplanten Studie abzulesen.

Selbst ausprobieren: der Power-Spielplatz

Zieh an den vier Schiebern: Effektgröße δ (Unterschied der Zugdistanz), Streuung σ, Stichprobenumfang n (pro Gruppe) und α. Die große Zahl ist die resultierende Power (1 − β), die Kurve zeigt die Power als Funktion von n (mit der Ziellinie bei 0,8 und einer Marke am aktuellen n). Hol dir diese beiden Aha-Momente:

  1. Halte die Power bei 0,8 (n so wählen, dass die Marke die Ziellinie trifft) — was passiert mit dem nötigen n, wenn du die Streuung σ verdoppelst? Es vervierfacht sich grob.
  2. Verkleinere die Effektgröße δ — beobachte, wie das nötige n geradezu explodiert, weil n ungefähr mit 1/d² wächst.

Power-Spielplatz: das gekoppelte System zum Anfassen

Vogelzug: Wie viele Vögel pro Gruppe brauchst du, um einen Unterschied in der Zugdistanz nachzuweisen? Zieh an δ, σ, n und α — Power (1 − β) und die Power-Kurve laufen live mit.

Power = 1 − β 64 %
β (Effekt übersehen) = 36 % Für Power 0,8 nötig: n ≈ 29 pro Gruppe
0%20%40%60%80%100%220406080100120Stichprobenumfang n je Gruppe →Power (1 − β) →Ziel: 80 %n = 20

Die grüne Kurve zeigt, wie die Power mit größerem n steigt. Die korallene Linie ist die übliche Zielmarke 0,8. Liegt die Marke unter der Ziellinie, hast du zu wenig Power — ein nicht-signifikantes Ergebnis hieße dann nicht „kein Effekt“, sondern vielleicht nur „zu kleines n“.

5 (klein)120 (groß)
10 (eng)120 (breit)
2120
0,01 (streng)0,20 (locker)

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

  1. 1. Otto vergleicht die Zugdistanz zweier Vogelpopulationen mit je 8 besenderten Vögeln. Der t-Test liefert p = 0,21, also nicht signifikant. Welche Schlussfolgerung ist korrekt?

  2. 2. Otto möchte die Power seiner Vogelzug-Studie erhöhen. Welche Maßnahme tut das NICHT?

  3. 3. „Um einen kleineren Effekt (z. B. einen geringeren Unterschied der Zugdistanz) zuverlässig nachzuweisen, brauchst du eine größere Stichprobe.“