Verteilungen & die Glockenkurve
In dieser Lektion lernst du, wie man beschreibt, welche Werte wie häufig oder wie wahrscheinlich auftreten. Viele biologische Messgrößen (die Flügellänge einer Vogelart, die Blütenblattlänge einer Iris, die Größe von Blättern) sind näherungsweise normalverteilt, und genau daran machen wir die Idee fest. Am Ende steht ein einziger, großer Gedanke, den du in fast jedem weiteren Kapitel wiedersehen wirst: Die Fläche unter einer Kurve ist eine Wahrscheinlichkeit. Bauen wir uns langsam dorthin.
Beobachtet oder erwartet?
Wenn du echte Daten sammelst und zählst, wie oft jeder Wert vorkommt, erhältst du eine . Sie ist beobachtet, du liest sie direkt aus deinen Messungen ab, etwa als Histogramm. Würfelst du 60-mal, könntest du jede Augenzahl vielleicht 8- bis 12-mal sehen.
Dem gegenüber steht die . Sie ist theoretisch und sagt dir, was du erwarten würdest, wenn du unendlich oft messen könntest. Beim fairen Würfel: jede Augenzahl mit Wahrscheinlichkeit 1/6. Die beobachtete Häufigkeit nähert sich dieser theoretischen Verteilung an, je mehr Daten du sammelst.
Diskret oder stetig?
Eine nimmt abzählbar viele Werte an: die Augenzahl eines Würfels, die Anzahl der Treffer. Hier hat jeder einzelne Wert eine eigene Wahrscheinlichkeit: P(Würfel = 3) = 1/6. Das ist anschaulich und unproblematisch.
Bei einer wird es subtiler. Sie kann jeden Wert in einem Bereich annehmen: die Flügellänge einer Amsel etwa könnte 130 mm sein, oder 130,1 mm, oder 130,03471… mm. Es gibt unendlich viele mögliche Werte. Und genau deshalb gilt etwas, das im ersten Moment irritiert.
Die Normalverteilung
Die wichtigste stetige Verteilung ist die , kurz N(μ, σ), die berühmte Glockenkurve. Sie ist symmetrisch, hat ihren Gipfel beim Mittelwert μ und ihre Breite bestimmt die σ. Verschiebst du μ, wandert die ganze Glocke nach links oder rechts; machst du σ größer, wird sie flacher und breiter, machst du σ kleiner, wird sie schmal und hoch.
Die Kurve selbst ist die (in R: dnorm). Ihre
Formel musst du nicht auswendig können, schau sie dir nur einmal an, damit du μ und σ darin
wiedererkennst.
Die zentrale Idee: Fläche = Wahrscheinlichkeit
Jetzt kommt der Gedanke, auf den alles hinausläuft. Die Höhe der Dichtekurve ist für sich genommen keine Wahrscheinlichkeit. Eine Wahrscheinlichkeit bekommst du erst, wenn du die Fläche unter der Kurve über einem Intervall betrachtest.
Wie berechnet man so eine Fläche? Dafür gibt es die F (in R: pnorm). Sie ist die aufsummierte Fläche von links: F(x) sagt
dir, wie viel Fläche bis zur Stelle x angesammelt ist, also P(X ≤ x). Die
Fläche eines Intervalls ist dann einfach die Differenz zweier solcher „Flächen von links“.
Probier es selbst aus: der Flächen-Schieber
Lass uns die Idee nicht behaupten, sondern anfassbar machen. Denk dir die Achse als die Flügellänge unserer Vogelart in Millimetern. Geh am besten in dieser Reihenfolge vor:
- Zieh die Grenzen a und b auseinander und beobachte, wie die korallene Fläche und der Wert P(a < X ≤ b) (der Anteil der Vögel mit Flügellänge dazwischen) wachsen.
- Schieb a und b ganz dicht zusammen, die Fläche und damit die Wahrscheinlichkeit gehen gegen null.
- Verschieb μ und ändere σ und sieh zu, wie sich die Glocke (und die schattierte Fläche) umformt.
- Schalte „in Standardabweichungen (z) anzeigen“ ein: Die Achse zeigt nun z-Werte — so sieht jede Normalverteilung gleich aus.
- Blende die 68/95/99,7-Bereiche ein und stell a = μ − 2σ, b = μ + 2σ ein. Du solltest rund 95 % ablesen.
Flächen-Schieber: Fläche = Wahrscheinlichkeit
Zieh die Grenzen a und b und beobachte, wie die schattierte Fläche und P(a < X ≤ b) sich ändern. Mit μ und σ formst du die Kurve um.
Die Höhe der Kurve ist keine Wahrscheinlichkeit — erst die korallene Fläche über dem Intervall ist eine.
Sie wird über pnorm (die Verteilungsfunktion F) berechnet: F(b) − F(a).
Die Z-Transformation
Es gibt unendlich viele Normalverteilungen, für jede Kombination aus μ und σ eine. Wäre es nicht praktisch, sie alle auf eine gemeinsame zurückzuführen? Genau das leistet die : Du ziehst von jedem Wert den Mittelwert ab und teilst durch die Standardabweichung.
Das Ergebnis ist die N(0, 1): Mittelwert 0, Standardabweichung 1. Ein z-Wert von +1 bedeutet „eine Standardabweichung über dem Mittelwert“, unabhängig davon, ob es um Körpergrößen, Testergebnisse oder Temperaturen geht. Genau das siehst du, wenn du im Flächen-Schieber den z-Schalter aktivierst, die Achse wird in Standardabweichungen beschriftet.
Streubereiche: die 68–95–99,7-Regel
Weil sich jede Normalverteilung auf N(0, 1) zurückführen lässt, gelten überall dieselben Flächen. Drei davon solltest du dir merken:
- etwa 68 % aller Werte liegen in μ ± 1σ,
- etwa 95 % in μ ± 2σ,
- etwa 99,7 % in μ ± 3σ.
Diese Faustregel ist nichts anderes als die Fläche unter der Glocke zwischen den jeweiligen Grenzen — wieder die zentrale Idee. Werte jenseits von 3σ sind extrem selten; deshalb wirkt ein solcher Ausreißer auffällig.
Jenseits der Glocke: zwei diskrete Verteilungen
Die Normalverteilung beschreibt stetige Messgrößen: Längen, Gewichte, Temperaturen. Viele biologische Fragen sind aber Zählfragen: Wie viele von 20 Samen keimen? Wie viele Tiere sitzen in einem Probequadrat? Solche Anzahlen sind , und zwei diskrete Verteilungen begegnen dir immer wieder.
Die Binomialverteilung: Erfolge zählen
Die zählt, wie viele Erfolge du in n unabhängigen Versuchen mit jeweils gleicher Erfolgswahrscheinlichkeit p erzielst. Das klassische biologische Beispiel: Du säst n = 20 Samen aus, jeder keimt mit Wahrscheinlichkeit p = 0,7. Wie viele der 20 keimen am Ende? Die Antwort ist keine feste Zahl, sondern eine ganze Verteilung über k = 0, 1, …, n. Ihr Erwartungswert ist schlicht n · p.
In R brauchst du die Formel nicht selbst zu tippen: dbinom gibt die
Einzelwahrscheinlichkeit P(X = k), pbinom die kumulierte
P(X ≤ k).
# Von 20 Samen mit Keimrate p = 0,7:
# Wahrscheinlichkeit, dass genau 15 keimen
dbinom(15, size = 20, prob = 0.7)
# Wahrscheinlichkeit, dass höchstens 12 keimen
pbinom(12, size = 20, prob = 0.7) [1] 0.1788631 [1] 0.2277282
- dbinom(k, size, prob)
- Einzelwahrscheinlichkeit P(X = k) — die PMF.
- pbinom(k, size, prob)
- Kumulierte Wahrscheinlichkeit P(X ≤ k).
Die Poissonverteilung: seltene Ereignisse zählen
Manchmal gibt es kein festes n. Du zählst einfach, wie oft ein seltenes Ereignis pro Einheit auftritt: Tiere pro Probequadrat, Mutationen pro Genom, Pollenkörner pro Sichtfeld. Dafür ist die gemacht. Sie hat einen einzigen Parameter, die mittlere Rate λ. Das Besondere: bei ihr sind Mittelwert und Varianz beide gleich λ.
# Im Schnitt 3 Tiere pro Probequadrat (lambda = 3):
# Wahrscheinlichkeit, in einem Quadrat genau 0 Tiere zu finden
dpois(0, lambda = 3)
# Wahrscheinlichkeit, höchstens 2 Tiere zu finden
ppois(2, lambda = 3) [1] 0.04978707 [1] 0.4231901
- dpois(k, lambda)
- Einzelwahrscheinlichkeit P(X = k) — die PMF.
- ppois(k, lambda)
- Kumulierte Wahrscheinlichkeit P(X ≤ k).
Anders als bei der stetigen Glockenkurve hat hier jeder einzelne Wert k eine echte, positive Wahrscheinlichkeit, nämlich die Höhe jedes Balkens. Probier im Erkunder beide Verteilungen aus: Schieb bei der Binomial p von 0,1 bis 0,9 und beobachte, wie der Gipfel wandert; mach bei der Poisson λ größer und sieh, wie die schiefe Form immer symmetrischer (glockenähnlicher) wird.
PMF-Erkunder: Binomial & Poisson
Stell die Parameter ein und sieh, wie sich die Wahrscheinlichkeitsfunktion verändert.
Sitzt es? Drei kurze Fragen
Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.
Selbsttest
Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.
1. Die Flügellänge einer Vogelart ist näherungsweise normalverteilt. Was beschreibt die Fläche unter der Dichtekurve über dem Intervall [a, b]?
2. Die Blütenblattlänge einer Iris ist eine stetige Zufallsvariable. Wie groß ist die Wahrscheinlichkeit, dass ein Blütenblatt exakt 50,000… mm lang ist — auf unendlich viele Nachkommastellen genau?
3. Ist die Flügellänge einer Vogelart normalverteilt, liegen rund 95 % aller Vögel im Bereich μ ± 2σ.