Grundlagen · Kernidee

Von der Stichprobe zur Stichprobenverteilung

Fast die gesamte schließende Statistik hängt an einer einzigen Idee. Wenn die klick macht, verstehst du den Rest viel leichter: Konfidenzintervalle, p-Werte, t-Tests. Schauen wir sie uns also in Ruhe an.

Die Frage dahinter klingt fast wie ein Zaubertrick: Warum sagt uns eine kleine überhaupt etwas über eine riesige ? Stell dir vor, du willst die Flügellänge aller Amseln in einem großen Wald kennen. Die kannst du niemals alle fangen. Du fängst und misst ein paar Dutzend Vögel und willst daraus auf den ganzen Bestand schließen. Wie kann das funktionieren? Und vor allem: Wie sicher darfst du dir dabei sein?

Stell dir kurz das Setup vor. Die Grundgesamtheit sind alle Amseln des Waldes, die dich eigentlich interessieren. Du kannst sie nie ganz messen, also ziehst du eine Stichprobe, du fängst ein paar Vögel, und rechnest daraus einen , hier die mittlere Flügellänge der gefangenen Tiere. Dieser eine Mittelwert ist dein Schätzwert. Die spannende Frage ist: Wie sehr würde er schwanken, wenn du noch einmal losziehst und andere Amseln fängst? Genau diese Schwankung ist der , und sie ist der Schlüssel zu allem, was danach kommt.

Kurzer Rückblick auf die letzte Lektion:

Weißt du noch?

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Was ist bei einer stetigen Verteilung die Wahrscheinlichkeit für ein Intervall [a, b]?
2. Bei einer Normalverteilung liegen rund 95 % der Werte im Bereich μ ± 2σ.

Probier es selbst aus

Lass uns die Idee nicht behaupten, sondern bauen. Geh im Widget am besten in dieser Reihenfolge vor:

Zieh ein paar einzelne Stichproben (stell dir vor, du fängst jedes Mal eine Handvoll Amseln) und beobachte, wie jeder Fang eine mittlere Flügellänge liefert.
Klick dann auf ×100 und sieh zu, wie sich aus den vielen Mittelwerten eine neue Verteilung aufbaut.
Mach den Stichprobenumfang n größer, miss also mehr Vögel pro Fang, und achte darauf, wie schmal die Verteilung der Mittelwerte wird.
Stell zum Schluss die Grundgesamtheit auf rechtsschief um und schau, was mit den Mittelwerten passiert.

Stichprobenverteilung & Zentraler Grenzwertsatz

Zieh ein paar Stichproben und beobachte, wie sich aus vielen Mittelwerten eine Glocke formt. Erhöhe dann n und sieh, wie die Verteilung schmaler wird.

1. Grundgesamtheit

wahres μ = 100.0, σ = 15.0

5.000 Beobachtungen aus der gewählten Verteilung. Die gestrichelte Linie zeigt das wahre μ.

2. Aktuelle Stichprobe (n = 10)

noch keine Stichprobe gezogen

Jeder Punkt ist eine Beobachtung. Die rote Linie ist der Mittelwert dieser einen Stichprobe — genau dieser Wert wandert unten in die Verteilung.

3. Stichprobenverteilung der Mittelwerte

0 Stichproben gesammelt

Anzahl Stichproben

Beobachtete SD der Mittelwerte

–

Theoretischer SE = σ/√n

4.74

Die rote Kurve ist die theoretische Normalverteilung N(μ, SE). Je mehr Stichproben du ziehst, desto besser passt das Histogramm dazu — auch bei schiefen oder bimodalen Grundgesamtheiten. Das ist der Zentrale Grenzwertsatz. Beim Ändern von Verteilung oder n wird die Sammlung zurückgesetzt, weil SE = σ/√n davon abhängt.

Grundgesamtheit

Stichprobenumfang n = 10

2 100

Ist dir aufgefallen, dass diese Verteilung der Mittelwerte deutlich schmaler ist als die Grundgesamtheit? Das ist kein Zufall. Ein Mittelwert mittelt Ausreißer nach oben und unten gegeneinander weg, also liegt er fast immer näher an der Wahrheit als ein einzelner Wert. Und je größer du n machst, desto stärker passiert dieses Wegmitteln. Die Verteilung wird immer schmaler.

Und jetzt der Teil, der die meisten überrascht. Selbst wenn du die Grundgesamtheit auf rechtsschief stellst (also auf etwas, das überhaupt nicht nach Glocke aussieht), formen die Mittelwerte trotzdem eine schöne, symmetrische Glocke. Die Daten dürfen schief sein; die Mittelwerte werden es nicht bleiben.

Die eine Formel dahinter

Die ganze Beobachtung „schmaler mit mehr Daten“ steckt in einer einzigen, erstaunlich kurzen Formel. Du musst sie nicht auswendig lernen, schau sie dir einfach an und prüfe, ob sie zu dem passt, was du gerade im Widget gesehen hast.

Lies sie ruhig Symbol für Symbol: Oben steht , die Streuung der Grundgesamtheit. Unten steht √n, also die Wurzel aus deinem Stichprobenumfang. Weil n unten im Nenner steht, wird der ganze Bruch, der Standardfehler, kleiner, sobald n größer wird. Und weil dort die Wurzel steht, brauchst du die vierfache Stichprobe, um den Standardfehler zu halbieren. Mehr Daten helfen, aber mit abnehmendem Tempo.

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Du misst die Flügellänge gefangener Amseln. Was wird glockenförmig — die Flügellängen der einzelnen Vögel oder die mittleren Flügellängen vieler Fänge?
2. Was passiert mit dem Standardfehler, wenn du pro Fang mehr Amseln misst (Stichprobenumfang n größer)?
3. Der Zentrale Grenzwertsatz gilt auch, wenn die Flügellängen im Wald schief (nicht glockenförmig) verteilt sind.
4. Für deine Amsel-Fänge unterscheidest du den Standardfehler (SE = σ/√n) von der Standardabweichung σ. Welche Beschreibung trifft zu?