Grundlagen · Schätzen

Schätzen & Konfidenzintervalle

Im letzten Kapitel hast du gesehen: Ein Stichprobenmittelwert ist nicht „die Wahrheit“, sondern eine zufällige Ziehung. In dieser Lektion machen wir das nutzbar. Otto hat 20 Vögel einer Art besendert und ihre Zugdistanz gemessen; daraus will er auf die wahre mittlere Zugdistanz der ganzen Art schließen, und ehrlich dazu sagen, wie präzise er sie damit eingegrenzt hat. Am Ende steht ein Satz, den fast alle falsch deuten, und du wirst ihn richtig verstehen.

Kurzer Rückblick auf die letzte Lektion:

Weißt du noch?

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Der Zentrale Grenzwertsatz sagt: Die Verteilung der Stichprobenmittelwerte wird mit wachsendem n glockenförmig — auch wenn die Grundgesamtheit schief verteilt ist.
2. Was passiert mit dem Standardfehler σ/√n, wenn der Stichprobenumfang n größer wird?

Kennwert oder Parameter?

Die ganze schließende Statistik dreht sich um eine einzige Unterscheidung: zwischen dem, was du misst, und dem, was du eigentlich wissen willst. Otto misst 20 Vögel — das sind seine Daten. Wissen will er aber etwas über alle Vögel der Art, und die kann er nie alle fangen. Für diese zwei Seiten gibt es zwei Namen.

Was du misst, heißt : eine Größe, die du aus deiner berechnest, etwa der Mittelwert x̄ oder die Standardabweichung s. Kennwerte schreibt man mit lateinischen Buchstaben, und sie schwanken von Stichprobe zu Stichprobe.

Was du wissen willst, heißt : eine feste, meist unbekannte Größe der — also aller Vögel der Art zusammen. Das ist der wahre Mittelwert μ oder die wahre Standardabweichung σ. Parameter schreibt man mit griechischen Buchstaben, und sie ändern sich nicht. Dein Ziel: vom beobachteten Kennwert auf den unbekannten Parameter schließen.

Der Punktschätzer und seine Treue

Der einfachste Weg, μ zu schätzen, ist ein : eine einzelne Zahl. Für μ nimmt man naheliegenderweise x̄. Was diesen Schätzer gut macht, ist seine (englisch unbiased): Er trifft im Mittel über alle möglichen Stichproben genau den wahren Wert. Er ist also nicht systematisch zu hoch oder zu niedrig, nur eben von Stichprobe zu Stichprobe verstreut.

In eine Formel gegossen heißt das, mit dem -Operator E(·) — gemeint ist der Mittelwert über unendlich viele Wiederholungen der Stichprobenziehung — schlicht: der Erwartungswert von x̄ ist genau μ.

Warum durch n − 1? Die Sache mit den Freiheitsgraden

Bei der Stichprobenvarianz teilst du die Summe der quadrierten Abweichungen nicht durch n, sondern durch n − 1. Das wirkt willkürlich — ist es aber nicht. Gehen wir es in drei kleinen Schritten durch.

Erstens: Du misst um die falsche Mitte. Die Abweichungen berechnest du gegenüber x̄ — und x̄ hast du selbst aus denselben Daten geschätzt. Die Daten liegen per Konstruktion möglichst nah an ihrem eigenen x̄, näher, als sie im Schnitt am wahren μ lägen.

Zweitens: „Durch n“ wäre deshalb zu klein. Weil die Abweichungen um das eigene x̄ kleiner ausfallen als um das wahre μ, würdest du σ² systematisch unterschätzen, wenn du durch n teilst. Die rohe Varianz kommt zu niedrig heraus.

Drittens: n − 1 sind die Freiheitsgrade. Ein ist schon dafür „verbraucht“, dass du x̄ aus den Daten geschätzt hast. Stell es dir konkret vor: Kennst du x̄ und alle Werte bis auf einen einzigen, dann liegt dieser letzte Wert zwangsläufig fest — er muss die Summe genau so ergänzen, dass wieder x̄ herauskommt. Frei wählbar sind also nur n − 1 der Abweichungen, und genau durch diese Zahl teilst du.

Der Standardfehler: wie sehr x̄ schwankt

Wenn x̄ von Stichprobe zu Stichprobe schwankt — wie stark tut es das? Das misst der (SE). Er ist die Standardabweichung der Stichprobenkennwertverteilung und damit das Maß für die Unsicherheit deiner Schätzung.

Der √n im Nenner ist die zentrale Botschaft: Mehr Daten machen die Schätzung präziser, aber mit abnehmendem Ertrag. Willst du den Standardfehler halbieren, brauchst du die vierfache Stichprobe.

Vom Punkt zum Intervall: das Konfidenzintervall

Ein einzelner Punktschätzer verschweigt seine Unsicherheit. Ehrlicher ist ein (KI): ein ganzer Bereich um x̄ herum, der den wahren Wert plausibel einschließt. Du baust ihn, indem du an x̄ ein Vielfaches des Standardfehlers anhängst, nach beiden Seiten, denn ein KI ist immer zweiseitig.

Das (z. B. 95 %) legt fest, wie „großzügig“ das Intervall ist; sein Gegenstück ist das Risiko α = 1 − Niveau (bei 95 % also α = 5 %), das sich zu gleichen Teilen auf beide Enden verteilt. Die wichtigsten z-Werte solltest du im Kopf haben:

90 % Konfidenz → z ≈ 1,65
95 % Konfidenz → z ≈ 1,96
99 % Konfidenz → z ≈ 2,58

Diese drei Zahlen sind keine Willkür, die man auswendig lernen muss: Es sind die der — genau die Grenzen, die symmetrisch um die Mitte 90 %, 95 % bzw. 99 % der Fläche unter der Glockenkurve einschließen. Mehr Konfidenz bedeutet mehr Fläche, und mehr Fläche bedeutet einen größeren z-Wert.

Die eine Deutung, die fast alle falsch machen

Probier es selbst aus: die Sampling-Maschine

Hier wird die richtige Deutung anfassbar. Das wahre μ, die wahre mittlere Zugdistanz der Art, steht als rote Linie fest und bewegt sich nie. Jede Stichprobe (eine neue Gruppe besenderter Vögel) erzeugt ein Konfidenzintervall, das darunter gestapelt wird. Geh am besten so vor:

Klick ein paarmal auf „Stichprobe ziehen“ (als würdest du jedes Mal eine neue Gruppe Vögel besendern) und beobachte, wie die Intervalle um die feste μ-Linie tanzen; manche treffen, manche verfehlen.
Drück „100 ziehen“ und sieh zu, wie der Trefferanteil sich beim Konfidenzniveau einpendelt (~95 %).
Stell das Niveau auf 99 %: Die Intervalle werden breiter und es gibt weniger Fehlschüsse. Auf 90 % werden sie schmaler, dafür verfehlen mehr.
Erhöh n: Die Intervalle werden schmaler (der Standardfehler sinkt), der Trefferanteil bleibt aber beim Niveau.

Sampling-Maschine: Was 95 % Konfidenz wirklich bedeuten

Das wahre μ steht fest (rote Linie). Zieh Stichproben — jede liefert ein Intervall. Beobachte, wie ungefähr 95 % der Intervalle das feste μ einfangen. Nicht das μ wandert, sondern die Intervalle.

Treffer 0 von 0 (– %) Ziel: 95 % · 0 verfehlt

Jede waagerechte Linie ist ein 95-%-KI (hier mit bekanntem σ, daher z-basiert: x̄ ± z·σ/√n). Grüne Intervalle enthalten das feste μ, rote verfehlen es. Der Trefferanteil pendelt sich beim Konfidenzniveau ein.

Konfidenzniveau

z = 1,96 · KI-Breite ±6,6

Stichprobenumfang n = 20

5 100

z oder t? Kleine Stichproben brauchen breitere Netze

Den z-Wert darfst du nur verwenden, wenn σ bekannt ist oder die Stichprobe groß ist. Bei kleinem n und unbekanntem σ musst du σ durch s schätzen. Das ist ein Schätzer mehr, der selbst schwanken kann — und diese zusätzliche Unsicherheit muss ehrlich mit ins Intervall.

Dafür gibt es die : glockenförmig wie die Normalverteilung, aber mit schwereren Rändern. „Schwerere Ränder“ heißt anschaulich: Die Kurve ist flacher und breiter, extreme Werte sind etwas wahrscheinlicher. Genau so bildet sie die Extra-Unsicherheit bei kleinem n ab — und das führt zu größeren kritischen Werten, also zu einem breiteren Intervall. Wie stark, das hängt von den Freiheitsgraden df = n − 1 ab: je kleiner n, desto breiter die Kurve.

Konkret für ein 95-%-KI (zweiseitig, also das 0,975-Quantil): Der z-Wert ist 1,960. Bei einer kleinen Stichprobe von n = 10 (df = 9) ist der t-Wert dagegen 2,262, deutlich größer, das Intervall also breiter. Bei n = 31 (df = 30) sind es nur noch 2,042, schon nah an z. Je größer die Stichprobe, desto kleiner der Unterschied — bei großem n sind t-Wert und z-Wert praktisch nicht mehr zu unterscheiden.

Wie viele Daten brauche ich? Der Mindeststichprobenumfang

Die KI-Formel lässt sich umdrehen. Will Otto, dass sein 95-%-Intervall für die mittlere Zugdistanz höchstens eine gewünschte Genauigkeit E (die halbe Intervallbreite, der „Fehler“) hat, kann er den nötigen Stichprobenumfang (also wie viele Vögel er besendern muss) vorab ausrechnen:

Das Quadrat ist die Kehrseite des √n von vorhin: Doppelt so genau (halbes E) zu sein, kostet die vierfache Stichprobe. Präzision ist teuer.

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Otto hat aus 20 besenderten Vögeln ein 95-%-Konfidenzintervall für die mittlere Zugdistanz der Art berechnet. Welche Aussage ist die korrekte frequentistische Deutung?
2. Warum teilt man bei der Stichprobenvarianz durch n − 1, und was passiert mit der Breite des Konfidenzintervalls, wenn n wächst?
3. Ein 99-%-Konfidenzintervall ist breiter als ein 95-%-Konfidenzintervall.
4. Zwei Studien schätzen dieselbe mittlere Zugdistanz bei gleicher Streuung. Studie A hat n = 25, Studie B n = 100. Wie verhalten sich die Breiten ihrer 95-%-Konfidenzintervalle?