Klausur-relevant · Zusammenhänge

Lineare Regression

In der letzten Lektion haben wir gefragt: Hängen zwei Größen zusammen? Jetzt gehen wir einen Schritt weiter und fragen: Kann ich aus der einen Größe die andere vorhersagen? Bei der Wasserfloh-Art Daphnia beobachten wir: Größere Tiere bekommen mehr Nachkommen. Die legt eine Gerade durch die Punktwolke Körperlänge → Anzahl Nachkommen und macht aus „hängt zusammen“ ein handfestes „so viele Nachkommen erwarte ich bei dieser Länge“.

Von der Korrelation zur Regression: jetzt mit Richtung

Der entscheidende Unterschied zur : Die Regression hat eine Richtung. Sie behandelt die beiden Variablen nicht mehr gleichberechtigt, sondern unterscheidet eine erklärende Größe X (hier: die Körperlänge) und eine vorhergesagte Größe Y (die Nachkommenzahl). X erklärt Y, nicht umgekehrt. Und sie liefert nicht nur eine Zahl, sondern ein Vorhersagemodell: eine Gerade, mit der du für jede Länge eine erwartete Nachkommenzahl ablesen kannst.

Dahinter stehen zwei Gleichungen, die man sauber auseinanderhalten muss. In der Population (der ganzen Daphnien-Welt) gilt der wahre, unbekannte Zusammenhang:

Aus deiner kannst du α und β nur schätzen. Die geschätzte Gerade heißt:

Wie findet man die beste Gerade? Kleinste Quadrate

Durch eine Punktwolke kann man unendlich viele Geraden legen. Welche ist die beste? Die gibt eine klare Antwort: jene Gerade, die die Summe der quadrierten Residuen minimiert. Für jeden Punkt misst man den senkrechten Abstand zur Geraden, also das Residuum, quadriert ihn (damit Über- und Unterschätzungen sich nicht aufheben und große Abstände stärker zählen) und summiert. Die Gerade, die diese Summe so klein wie möglich macht, gewinnt.

Residuen: das Übriggebliebene

Das eines Tieres ist schlicht Beobachtung − Vorhersage: e = y − ŷ. Liegt ein Tier über der Geraden, ist sein Residuum positiv (mehr Nachkommen als erwartet), liegt es darunter, negativ. Die Residuen sind nicht bloß „Rest“. Sie sind die Grundlage aller Diagnostik: An ihnen liest man später ab, ob das Modell überhaupt passt.

Wie gut sagt das Modell vorher? Das Bestimmtheitsmaß R²

Die Nachkommenzahl streut. Ein Teil dieser Streuung erklärt das Modell (weil größere Tiere eben mehr Nachkommen haben), ein Teil bleibt unerklärt (die Residuen). Das ist der Anteil der Y-Variabilität, den das Modell erklärt, die in erklärt und unerklärt:

Beispiel: R² = 0,80 — die Länge erklärt 80 % der Streuung der Nachkommenzahl
erklärt (SS = 80,00) unerklärt (SS = 20,00)
R² = 0,80

Ist der Zusammenhang echt? Der Test auf die Steigung

Auch aus völlig zusammenhanglosen Daten ergibt sich rein zufällig fast nie eine perfekt waagerechte Gerade. Ein bisschen Steigung entsteht immer. Der Test prüft die H₀: β = 0, also „die wahre Steigung ist null, die Gerade bringt nichts gegenüber dem reinen Mittelwert von Y“. Die Teststatistik ist ein mit :

Selbst ausprobieren: der Regression-Builder

Zieh die Punkte und beobachte, wie sich die Kleinste-Quadrate-Gerade, die senkrechten Residuen-Segmente und die Kennzahlen b, a, R² und der p-Wert der Steigung live mitbewegen. Der untere Balken zeigt die Streuungszerlegung (erklärt vs. unerklärt). Hol dir vor allem diesen Aha-Moment:

  1. Klick Hebelpunkt hinzufügen: Ein einziger Punkt weit draußen in x (große Länge, wenige Nachkommen) kippt die ganze Gerade und lässt R² einbrechen — obwohl alle anderen Punkte unverändert bleiben. So gefährlich ist ein einzelner einflussreicher Punkt.
  2. Zieh einen Punkt weit nach oben oder unten: Sein Residuum-Segment wächst, und R² verschlechtert sich, während die Steigung sich nur leicht dreht.

Regression-Builder: die Gerade zum Anfassen

Körperlänge x (mm) einer Daphnie gegen die Anzahl Nachkommen y. Zieh Punkte — die Kleinste-Quadrate-Gerade, die Residuen, b, a, R² und der p-Wert laufen live mit.

Steigung b
6,71
Nachkommen pro mm
Achsenabschnitt a
-6,47
ŷ bei x = 0
0,96
erklärter Anteil
p-Wert (b)
< 0,0001
signifikant (β ≠ 0)
0123456010203040Körperlänge (mm) →Anzahl Nachkommen →
Streuungszerlegung: vom Modell erklärt vs. unerklärt (Residuen)
erklärt (SS = 432,02) unerklärt (SS = 17,98)
R² = 0,96

Probier es: Klick Hebelpunkt hinzufügen — der koralle Punkt liegt weit rechts (große Körperlänge) und tief unten. Beobachte, wie die Gerade kippt und R² einbricht, obwohl sich an den restlichen Punkten nichts geändert hat. So stark kann ein einziger einflussreicher Punkt (hohe Hebelwirkung) eine Regression verzerren.

Tipp: Punkte mit der Maus ziehen oder einen Punkt anklicken und mit den Pfeiltasten verschieben (Umschalt = größere Schritte). Der koralle Hebelpunkt zeigt, wie ein einzelner Ausreißer in x die ganze Gerade kippt.

Hält das Modell? Annahmen & Diagnoseplots

Ein kleiner p-Wert allein macht ein Modell noch nicht gültig. Die lineare Regression ruht auf vier Annahmen, die man an den Residuen überprüft:

  • Linearität: der Zusammenhang ist wirklich gerade, kein Bogen.
  • Unabhängigkeit: die Beobachtungen beeinflussen sich nicht gegenseitig.
  • : die Streuung der Residuen ist über den ganzen X-Bereich gleich groß (kein Trichter).
  • Normalität der Residuen: die Residuen sind ungefähr normalverteilt.

So sieht das in R aus

Die Regression rechnest du mit lm() (linear model), die Kennzahlen liest du aus summary() ab:

R Code (nur Anzeige)
# Daphnia: Anzahl Nachkommen aus der Koerperlaenge vorhersagen.
model <- lm(nachkommen ~ laenge, data = daphnia)
summary(model)
Ausgabe
Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -10.1786     1.1333  -8.982 0.000288 ***
laenge        6.7857     0.3113  21.794 3.77e-06 ***

Multiple R-squared:  0.9896,	Adjusted R-squared:  0.9875
F-statistic: 475.0 on 1 and 5 DF,  p-value: 3.774e-06
lm
lm(y ~ x) passt das Modell ŷ = a + b·x mit kleinsten Quadraten an.
Estimate
Die Schätzungen: (Intercept) = a, laenge = b (die Steigung, ≈ 6,79 Nachkommen pro mm).
Std. Error
SE_b — der Standardfehler der Steigung, geht in t = b/SE_b ein.
t value
t = b / SE_b = 6,79 / 0,311 ≈ 21,79 für die Steigung.
Pr(>|t|)
Der p-Wert für H0: β = 0. Hier winzig (3,77e−6) → die Steigung ist hochsignifikant.
Multiple R-squared
R² = 0,99 — die Länge erklärt 99 % der Streuung der Nachkommenzahl (sehr gute Vorhersage).

Mit plot(model) bekommst du die vier Diagnoseplots: Residuals vs Fitted (soll strukturlos sein), den Q-Q-Plot (soll auf der Diagonale liegen), den Scale-Location-Plot (Varianzhomogenität) und Residuals vs Leverage mit den Cook-Distanz-Konturen, die einflussreiche Punkte markieren. Erst wenn diese Plots in Ordnung sind, darfst du dem winzigen p-Wert vertrauen.

Vorhersagen mit Unsicherheit: KI vs. Vorhersageintervall

Die Gerade liefert für jede Länge x einen Punktwert ŷ. Doch eine Vorhersage ohne Unsicherheit ist wertlos. Und hier lauert eine feine, klausurrelevante Unterscheidung. Es gibt zwei Intervalle, die ganz unterschiedliche Fragen beantworten:

  • Das Konfidenzintervall des Mittelwerts (mean response) fragt: Wo liegt die mittlere Nachkommenzahl ALLER Daphnien dieser Länge? Es umschließt die wahre Regressionsgerade und ist relativ schmal.
  • Das fragt: In welchem Bereich liegt die Nachkommenzahl EINER EINZELNEN neuen Daphnie dieser Länge? Es ist immer breiter.

Warum ist das Vorhersageintervall breiter? Weil es zwei Quellen von Unsicherheit addiert: die Unsicherheit über die Lage der Geraden selbst (wie beim KI) plus die zusätzliche Streuung eines einzelnen Tieres um die Gerade (der Fehlerterm ε). Ein einzelnes Tier streut eben um den Mittelwert seiner Längenklasse, und diese Extra-Streuung steckt nur im Vorhersageintervall.

In R steuerst du beides über das Argument interval von predict():

R Code (nur Anzeige)
# Vorhersage fuer eine neue Daphnie mit Laenge 3.5 mm
neu <- data.frame(laenge = 3.5)

# (a) Konfidenzintervall des Mittelwerts (schmal):
predict(model, newdata = neu, interval = "confidence")

# (b) Vorhersageintervall fuer eine EINZELNE neue Daphnie (breiter):
predict(model, newdata = neu, interval = "prediction")
Ausgabe
       fit      lwr      upr
1 13.5714 12.8329 14.3099

       fit      lwr      upr
1 13.5714 10.8762 16.2666
interval = "confidence"
Liefert das KI der MITTLEREN Antwort: wo die wahre Gerade bei x = 3,5 liegt. Hier 12,83 bis 14,31 — schmal.
interval = "prediction"
Liefert das Vorhersageintervall für EINE neue Daphnie: 10,88 bis 16,27, deutlich breiter, weil die individuelle Streuung dazukommt.
fit
Der Punktwert ŷ ist in beiden Fällen identisch (13,57), nur die Breite des Intervalls unterscheidet sich.

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

  1. 1. Du regressierst die Anzahl Nachkommen auf die Körperlänge von Daphnien. Die Steigung ist hochsignifikant (p < 0,001), aber R² = 0,12. Wie liest du das richtig?

  2. 2. Dein p-Wert für die Steigung ist winzig. Warum solltest du dir trotzdem die Diagnoseplots (Residuals-vs-Fitted, Q-Q) ansehen?

  3. 3. „Ein einzelner einflussreicher Punkt (hohe Hebelwirkung) kann die Regressionsgerade stark verändern.“