Korrelation & Transformation
Bisher haben wir Gruppen verglichen. Jetzt fragen wir: Hängen zwei Messgrößen zusammen? Wenn ein Säugetier schwerer ist, hat es dann auch ein größeres Gehirn? Misst man bei vielen Arten Körpermasse und Hirnmasse, schwanken beide gemeinsam. Genau das fasst die in einer einzigen Zahl. In dieser Lektion lernst du, was diese Zahl wirklich misst und wo sie täuscht.
Korrelation: Zusammenhang ohne Richtung
Wichtig vorab: Korrelation misst nur die Stärke des Zusammenhangs. Sie kennt keine Richtung und behauptet keine Ursache. Beide Variablen sind gleichberechtigt und zufällig; es ist egal, welche du als x und welche als y aufträgst. Das ist der Unterschied zur Regression (nächste Lektion): Dort gibt es eine erklärende und eine vorhergesagte Größe, also eine Richtung. Hier nicht.
Der erste Schritt: die Kovarianz
Wie fasst man „gemeinsames Schwanken“ in Zahlen? Über die . Sie schaut für jeden Datenpunkt, ob er bei beiden Variablen gleichzeitig über oder unter dem jeweiligen Mittel liegt. Liegen schwere Tiere meist auch über dem mittleren Hirngewicht, werden die Produkte positiv und die Kovarianz wird positiv.
Die zentrale Intuition: Pearson r ist standardisierte Kovarianz
Jetzt die wichtigste Idee der Lektion. Man teilt die Kovarianz durch das Produkt der beiden sx·sy. Damit kürzen sich die Einheiten heraus und man erhält die r.
Selbst ausprobieren: der Scatter-Builder
Zieh Punkte, füge welche hinzu, oder lade eine Vorlage, und beobachte Pearson r und Spearman ρ live nebeneinander. Zwei Aha-Momente solltest du dir holen:
- Lade U-Form / Parabel: Das Muster ist offensichtlich, aber Pearson r ≈ 0 — denn es gibt keinen linearen Trend.
- Lade mit Ausreißer (oder klick + Ausreißer): Ein einziger weit entfernter Punkt treibt Pearson dramatisch nach oben (Scheinkorrelation), während Spearman ρ ruhig bleibt. Zieh den Ausreißer ins Feld zurück — beide nähern sich wieder an.
Scatter-Builder: r und ρ zum Anfassen
Körpermasse (x) vs. Hirnmasse (y) bei Säugetieren. Zieh Punkte, füge welche hinzu oder probier die Vorlagen — und beobachte Pearson r und Spearman ρ live nebeneinander.
Probier es: Bei der Vorlage U-Form / Parabel ist Pearson r ≈ 0, obwohl ein klares Muster sichtbar ist — r misst eben nur die lineare Stärke. Bei mit Ausreißer schlägt Pearson dramatisch aus, während Spearman ρ ruhig bleibt: die Ränge lassen sich von einem einzelnen Punkt nicht so leicht täuschen. Zieh den Ausreißer ins Feld zurück und beide nähern sich wieder an.
Tipp: Punkte mit der Maus ziehen, in die freie Fläche klicken legt einen neuen an, oder einen Punkt anklicken und mit den Pfeiltasten verschieben (Umschalt = größere Schritte).
Rangbasiert & robust: Spearman ρ und Kendall τ
Die ist einfach der Pearson-Koeffizient der Ränge: Statt der Originalwerte korreliert man ihre Rangplätze. Das hat drei schöne Folgen. Sie erfasst jeden , auch gekrümmte wie eine Sättigungskurve y = log(x). Sie ist robust gegen Ausreißer, weil ein extremer Wert nur einen Rangplatz weiterrückt, nicht beliebig weit. Und sie ist für ordinale (Rang-)Daten zulässig, für die Pearson gar nicht definiert ist.
verfolgt dieselbe Idee über einen anderen Weg: Es zählt, wie viele Paare konkordant (gleichsinnig geordnet) gegenüber diskordant sind. Auch τ erfasst monotone Zusammenhänge und ist robust. Oft wird es bei vielen Bindungen oder kleinen Stichproben bevorzugt.
Ist die Korrelation echt? Der Test auf ρ = 0
Auch eine kleine Stichprobe aus völlig unkorrelierten Variablen zeigt selten exakt r = 0 — etwas Korrelation ergibt sich immer durch Zufall. Der Signifikanztest prüft die ρ = 0 („kein Zusammenhang“) mit einem : Die Teststatistik t folgt unter H₀ einer mit .
Die große Warnung: Korrelation ≠ Kausalität
Zwei Größen können stark korrelieren, ohne dass die eine die andere verursacht. Oft steckt ein dritter Faktor dahinter, ein , der beide gemeinsam beeinflusst. Das nennt man eine .
Transformationen: Krummes gerade biegen
Zurück zu unseren Säugetieren. Trägt man Körpermasse gegen Hirnmasse roh auf, ergibt sich eine stark gekrümmte Wolke: Wenige Riesen (Elefant, Wal) quetschen alle kleinen Tiere in eine Ecke, und Pearson r passt nicht zur klaren Wolke. Die Lösung ist eine : Logarithmiert man beide Achsen, wird aus der Kurve eine schöne Gerade: der berühmte log-log-Zusammenhang zwischen Hirn- und Körpermasse.
Welche Transformation wann? Eine Entscheidungshilfe
Welche Transformation passt, hängt von der Art der Daten ab, und das lässt sich zu einer kleinen Faustregel verdichten. Drei typische biologische Datensorten, drei typische Transformationen, mit Box-Cox als allgemeinem Rahmen darüber:
| Datentyp | Transformation | Biologisches Beispiel |
|---|---|---|
| Anteile / Prozente (in [0, 1]) | Arkussinus (arcsin√p) | Keimungsrate, Anteil befallener Blätter, Geschlechterverhältnis |
| Zähldaten (Poisson) | Wurzel (√y) | Anzahl Individuen pro Quadrat, Eier pro Gelege, Mutationen |
| Varianz ≫ Mittelwert / multiplikativ | Logarithmus (log y) | Körper-/Hirnmasse, Konzentrationen, Populationsgröße |
| unklar / allgemeiner Fall | Box-Cox (λ datengetrieben) | λ wird so gewählt, dass Wurzel, log usw. als Spezialfälle herauskommen |
Der Grund hinter der Tabelle ist immer derselbe: Varianzstabilisierung. Bei Anteilen ist die Streuung an den Rändern (nahe 0 % und 100 %) kleiner als in der Mitte — die zieht sie gerade. Bei Zähldaten wächst die Varianz mit dem Mittelwert (bei Poisson sind beide gleich λ), und die Wurzel fängt genau das ab. Bei multiplikativen Größen wächst die Streuung proportional zum Wert, und der Logarithmus macht daraus eine konstante Streuung. Erst danach passen lineare Methoden — Korrelation, t-Test, ANOVA, Regression — wieder sauber.
So sieht das in R aus
Die Korrelation samt Signifikanztest rechnest du mit cor.test(). Über das Argument method wählst du Pearson oder Spearman:
# Saeugetiere: Koerpermasse vs. Hirnmasse (Datensatz "mammals").
# Pearson auf den ROHEN Daten — durch die Kruemmung verzerrt:
cor.test(mammals$body, mammals$brain, method = "pearson") Pearson's product-moment correlation
t = 11.802, df = 60, p-value < 2.2e-16
sample estimates:
cor
0.9341638- method
- method = "pearson" ist der Standard; er misst die LINEARE Stärke.
- t
- Die Teststatistik t = r·√((n−2)/(1−r²)).
- df
- Freiheitsgrade df = n − 2 = 60 (also n = 62 Arten).
- p-value
- Der zweiseitige p-Wert für H₀: ρ = 0. Hier winzig → signifikant von 0 verschieden.
- cor
- Der geschätzte Pearson-Koeffizient r.
Spearman ρ ist robuster gegen die Ausreißer (Elefant, Wal) und erfasst die Monotonie direkt — und genau dieselbe Linearisierung erreichst du mit der log-log-Transformation:
# Rangbasiert (robust gegen die grossen Ausreisser):
cor(mammals$body, mammals$brain, method = "spearman")
# Oder die Nichtlinearitaet per log-log begradigen, dann Pearson:
cor(log(mammals$body), log(mammals$brain), method = "pearson") [1] 0.9534637 [1] 0.9595748
- spearman
- method = "spearman" korreliert die Raenge — robust und erfasst monotone (auch gekruemmte) Zusammenhaenge.
- log
- log() auf BEIDEN Variablen linearisiert den Potenzzusammenhang; danach passt Pearson wieder sauber.
Sitzt es? Drei kurze Fragen
Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.
Selbsttest
Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.
1. Du misst bei einer Eidechsenart die Umgebungstemperatur und die Aktivität. Die Pearson-Korrelation ist r = 0. Beweist das, dass kein Zusammenhang besteht?
2. Wann greifst du lieber zur Spearman-Korrelation ρ statt zu Pearson r?
3. „Eine hohe Korrelation zwischen zwei Merkmalen beweist, dass das eine das andere verursacht.“