Grundlagen · Testen

Hypothesentest & der p-Wert

Stell dir vor, du misst die Blätter von Pflanzen, die in der prallen Sonne stehen, und von solchen aus dem Schatten. Die Sonnenblätter wirken im Schnitt etwas kleiner. Aber ist das ein echter Unterschied oder nur das übliche Rauschen zwischen zwei Stichproben? Genau diese Frage beantwortet ein . In dieser Lektion lernst du, wie er funktioniert, was der berühmte wirklich sagt und vor allem, was er nicht sagt.

Muster oder nur Zufall? Modell statt Bauchgefühl

In deinen Daten siehst du ein Muster: Sonnenblätter sind im Mittel kleiner. Aber ein Muster in einer einzelnen Stichprobe kann auch reiner Zufall sein. Hättest du andere Pflanzen erwischt, sähe es vielleicht umgekehrt aus. Ein Hypothesentest stellt dem Muster ein Modell gegenüber: die nüchterne Annahme „in Wahrheit gibt es gar keinen Unterschied“. Dann fragt er: Wie gut passt mein beobachtetes Muster noch zu diesem langweiligen Modell?

Eine gute Hypothese — und warum man sie nie beweist

Eine gute wissenschaftliche Hypothese ist überprüfbar und vor allem widerlegbar. Diese Idee geht auf Karl Popper zurück: statt Beweis. Man kann eine Forschungshypothese niemals endgültig beweisen. Egal wie viele Sonnenblätter du misst, der nächste Datensatz könnte sie noch kippen. Widerlegen dagegen kann man eine Hypothese mit einem einzigen Gegenbeispiel.

Deshalb dreht die Statistik den Spieß um. Sie prüft nicht direkt deine , sondern versucht, die gegenteilige Annahme zu widerlegen, die Annahme „kein Effekt“. Gelingt das, bleibt die Forschungshypothese als plausibel übrig. Ein indirektes Vorgehen, aber ein logisch sauberes.

H0 und HA: die zwei Hypothesen jedes Tests

Jeder Test stellt zwei Hypothesen gegenüber. Die H₀ ist die langweilige: kein Effekt. Sonnen- und Schattenpflanzen sind im Mittel gleich groß (μSonne = μSchatten). Die HA (oder H₁) ist deine eigentliche Vermutung und enthält immer eine Effektgröße: Es gibt einen Unterschied (μSonne ≠ μSchatten).

Einseitig oder zweiseitig? Die Richtung von HA

HA enthält immer eine Effektrichtung. Aber wie viel Richtung? Hier scheiden sich zwei Arten von Test. Ein ist ungerichtet: HA lautet μ₁ ≠ μ₂ („irgendein Unterschied, egal in welche Richtung“). So fragst du im Blattbeispiel schlicht, ob sich Sonnen- und Schattenblätter in der Größe unterscheiden, kleiner oder größer, beides zählt. Das Signifikanzniveau α verteilt sich dann auf beide Schwänze der Verteilung.

Ein ist dagegen gerichtet: HA lautet μ₁ > μ₂ (oder μ₁ < μ₂). Du behauptest also nicht nur einen Unterschied, sondern legst dich vorab auf seine Richtung fest. Das gesamte α liegt dann in einem Schwanz. Der Test ist in dieser Richtung empfindlicher (kleinere p-Werte), blind aber für eine Abweichung in die Gegenrichtung. Ein klassisches biologisches Beispiel: Wenn wir aus der Wirkungs-Theorie heraus erwarten, dass eine Düngung den Ertrag erhöht (nicht senkt), dürfen wir gerichtet einseitig testen — H₀: μgedüngt ≤ μKontrolle gegen HA: μgedüngt > μKontrolle.

Der Haken: Einseitig testen darfst du nur, wenn die Richtung vor dem Blick in die Daten biologisch begründet feststeht. Wer erst die Daten ansieht, die Richtung abliest und dann einseitig testet, halbiert sich den p-Wert unredlich und bläht so heimlich den Fehler 1. Art auf. Im Zweifel, und immer, wenn die Richtung offen ist, bleibst du ehrlich zweiseitig.

Das Vorgehen in acht Schritten

Fast jeder klassische Test folgt demselben Ablauf, am Blattgrößen-Beispiel:

Teststatistik und p-Wert

Die presst deinen Befund in eine einzige Zahl: Sie misst den beobachteten Unterschied in Einheiten des Standardfehlers. Beim Vergleich zweier Mittelwerte ist das ein t-Wert, grob „Signal geteilt durch Rauschen“:

Der übersetzt diese Teststatistik in eine Wahrscheinlichkeit: Wie wahrscheinlich wäre ein mindestens so extremer Befund, wenn H₀ stimmte? Ist p klein (kleiner als α), ist dein Befund unter H₀ so unwahrscheinlich, dass du H₀ verwirfst und von einem „signifikanten“ Ergebnis sprichst.

Die eine Sache, die fast alle am p-Wert falsch verstehen

Selbst ausprobieren: das p-Wert-Würfelspiel

Hier wird greifbar, warum Signifikanz nicht dasselbe ist wie Wahrheit. Jedes „Experiment“ misst erneut die Blattgröße von Sonnen- und Schattenpflanzen, rechnet einen t-Test und färbt das Ergebnis grün (nicht signifikant) oder rot (signifikant). Geh so vor:

  1. Lass den Schalter „In Wahrheit kein Unterschied (H0 wahr)“ an und klick auf „100 Experimente“.
  2. Obwohl es keinen Unterschied gibt, leuchten ungefähr 5 % der Läufe rot: reine Fehlalarme. Das ist α.
  3. Schalt „H0 wahr“ aus, dreh den wahren Unterschied hoch und lauf erneut: Jetzt werden viel mehr Experimente signifikant.
  4. Setz den Effekt klein und erhöh n — auch mehr Daten machen einen echten Effekt leichter sichtbar.

p-Wert-Würfelspiel: Signifikanz ist nicht Wahrheit

Jedes Experiment misst erneut die Blattgröße von Sonnen- vs. Schattenpflanzen. Lauf viele Experimente — und schau, wie oft der Zufall allein „signifikant“ ausspuckt.

signifikant 0 von 0 (– %) H0 ist wahr → Treffer sind reine Fehlalarme (≈ α = 5 %)

Noch kein Experiment gelaufen — klick unten auf „1 Experiment“ oder „100 Experimente“.

Grün = nicht signifikant (p > 0,05), rot = signifikant (p ≤ 0,05). Mit „H0 wahr“ gibt es in Wahrheit keinen Unterschied — und trotzdem fällt rund jedes zwanzigste Experiment „signifikant“ aus. Genau das ist der Fehler 1. Art mit α = 5 %.

020
460

Zwei Arten, sich zu irren

Beim Entscheiden kann man auf zwei Weisen danebenliegen. Der (Wahrscheinlichkeit α): Du verwirfst eine wahre H₀ und „findest“ einen Größenunterschied, den es gar nicht gibt, einen Fehlalarm. Der (Wahrscheinlichkeit β): Es gibt einen echten Unterschied, aber dein Test übersieht ihn. Du verpasst ihn.

H₀ ist wahr (kein Unterschied)HA ist wahr (echter Unterschied)
Test sagt „signifikant“Fehler 1. Art (α) — Fehlalarmrichtig: Effekt erkannt (Power)
Test sagt „nicht signifikant“richtig: kein FehlalarmFehler 2. Art (β) — verpasst

Die (Power) ist die Gegenwahrscheinlichkeit zum Fehler 2. Art: Power = 1 − β. Sie sagt, wie zuverlässig dein Test einen wirklich vorhandenen Unterschied auch als signifikant erkennt.

Selbst ausprobieren: der Power-Visualisierer

Jetzt siehst du α, β und die Power gleichzeitig. Die linke graue Kurve ist die Welt unter H₀ (kein Unterschied), die rechte grüne die Welt unter HA (ein echter Unterschied). Die gestrichelte Linie ist deine Entscheidungsschwelle. Probier:

  1. Zieh α kleiner: Die Entscheidungslinie wandert nach rechts, die korallene α-Fläche schrumpft, aber die graue β-Fläche wächst und die Power sinkt.
  2. Erhöh die Effektgröße — die HA-Kurve rückt nach rechts, β schrumpft, die Power steigt.
  3. Erhöh n: Der Effekt in Standardfehlern wächst, beide Welten trennen sich klarer, die Power steigt ebenfalls.
  4. Stell die Effektgröße auf 0: Jetzt liegen H₀ und HA übereinander und die Power fällt auf α — du „findest“ nur noch Fehlalarme.

Power-Visualisierer: α, β und die Teststärke

Links die H0-Kurve (kein Unterschied zwischen Sonnen- und Schattenblättern), rechts die HA-Kurve (es gibt einen echten Unterschied). Verschieb die Entscheidungslinie mit α und sieh zu, wie α und β gegeneinander kippen.

Power = 1 − β 47,5 %
α = 5,0 % · β = 52,5 % · Effekt δ = 1,58 SE · krit. Wert c = 1,64
EntscheidungslinieH0HA-3-2-10123

Koralle = α (Fehler 1. Art: ein Unterschied „gefunden“, den es nicht gibt). Grau = β (Fehler 2. Art: echten Unterschied übersehen). Grün = Power = 1 − β. Mach α kleiner → die Linie wandert nach rechts, β wächst, die Power sinkt. Mehr n oder ein größerer Effekt schieben HA nach rechts → mehr Power.

0 (kein Effekt)großer Effekt
0,01 (streng)0,20 (locker)
3120

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

  1. 1. Dein Test zur Blattgröße von Sonnen- vs. Schattenpflanzen liefert p = 0,03. Was bedeutet dieser p-Wert genau?

  2. 2. Dein Test ergibt p = 0,21 — „nicht signifikant“. Was darfst du daraus schließen?

  3. 3. Bei festem Stichprobenumfang n macht ein kleineres α den Fehler 2. Art größer.