Grundlagen · Testen

Hypothesentest & der p-Wert

Stell dir vor, du misst die Blätter von Pflanzen, die in der prallen Sonne stehen, und von solchen aus dem Schatten. Die Sonnenblätter wirken im Schnitt etwas kleiner. Aber ist das ein echter Unterschied oder nur das übliche Rauschen zwischen zwei Stichproben? Genau diese Frage beantwortet ein . In dieser Lektion lernst du, wie er funktioniert, was der berühmte wirklich sagt und vor allem, was er nicht sagt.

Kurzer Rückblick auf die letzte Lektion:

Weißt du noch?

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Ein 95-%-Konfidenzintervall bedeutet: Der wahre Parameter μ liegt mit 95 % Wahrscheinlichkeit in genau diesem berechneten Intervall.
2. Wie verändert sich ein Konfidenzintervall für den Mittelwert, wenn der Stichprobenumfang n (bei gleichem Konfidenzniveau) größer wird?

Muster oder nur Zufall? Modell statt Bauchgefühl

In deinen Daten siehst du ein Muster: Sonnenblätter sind im Mittel kleiner. Aber ein Muster in einer einzelnen Stichprobe kann auch reiner Zufall sein. Hättest du andere Pflanzen erwischt, sähe es vielleicht umgekehrt aus. Ein Hypothesentest stellt dem Muster ein Modell gegenüber: die nüchterne Annahme „in Wahrheit gibt es gar keinen Unterschied“. Dann fragt er: Wie gut passt mein beobachtetes Muster noch zu diesem langweiligen Modell?

Warum wir das Gegenteil widerlegen, statt unsere Idee zu beweisen

Was du eigentlich zeigen willst: dass sich Sonnen- und Schattenblätter in der Größe unterscheiden. Der überraschende Kniff der Statistik ist, dass sie genau das nicht direkt angeht. Statt „es gibt einen Unterschied“ zu beweisen, versucht sie, das Gegenteil zu widerlegen — die langweilige Annahme „es gibt keinen Unterschied“. Gelingt dieses Widerlegen, bleibt dein vermuteter Unterschied als plausibel übrig. Ein indirektes Vorgehen, aber ein logisch sauberes.

Warum dieser Umweg? Eine lässt sich nie endgültig beweisen. Egal wie viele Sonnenblätter du misst, der nächste Datensatz könnte deinen Befund noch kippen. Widerlegen dagegen kann man eine Behauptung schon mit einem einzigen klaren Gegenbeispiel. Deshalb ist eine gute wissenschaftliche Hypothese vor allem überprüfbar (man kann sie an Daten messen) und widerlegbar (Daten könnten ihr klar widersprechen). Diese Idee — statt Beweis — geht auf Karl Popper zurück.

H0 und HA: die zwei Hypothesen jedes Tests

Jeder Test stellt zwei Hypothesen gegenüber. Die H₀ ist die langweilige Annahme: kein Effekt, Sonnen- und Schattenpflanzen sind im Mittel gleich groß. Die HA (oder H₁) ist deine eigentliche Vermutung: Es gibt einen Unterschied.

In Formelsprache stehen dafür gleich die Symbole μ_Sonne und μ_Schatten (μ ist die wahre, unbekannte mittlere Blattgröße einer Gruppe). Lies sie einfach als Klartext:

H₀: μ_Sonne = μ_Schatten heißt schlicht „die mittleren Blattgrößen sind gleich“.
HA: μ_Sonne ≠ μ_Schatten heißt „die mittleren Blattgrößen sind verschieden“.

Einseitig oder zweiseitig? Die Richtung von HA

HA enthält immer eine Effektrichtung. Aber wie viel Richtung? Hier scheiden sich zwei Arten von Test. Ein ist ungerichtet: HA lautet μ₁ ≠ μ₂ („irgendein Unterschied, egal in welche Richtung“). So fragst du im Blattbeispiel schlicht, ob sich Sonnen- und Schattenblätter in der Größe unterscheiden, kleiner oder größer, beides zählt. Das Signifikanzniveau α verteilt sich dann auf beide Schwänze der Verteilung.

Ein ist dagegen gerichtet: HA lautet μ₁ > μ₂ (oder μ₁ < μ₂). Du behauptest also nicht nur einen Unterschied, sondern legst dich vorab auf seine Richtung fest. Das gesamte α liegt dann in einem Schwanz. Der Test ist in dieser Richtung empfindlicher (kleinere p-Werte), blind aber für eine Abweichung in die Gegenrichtung. Ein klassisches biologisches Beispiel: Wenn wir aus der Wirkungs-Theorie heraus erwarten, dass eine Düngung den Ertrag erhöht (nicht senkt), dürfen wir gerichtet einseitig testen — H₀: μ_gedüngt ≤ μ_Kontrolle gegen HA: μ_gedüngt > μ_Kontrolle.

Das Vorgehen in acht Schritten

Fast jeder klassische Test folgt demselben Ablauf, am Blattgrößen-Beispiel:

Teststatistik und p-Wert

Die presst deinen Befund in eine einzige Zahl: Sie misst den beobachteten Unterschied in Einheiten des Standardfehlers. Beim Vergleich zweier Mittelwerte ist das ein t-Wert, grob „Signal geteilt durch Rauschen“:

Der übersetzt diese Teststatistik in eine Wahrscheinlichkeit: Wie wahrscheinlich wäre ein mindestens so extremer Befund, wenn H₀ stimmte? Ist p klein (kleiner als α), ist dein Befund unter H₀ so unwahrscheinlich, dass du H₀ verwirfst und von einem „signifikanten“ Ergebnis sprichst.

Der senkrechte Strich „|“ in der Formel heißt „unter der Bedingung, dass“. Lies P(Daten so extrem | H₀ wahr) also als: die Wahrscheinlichkeit, solche (oder extremere) Daten zu sehen, wenn H₀ in Wahrheit gilt. Entscheidend ist die Leserichtung: Wir setzen H₀ als gegeben voraus und fragen nach den Daten — nicht umgekehrt. Der p-Wert ist damit gerade nicht P(H₀ wahr | Daten), also nicht die Wahrscheinlichkeit, dass H₀ stimmt.

Die eine Sache, die fast alle am p-Wert falsch verstehen

Selbst ausprobieren: das p-Wert-Würfelspiel

Hier wird greifbar, warum Signifikanz nicht dasselbe ist wie Wahrheit. Jedes „Experiment“ misst erneut die Blattgröße von Sonnen- und Schattenpflanzen, rechnet einen t-Test und färbt das Ergebnis grün (nicht signifikant) oder rot (signifikant). Geh so vor:

Lass den Schalter „In Wahrheit kein Unterschied (H0 wahr)“ an und klick auf „100 Experimente“.
Obwohl es keinen Unterschied gibt, leuchten ungefähr 5 % der Läufe rot: reine Fehlalarme. Das ist α.
Schalt „H0 wahr“ aus, dreh den wahren Unterschied hoch und lauf erneut: Jetzt werden viel mehr Experimente signifikant.
Setz den Effekt klein und erhöh n — auch mehr Daten machen einen echten Effekt leichter sichtbar.

p-Wert-Würfelspiel: Signifikanz ist nicht Wahrheit

Jedes Experiment misst erneut die Blattgröße von Sonnen- vs. Schattenpflanzen. Lauf viele Experimente — und schau, wie oft der Zufall allein „signifikant“ ausspuckt.

Noch kein Experiment gelaufen — klick unten auf „1 Experiment“ oder „100 Experimente“.

Grün = nicht signifikant (p > 0,05), rot = signifikant (p ≤ 0,05).

In Wahrheit kein Unterschied (H0 wahr)

Wahrer Unterschied (Sonne − Schatten) = 0,0 Einheiten

020

Stichprobenumfang je Gruppe n = 12

460

Zwei Arten, sich zu irren — und die Teststärke

Bei jeder Testentscheidung kannst du auf zwei Weisen danebenliegen. Sieh dir beide einzeln an.

Fehler 1. Art: ein Fehlalarm (α)

Beim verwirfst du eine wahre H₀: Du „findest“ einen Größenunterschied, den es in Wahrheit gar nicht gibt — ein Fehlalarm. Seine Wahrscheinlichkeit ist genau das Signifikanzniveau α, das du vorab festlegst (meist 5 %).

Fehler 2. Art: ein übersehener Effekt (β)

Beim ist es umgekehrt: Es gibt einen echten Unterschied, aber dein Test übersieht ihn. Du verpasst ihn. Seine Wahrscheinlichkeit heißt β.

	H₀ ist wahr (kein Unterschied)	HA ist wahr (echter Unterschied)
Test sagt „signifikant“	Fehler 1. Art (α) — Fehlalarm	richtig: Effekt erkannt (Power)
Test sagt „nicht signifikant“	richtig: kein Fehlalarm	Fehler 2. Art (β) — verpasst

Teststärke (Power): echte Effekte finden

Die (Power) ist die Gegenwahrscheinlichkeit zum Fehler 2. Art: Power = 1 − β. Sie sagt, wie zuverlässig dein Test einen wirklich vorhandenen Unterschied auch als signifikant erkennt.

Der zentrale Haken beim Zusammenspiel: Bei festem Stichprobenumfang n kannst du α und β nicht gleichzeitig kleinmachen. Ein strengeres α (weniger Fehlalarme) schiebt die Entscheidungsschwelle nach außen und vergrößert dadurch β — du übersiehst dann mehr echte Effekte. Aus diesem Tauschgeschäft kommst du nur mit mehr Information heraus: Ein größeres n oder ein größerer Effekt hebt die Power, ohne dass du α opfern musst.

Selbst ausprobieren: der Power-Visualisierer

Jetzt siehst du α, β und die Power gleichzeitig. Die linke graue Kurve ist die Welt unter H₀ (kein Unterschied), die rechte grüne die Welt unter HA (ein echter Unterschied). Die gestrichelte Linie ist deine Entscheidungsschwelle. Probier:

Zieh α kleiner: Die Entscheidungslinie wandert nach rechts, die korallene α-Fläche schrumpft, aber die graue β-Fläche wächst und die Power sinkt.
Erhöh die Effektgröße — die HA-Kurve rückt nach rechts, β schrumpft, die Power steigt.
Erhöh n: Der Effekt in Standardfehlern wächst, beide Welten trennen sich klarer, die Power steigt ebenfalls.
Stell die Effektgröße auf 0: Jetzt liegen H₀ und HA übereinander und die Power fällt auf α — du „findest“ nur noch Fehlalarme.

Power-Visualisierer: α, β und die Teststärke

Links die H0-Kurve (kein Unterschied zwischen Sonnen- und Schattenblättern), rechts die HA-Kurve (es gibt einen echten Unterschied). Verschieb die Entscheidungslinie mit α und sieh zu, wie α und β gegeneinander kippen.

Power = 1 − β 47,5 %

α = 5,0 % · β = 52,5 % · Effekt δ = 1,58 SE · krit. Wert c = 1,64

Koralle = α (Fehler 1. Art: ein Unterschied „gefunden“, den es nicht gibt). Grau = β (Fehler 2. Art: echten Unterschied übersehen). Grün = Power = 1 − β. Mach α kleiner → die Linie wandert nach rechts, β wächst, die Power sinkt. Mehr n oder ein größerer Effekt schieben HA nach rechts → mehr Power.

Effektgröße d = 0,50 (Größenunterschied der Blätter, in SD pro Messung)

0 (kein Effekt)großer Effekt

Signifikanzniveau α = 0,05

0,01 (streng)0,20 (locker)

Stichprobenumfang je Gruppe n = 20

3120

Sitzt es? Drei kurze Fragen

Keine Prüfung, nur eine Selbstkontrolle. Du bekommst zu jeder Frage sofort eine Erklärung.

Selbsttest

Beantworte die Fragen. Du bekommst sofort eine Rückmeldung.

1. Dein Test zur Blattgröße von Sonnen- vs. Schattenpflanzen liefert p = 0,03. Was bedeutet dieser p-Wert genau?
2. Dein Test ergibt p = 0,21 — „nicht signifikant“. Was darfst du daraus schließen?
3. Bei festem Stichprobenumfang n macht ein kleineres α den Fehler 2. Art größer.
4. In Wahrheit unterscheiden sich Sonnen- und Schattenblätter gar nicht in der Größe. Otto erhält aber p = 0,02, verwirft H0 und meldet einen Unterschied. Welchen Fehler hat er begangen?