04-Wahrscheinlichkeitsverteilungen

Angewandte Statistik – Ein Praxiskurs

Thomas Petzoldt

2025-09-29

Wahrscheinlichkeitsverteilungen


Definition

  • eine mathematische Funktion
  • Wahrscheinlichkeit des Auftretens verschiedener möglicher Ergebnisse für ein Experiment

\(\rightarrow\) https://en.wikipedia.org/wiki/Probability_distribution


Eigenschaften

  1. Eine bestimmte Form (Verteilungstyp, eine mathematische Formel)
  2. Kann durch ihre Parameter beschrieben werden (z. B. Mittelwert \(\mu\) und Standardabweichung \(\sigma\)).

Wahrscheinlichkeitsverteilungen sind eines der Kernkonzepte der Statistik und viele Statistikkurse beginnen mit dem Werfen von Münzen1 oder Würfeln. Wir beginnen mit einem kleinen Experiment im Klassenzimmer.

Was ist deine Lieblingszahl?

In einem Experiment im Hörsaal wurden die Studierenden eines internationalen Kurses nach ihrer Lieblingszahl von 1 bis 9 gefragt.

Zahl 1 2 3 4 5 6 7 8 9
Häufigkeit 0 1 5 5 6 4 12 3 3

Die resultierende Verteilung ist:

  • empirisch: Daten aus einem Experiment
  • diskret: nur diskrete Zahlen (1, 2, 3 …, 9) möglich, keine Brüche

Computersimulationen


Anstelle von realen Experimenten können wir auch simulierte Zufallszahlen verwenden.

  • Vorteil: wir können Daten aus Verteilungen mit bekannten Eigenschaften simulieren.
  • Herausforderung: etwas abstrakt

Zweck

  • ein Gefühl für den Zufall zu bekommen, wie eine Stichprobe nach einer bestimmten „Theorie“ aussehen kann
  • statistische Methoden erforschen und testen und das Verständnis schulen
  • ein Werkzeug für die Versuchsplanung
  • Anwendung und Aussagekraft einer Analyse im Vorfeld testen


\(\rightarrow\) Simulation: ein wichtiges Instrument für die Entwicklung und das Verständnis statistischer Methoden!

Kontinuierliche Gleichverteilung \(\mathbf{U}(0, 1)\)

  • gleiche Wahrscheinlichkeit des Auftretens in einem bestimmten Intervall
  • z.B. \([0, 1]\)
  • in R: runif, random, uniform
runif(10)
 [1] 0.81938713 0.79185617 0.07212257 0.74034251 0.76590566 0.05365209
 [7] 0.59850890 0.39667108 0.04754277 0.10264472



  • Klassenbildung (Binning): Einteilung der Werte in Klassen

Dichtefunktion von \(\mathbf{U}(x_{min}, x_{max})\)

  • Dichte \(f(X)\), manchmal abgekürzt als „pdf“ (probability density function):

\[ f(x) = \begin{cases} \frac{1}{x_{max}-x_{min}} & \text{für } x \in [x_{min},x_{max}] \\ 0 & \text{sonst} \end{cases} \]

  • Fläche unter der Kurve (d. h. das Integral) = 1,0
  • 100% der Ereignisse liegen zwischen \(-\infty\) und \(+\infty\)
    und für \(\mathbf{U}(x_{min}, x_{max})\) im Intervall \([x_{min}, y_{max}]\)

Kumulative Verteilungsfunktion von \(\mathbf{U}(x_{min}, x_{max})\)


Die cdf (cumulative density function) ist das Integral der Dichtefunktion:

\[ F(x) =\int_{-\infty}^{x} f(x) dx \] Die Gesamtfläche (Gesamtwahrscheinlichkeit) ist \(1.0\):

\[ F(x) =\int_{-\infty}^{+\infty} f(x) dx = 1 \]

Für die Verteilungsfunktion der Gleichverteilung gilt somit:

\[ F(x) = \begin{cases} 0 & \text{für } x < x_{min} \\ \frac{x-x_{min}}{x_{max}-x_{min}} & \text{für } x \in [x_{min},x_{max}] \\ 1 & \text{für } x > x_{max} \end{cases} \]

Quantilsfunktion


… die Umkehrung der kumulativen Verteilungsfunktion.

Kumulative Dichtefunktion

Quantilsfunktion

Beispiel: In welchem Bereich kann man 95% einer Gleichverteilung \(\mathbf{U}(40,60)\) finden?

Zusammenfassung: Gleichverteilung


Die Normalverteilung

Die Normalverteilung \(\mathbf{N}(\mu, \sigma)\)

  • von großer theoretischer Bedeutung aufgrund des zentralen Grenzwertsatzes (ZGWS / central limit theorem CLT)
  • ergibt sich aus der Addition einer großen Anzahl von Zufallswerten gleicher Größenordnung.

Die Dichtefunktion der Normalverteilung ist eine mathematische Schönheit.

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}} \]

C.F. Gauß, Gauß-Kurve und Formel auf einer deutschen DM-Banknote von 1991–2001 (Wikipedia, CC0)

Der zentrale Grenzwertsatz (CLT)


Die Summe einer großen Anzahl \(n\) unabhängiger und identisch verteilter Zufallswerte konvergiert gegen eine Normalverteilung, unabhängig vom Typ der ursprünglichen Verteilung.


Ein Simulationsexperiment


  1. Erstelle eine Matrix mit 100 Zeilen und 25 Spalten von gleichverteilten Zufallszahlen
  2. Berechne die Zeilensummen
par(mfrow=c(2, 1), las=1)
set.seed(42)
x  <- matrix(runif(25 * 100), ncol = 25)

# View(x) # uncomment this to show the matrix

x_sums <- rowSums(x)
hist(x)
hist(x_sums)


\(\rightarrow\) Zeilensummen sind annähernd normalverteilt

Zufallszahlen und Dichtefunktion

Dichte und Quantile der Standardnormalverteilung

  • Theoretisch liegen 50% der Werte unter und 50% über dem Mittelwert
  • 95% liegen ungefähr zwischen \(\pm 2 \sigma\)

Dichte und Quantile der Standardnormalverteilung

Kumulative Verteilungsfunktion und Quantilfunktion

Quantil 1 1.64 1.96 2.0 2.33 2.57 3 \(\mu \pm z\cdot \sigma\)
einseitig 0.95 0.975 0.977 0.99 0.995 0.9986 \(1-\alpha\)
zweiseitig 0.68 0.90 0.95 0.955 0.98 0.99 0.997 \(1-\alpha/2\)

Standardnormalverteilung, Skalierung und Verschiebung

  • \(\mu\) ist der Verschiebungsparameter, der die gesamte glockenförmige Kurve entlang der \(x\)-Achse verschiebt.
  • \(\sigma\) ist der Skalierungsparameter, der die Kurve in Richtung \(x\) streckt oder staucht.

Standardisierung (\(z\)-Transformation)


Jede Normalverteilung kann skaliert und verschoben werden, um eine Standardnormalverteilung mit \(\mu=0, \sigma=1\) zu bilden.


Normalverteilung

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}} \]





\[ z = \frac{x-\mu}{\sigma} \] \(\longrightarrow\) \(\longrightarrow\) \(\longrightarrow\)

Standardnormalverteilung

\[ f(x) = \frac{1}{\sqrt{2\pi}} \, \mathrm{e}^{-\frac{1}{2}x^2} \]

t-Verteilung \(\mathbf{t}(x, df)\)

  • zusätzlicher Parameter „Freiheitsgrade“ (df)
  • wird für Konfidenzintervalle und statistische Tests verwendet
  • konvergiert gegen Normalverteilung für \(df \rightarrow \infty\)

Abhängigkeit des t-Wertes von der Anzahl der df

df 1.00 4.00 9.00 19.00 29.00 99.00 999.00
t 12.71 2.78 2.26 2.09 2.05 1.98 1.96

Logarithmische Normalverteilung (Lognormal)

  • Viele Prozesse in der Natur folgen nicht einer Normalverteilung.
  • begrenzt durch Null auf der linken Seite
  • große Extremwerte auf der rechten Seite

Beispiele: Abfluss von Flüssen, Nährstoffkonzentrationen, Algenbiomasse in einem See

Elternverteilung der Lognormalverteilung

  • Logarithmus von Werten einer Lognormalverteilung \(\rightarrow\) Eltern-Normalverteilung.
  • Die Lognormalverteilung wird durch die Parameter der log-transformierten Daten \(\bar{x}_L\) und \(s_L\) beschrieben
  • der Antilog von \(\bar{x}_L\) ist das geometrische Mittel

Binomialverteilung

  • Anzahl der erfolgreichen Versuche aus \(n\) Gesamtversuchen mit Erfolgswahrscheinlichkeit \(p\).
  • Wie viele 6en mit Wahrscheinlichkeit \(1/6\) in 3 Versuchen?
  • Medizin, Toxikologie, Vergleich von Prozentzahlen
  • Ähnlich, aber ohne zurücklegen: Hypergeometrische Verteilung im Lotto

Poisson-Verteilung

  • Verteilung von seltenen Ereignissen, eine diskrete Verteilung
  • Mittelwert und Varianz sind gleich (\(\mu = \sigma^2\)), daraus ergibt sich der Parameter „lambda“ (\(\lambda\))
  • Beispiele: Bakterienzählung auf einem Raster, Warteschlangen, Ausfallmodelle

Quasi-Poisson, wenn \(\mu \neq \sigma^2\)

  • Wenn \(s^2 > \bar{x}\): Überdispersion
  • wenn \(s^2 < \bar{x}\): Unterdispersion

Konfidenzintervall

– hängt nur von \(\lambda\) bzw. der Anzahl der gezählten Einheiten (\(k\)) ab

Typischer Fehler bei einer Zellzählung: 95% Konfidenzintervall

Anzahl 2 3 5 10 50 100 200 400 1000
von 0 1 2 5 37 81 173 362 939
bis 7 9 12 18 66 122 230 441 1064

Tests für die Verteilung


Manchmal möchte man wissen, ob ein Datensatz zu einer bestimmten Art von Verteilung gehört. Das klingt einfach, ist aber aus theoretischen Gründen ziemlich schwierig:

  • statistische Tests prüfen auf Abweichungen von der Nullhypothese
  • hier wollen wir aber das Gegenteil testen, ob \(H_0\) wahr ist

Das ist in der Tat unmöglich, denn „nicht signifikant“ bedeutet nur, dass ein potenzieller Effekt entweder nicht vorhanden oder einfach zu klein ist, um entdeckt zu werden. Im Gegensatz dazu beinhaltet „signifikant anders“ eine gewisse Wahrscheinlichkeit von falsch-positiven Ergebnissen.

Die meisten statistischen Tests erfordern jedoch keine perfekte Übereinstimmung mit einer bestimmten Verteilung:

  • t-Test und ANOVA setzen Normalität der Residuen voraus
  • aufgrund des CLT konvergiert die Verteilung der Summen und Mittelwerte zur Normalverteilung

Shapiro-Wilks-W-Test ?

\(\rightarrow\) Ziel: Prüfung, ob eine Stichprobe aus einer Normalverteilung stammt

x <- rnorm(100)
shapiro.test(x)

    Shapiro-Wilk normality test

data:  x
W = 0.99064, p-value = 0.7165


\(\rightarrow\) der \(p\)-Wert ist größer als 0,05, also würden wir \(H_0\) behalten und schlussfolgern, dass nichts gegen die Annahme der Normalität spricht


Die Interpretation des Shapiro-Wilks-Tests ist mit Vorsicht zu genießen:

  • für kleine \(n\) ist der Test nicht empfindlich genug
  • bei großen \(n\) ist er überempfindlich
  • Die Verwendung von Shapiro-Wilks zur Überprüfung der Normalität für t-Tests und ANOVA wird nicht mehr empfohlen

Grafische Prüfung der Normalität

  • \(x\): theoretische Quantile, bei denen ein Wert bei Normalverteilung gefunden werden sollte
  • \(y\): normalisierte und geordnete Messwerte (\(z\)- Scores)
  • skaliert in der Einheit der Standardabweichungen
  • Normalverteilung, wenn die Punkte einer Geraden folgen

Empfehlung: Verwende eine grafische Prüfung. Vertraue nicht auf Shapiro Wilks!

Transformation

  • ermöglicht die Anwendung von Methoden, die für normalverteilte Daten entwickelt wurden, auf nicht-normalverteilte Fälle
  • in der Vergangenheit sehr verbreitet, manchmal immer noch nützlich
  • Moderne Methoden können bestimmte Verteilungen direkt verarbeiten, z. B. Binomial-, Gamma- oder Poisson-Verteilung.

Transformationen für rechtsschiefe Daten

  • \(x'=\log(x)\)
  • \(x'=\log(x + a)\)
  • \(x'=(x+a)^c\) (\(a\) zwischen 0.5 und 1)
  • \(x'=1/x\) (“sehr stark”, d. h. in den meisten Fällen zu extrem)
  • \(x'=a - 1/\sqrt{x}\) (um die Skala bequemer zu gestalten)
  • \(x'=1/\sqrt{x}\) (Kompromiss zwischen \(\ln\) und \(1/x\))
  • \(x'=a+bx^c\) (sehr allgemein, enthält Potenzen und Wurzeln)

Transformationen II

Transformationen für Zähldaten

  • \(x'=\sqrt{3/8+x}\) (Zählungen: 1, 2, 3 \(\rightarrow\) 0.61, 1.17, 1.54, 1.84, )
  • \(x'=\lg(x+3/8)\)
  • \(x'=\log(\log(x))\) für riesige Zahlen

\(\rightarrow\) stattdessen ein GLM mit der Familie Poisson oder Quasi-Poisson in Betracht ziehen

Verhältnisse und Prozentsätze

  • \(x'=\arcsin \sqrt{x/n}\)
  • \(x'=\arcsin \sqrt{\frac{x+3/8}{n+3/4}}\)

\(\rightarrow\) stattdessen ein GLM mit Familie Binomial in Betracht ziehen

Rangtransformation

Beispiel: Spearman-Korrelation


Datensatz

x <- c(1, 2, 3, 5, 4, 5 ,6,  7)
y <- c(1, 2, 4, 3, 4, 6, 8, 20)

Ränge

rank(x)
[1] 1.0 2.0 3.0 5.5 4.0 5.5 7.0 8.0
rank(y)
[1] 1.0 2.0 4.5 3.0 4.5 6.0 7.0 8.0

Zwei Berechnungsmöglichkeiten

cor(x, y, method = "spearman")
[1] 0.8915663
cor(rank(x), rank(y))
[1] 0.8915663




Zur Erinnerung: Der zentrale Grenzwertsatz (ZGWS)

Die Summen einer großen Anzahl \(n\) unabhängiger und identisch verteilter Zufallswerte konvergieren gegen eine Normalverteilung, unabhängig vom Typ der ursprünglichen Verteilung.

  • Wir können Methoden für eine Normalverteilung auch bei Abweichungen von der NV anwenden:
    • wenn wir einen großen Datensatz haben
    • wenn die ursprüngliche Verteilung nicht „zu schief“ ist
  • Die erforderliche Zahl \(n\) hängt von der Schiefe der ursprünglichen Verteilung ab.


Grund: Methoden wie t-Test oder ANOVA basieren auf Mittelwerten.

Konfidenzintervalle des Mittelwerts


Standardfehler

\[ s_{\bar{x}} = \frac{s}{\sqrt{n}} \]

  • Die Variabilität des Mittelwerts halbiert sich, wenn wir den Stichprobenumfang vervierfachen (\(2^2\)).

Schätzung des 95%-Konfidenzintervalls:

\[ CI_{95\%} = \bigg(\bar{x} - z_{0.975} \cdot \frac{s}{\sqrt{n}}, \bar{x} + z_{0.975} \cdot \frac{s}{\sqrt{n}}\bigg) \]

mit \(z_{1-\alpha/2} = z_{0.975} =\) \(1.96\).

\(\rightarrow\) \(2\sigma\) Regel

  • Intervall, in dem der wahre Mittelwert mit 95%iger Wahrscheinlichkeit gefunden wird

Unterschied zwischen Stichprobe und Konfidenzintervall


  • Stichprobenintervall: charakterisiert die Verteilung der Daten aus den Parametern der Stichprobe (z.B. Mittelwert, Standardabweichung)

  • Standardabweichung \(s_x\) misst die Variabilität der ursprünglichen Daten

  • rekonstruiert die ursprüngliche Verteilung, wenn ihr Typ bekannt ist (z. B. normal, lognormal)


  • Konfidenzintervall: charakterisiert die Genauigkeit eines statistischen Parameters, basierend auf seinem Standardfehler

  • Schätzt anhand von \(\bar{x}\) und \(s_\bar{x}\) das Intervall, in dem \(\mu\) mit einer bestimmten Wahrscheinlichkeit gefunden wird

  • weniger abhängig von der ursprünglichen Verteilung der Daten aufgrund des ZGWS

Verwendung der t-Verteilung für kleine Stichproben

\[ CI_{95\%} = \bigg(\bar{x} - t_{0.975, n-1} \cdot \frac{s}{\sqrt{n}}, \bar{x} + t_{0.975, n-1} \cdot \frac{s}{\sqrt{n}}\bigg) \]

  • notwendig für kleine Stichproben: \(n\lessapprox 30\), \(n-1\) Freiheitsgrade
  • kann selbstverständlich auch für \(n > 30\) verwendet werden
  • \(t\)-Quantil kann in Tabellen gefunden oder mit der Funktion qt() in R berechnet werden.

Beispiel mit \(\mu=50\) und \(\sigma=10\):

set.seed(123)
n <- 10
x <- rnorm(n, 50, 10)
m <- mean(x); s <- sd(x)
se <- s/sqrt(n)
# lower and upper confidence limits
m + qt(c(0.025, 0.975), n-1) * se
[1] 43.92330 57.56922

\(\rightarrow\) der wahre Mittelwert (\(\mu\)=50) ist im Intervall CI = (43.9, 57.6).

Ausreißer

  • Extrem große oder extrem kleine Werte werden oft als „Ausreißer“ bezeichnet.
  • Potenzielle Ausreißer können aber auch „Extremwerte“ aus einer schiefen Verteilung sein. Sie auszuschließen, kann wissenschaftliches Fehlverhalten sein.
  • Ein „echter“ Ausreißer ist ein Wert, der nicht aus der zu analysierenden Population stammt, z. B. ein schwerwiegender Messfehler, wenn jemand vergessen hat, eine Chemikalie in einer Analyse hinzuzufügen.
  • Er kann aber auch etwas Interessantes sein, z. B. das Ergebnis eines neuen Phänomens.

\(\Rightarrow\) Es kann falsch sein, Werte auszuschließen, nur weil sie „zu groß“ oder „zu klein“ sind.

\(\rightarrow\) Versuche, den Grund zu finden, warum Werte extrem sind!


\(4 \sigma\)-Regel

  • prüft, ob ein Wert mehr als 4 Standardabweichungen vom Mittelwert entfernt ist.
  • Stichprobengröße sollte \(n \ge 10\) sein, \(\bar{x}\) und \(s\) werden ohne den potentiellen Ausreißer berechnet.
  • Ähnliche „Faustregeln“ sind in Statistik-Lehrbüchern zu finden.

Ausreißertest für lineare Modelle mit Bonferroni-Korrektur

  • Für lineare Modelle und GLMs können wir den Bonferroni-Ausreißertest aus dem Paket car verwenden.
library(car)
x <- c(rnorm(20), 12) # the 21st value (=12) is an outlier
outlierTest(lm(x~1))  # x ~ 1 is the null model
   rstudent unadjusted p-value Bonferroni p
21 11.66351         4.1822e-10   8.7826e-09

\(\rightarrow\) Der 21. Wert wird als Ausreißer identifiziert:


Alternative zu Ausreißertests

  • Verwendung robuster Parameter und Methoden,
    • z.B. Median oder getrimmter Mittelwert anstelle des arithmetischen Mittels,
    • robuste lineare Regression „rlm“ anstelle von „lm”
    • Rangbasierte Methoden wie die Spearman-Korrelation
  • Wichtig Ausreißer können in einer Analyse weggelassen werden, aber die Anzahl und das Ausmaß der Ausreißer müssen erwähnt werden!

Extremwerte in Boxplots


  • Extremwerte außerhalb der Whiskers, wenn sie mehr als das 1,5-fache der Breite der Interquartilsbox von den Boxgrenzen entfernt sind.

  • Manchmal auch „Ausreißer“ genannt.

  • Ich bevorzuge den Begriff „Extremwert“, da es sich um regelmäßige Beobachtungen aus einer schiefen oder ‘heavy tailed’ Verteilung handeln kann.

Beispiel

par(mfrow=c(1, 3), las=1)
elbe <- read.csv("https://tpetzoldt.github.io/datasets/data/elbe.csv")
discharge <- elbe$discharge
boxplot(discharge, main="Boxplot des Abflusses")
hist(discharge)
hist(log(discharge - 70))

Abflussdaten der Elbe in Dresden in \(\mathrm m^3 s^{-1}\), Datenquelle: Bundesanstalt für Gewässerkunde (BFG), siehe terms and conditions.

  • Links: große Anzahl von Extremwerten, sind das Ausreißer?
  • Mitte: Verteilung ist rechtsschief.
  • Rechts: Transformation (3-parametrische Lognormalverteilung) \(\rightarrow\) symmetrische Verteilung, keine Ausreißer!

Mehr in den Übungen …


https://tpetzoldt.github.io/element-labs/