Zahl | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Häufigkeit | 0 | 1 | 5 | 5 | 6 | 4 | 12 | 3 | 3 |
Angewandte Statistik – Ein Praxiskurs
2025-09-29
Definition
\(\rightarrow\) https://en.wikipedia.org/wiki/Probability_distribution
Eigenschaften
Wahrscheinlichkeitsverteilungen sind eines der Kernkonzepte der Statistik und viele Statistikkurse beginnen mit dem Werfen von Münzen1 oder Würfeln. Wir beginnen mit einem kleinen Experiment im Klassenzimmer.
In einem Experiment im Hörsaal wurden die Studierenden eines internationalen Kurses nach ihrer Lieblingszahl von 1 bis 9 gefragt.
Zahl | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
Häufigkeit | 0 | 1 | 5 | 5 | 6 | 4 | 12 | 3 | 3 |
Die resultierende Verteilung ist:
Anstelle von realen Experimenten können wir auch simulierte Zufallszahlen verwenden.
Zweck
\(\rightarrow\) Simulation: ein wichtiges Instrument für die Entwicklung und das Verständnis statistischer Methoden!
runif
, random, uniform [1] 0.81938713 0.79185617 0.07212257 0.74034251 0.76590566 0.05365209
[7] 0.59850890 0.39667108 0.04754277 0.10264472
\[ f(x) = \begin{cases} \frac{1}{x_{max}-x_{min}} & \text{für } x \in [x_{min},x_{max}] \\ 0 & \text{sonst} \end{cases} \]
Die cdf (cumulative density function) ist das Integral der Dichtefunktion:
\[ F(x) =\int_{-\infty}^{x} f(x) dx \] Die Gesamtfläche (Gesamtwahrscheinlichkeit) ist \(1.0\):
\[ F(x) =\int_{-\infty}^{+\infty} f(x) dx = 1 \]
Für die Verteilungsfunktion der Gleichverteilung gilt somit:
\[ F(x) = \begin{cases} 0 & \text{für } x < x_{min} \\ \frac{x-x_{min}}{x_{max}-x_{min}} & \text{für } x \in [x_{min},x_{max}] \\ 1 & \text{für } x > x_{max} \end{cases} \]
… die Umkehrung der kumulativen Verteilungsfunktion.
Kumulative Dichtefunktion
Quantilsfunktion
Beispiel: In welchem Bereich kann man 95% einer Gleichverteilung \(\mathbf{U}(40,60)\) finden?
Die Dichtefunktion der Normalverteilung ist eine mathematische Schönheit.
\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}} \]
C.F. Gauß, Gauß-Kurve und Formel auf einer deutschen DM-Banknote von 1991–2001 (Wikipedia, CC0)
Die Summe einer großen Anzahl \(n\) unabhängiger und identisch verteilter Zufallswerte konvergiert gegen eine Normalverteilung, unabhängig vom Typ der ursprünglichen Verteilung.
\(\rightarrow\) Zeilensummen sind annähernd normalverteilt
Quantil | 1 | 1.64 | 1.96 | 2.0 | 2.33 | 2.57 | 3 | \(\mu \pm z\cdot \sigma\) |
---|---|---|---|---|---|---|---|---|
einseitig | 0.95 | 0.975 | 0.977 | 0.99 | 0.995 | 0.9986 | \(1-\alpha\) | |
zweiseitig | 0.68 | 0.90 | 0.95 | 0.955 | 0.98 | 0.99 | 0.997 | \(1-\alpha/2\) |
Jede Normalverteilung kann skaliert und verschoben werden, um eine Standardnormalverteilung mit \(\mu=0, \sigma=1\) zu bilden.
Normalverteilung
\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}} \]
\[
z = \frac{x-\mu}{\sigma}
\] \(\longrightarrow\) \(\longrightarrow\) \(\longrightarrow\)
Standardnormalverteilung
\[ f(x) = \frac{1}{\sqrt{2\pi}} \, \mathrm{e}^{-\frac{1}{2}x^2} \]
df | 1.00 | 4.00 | 9.00 | 19.00 | 29.00 | 99.00 | 999.00 |
t | 12.71 | 2.78 | 2.26 | 2.09 | 2.05 | 1.98 | 1.96 |
Beispiele: Abfluss von Flüssen, Nährstoffkonzentrationen, Algenbiomasse in einem See
Quasi-Poisson, wenn \(\mu \neq \sigma^2\)
– hängt nur von \(\lambda\) bzw. der Anzahl der gezählten Einheiten (\(k\)) ab
Typischer Fehler bei einer Zellzählung: 95% Konfidenzintervall
Anzahl | 2 | 3 | 5 | 10 | 50 | 100 | 200 | 400 | 1000 |
von | 0 | 1 | 2 | 5 | 37 | 81 | 173 | 362 | 939 |
bis | 7 | 9 | 12 | 18 | 66 | 122 | 230 | 441 | 1064 |
Manchmal möchte man wissen, ob ein Datensatz zu einer bestimmten Art von Verteilung gehört. Das klingt einfach, ist aber aus theoretischen Gründen ziemlich schwierig:
Das ist in der Tat unmöglich, denn „nicht signifikant“ bedeutet nur, dass ein potenzieller Effekt entweder nicht vorhanden oder einfach zu klein ist, um entdeckt zu werden. Im Gegensatz dazu beinhaltet „signifikant anders“ eine gewisse Wahrscheinlichkeit von falsch-positiven Ergebnissen.
Die meisten statistischen Tests erfordern jedoch keine perfekte Übereinstimmung mit einer bestimmten Verteilung:
\(\rightarrow\) Ziel: Prüfung, ob eine Stichprobe aus einer Normalverteilung stammt
\(\rightarrow\) der \(p\)-Wert ist größer als 0,05, also würden wir \(H_0\) behalten und schlussfolgern, dass nichts gegen die Annahme der Normalität spricht
Die Interpretation des Shapiro-Wilks-Tests ist mit Vorsicht zu genießen:
Empfehlung: Verwende eine grafische Prüfung. Vertraue nicht auf Shapiro Wilks!
Transformationen für rechtsschiefe Daten
Transformationen für Zähldaten
\(\rightarrow\) stattdessen ein GLM mit der Familie Poisson oder Quasi-Poisson in Betracht ziehen
Verhältnisse und Prozentsätze
\(\rightarrow\) stattdessen ein GLM mit Familie Binomial in Betracht ziehen
Beispiel: Spearman-Korrelation
Datensatz
Ränge
Zwei Berechnungsmöglichkeiten
Die Summen einer großen Anzahl \(n\) unabhängiger und identisch verteilter Zufallswerte konvergieren gegen eine Normalverteilung, unabhängig vom Typ der ursprünglichen Verteilung.
Grund: Methoden wie t-Test oder ANOVA basieren auf Mittelwerten.
Standardfehler
\[ s_{\bar{x}} = \frac{s}{\sqrt{n}} \]
Schätzung des 95%-Konfidenzintervalls:
\[ CI_{95\%} = \bigg(\bar{x} - z_{0.975} \cdot \frac{s}{\sqrt{n}}, \bar{x} + z_{0.975} \cdot \frac{s}{\sqrt{n}}\bigg) \]
mit \(z_{1-\alpha/2} = z_{0.975} =\) \(1.96\).
\(\rightarrow\) \(2\sigma\) Regel
Stichprobenintervall: charakterisiert die Verteilung der Daten aus den Parametern der Stichprobe (z.B. Mittelwert, Standardabweichung)
Standardabweichung \(s_x\) misst die Variabilität der ursprünglichen Daten
rekonstruiert die ursprüngliche Verteilung, wenn ihr Typ bekannt ist (z. B. normal, lognormal)
Konfidenzintervall: charakterisiert die Genauigkeit eines statistischen Parameters, basierend auf seinem Standardfehler
Schätzt anhand von \(\bar{x}\) und \(s_\bar{x}\) das Intervall, in dem \(\mu\) mit einer bestimmten Wahrscheinlichkeit gefunden wird
weniger abhängig von der ursprünglichen Verteilung der Daten aufgrund des ZGWS
\[ CI_{95\%} = \bigg(\bar{x} - t_{0.975, n-1} \cdot \frac{s}{\sqrt{n}}, \bar{x} + t_{0.975, n-1} \cdot \frac{s}{\sqrt{n}}\bigg) \]
qt()
in R berechnet werden.Beispiel mit \(\mu=50\) und \(\sigma=10\):
set.seed(123)
n <- 10
x <- rnorm(n, 50, 10)
m <- mean(x); s <- sd(x)
se <- s/sqrt(n)
# lower and upper confidence limits
m + qt(c(0.025, 0.975), n-1) * se
[1] 43.92330 57.56922
\(\rightarrow\) der wahre Mittelwert (\(\mu\)=50) ist im Intervall CI = (43.9, 57.6).
\(\Rightarrow\) Es kann falsch sein, Werte auszuschließen, nur weil sie „zu groß“ oder „zu klein“ sind.
\(\rightarrow\) Versuche, den Grund zu finden, warum Werte extrem sind!
\(4 \sigma\)-Regel
library(car)
x <- c(rnorm(20), 12) # the 21st value (=12) is an outlier
outlierTest(lm(x~1)) # x ~ 1 is the null model
rstudent unadjusted p-value Bonferroni p
21 11.66351 4.1822e-10 8.7826e-09
\(\rightarrow\) Der 21. Wert wird als Ausreißer identifiziert:
Alternative zu Ausreißertests
Extremwerte außerhalb der Whiskers, wenn sie mehr als das 1,5-fache der Breite der Interquartilsbox von den Boxgrenzen entfernt sind.
Manchmal auch „Ausreißer“ genannt.
Ich bevorzuge den Begriff „Extremwert“, da es sich um regelmäßige Beobachtungen aus einer schiefen oder ‘heavy tailed’ Verteilung handeln kann.
Abflussdaten der Elbe in Dresden in \(\mathrm m^3 s^{-1}\), Datenquelle: Bundesanstalt für Gewässerkunde (BFG), siehe terms and conditions.