| Zahl | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| Häufigkeit | 0 | 1 | 5 | 5 | 6 | 4 | 12 | 3 | 3 |
Angewandte Statistik – Ein Praxiskurs
2025-11-12
Definition
\(\rightarrow\) https://en.wikipedia.org/wiki/Probability_distribution
Eigenschaften
Wahrscheinlichkeitsverteilungen sind eines der Kernkonzepte der Statistik und viele Statistikkurse beginnen mit dem Werfen von Münzen1 oder Würfeln. Wir beginnen mit einem kleinen Experiment im Klassenzimmer.
In einem Experiment im Hörsaal wurden die Studierenden eines internationalen Kurses nach ihrer Lieblingszahl von 1 bis 9 gefragt.
| Zahl | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| Häufigkeit | 0 | 1 | 5 | 5 | 6 | 4 | 12 | 3 | 3 |
Die resultierende Verteilung ist:
Anstelle von realen Experimenten können wir auch simulierte Zufallszahlen verwenden.
Zweck
\(\rightarrow\) Simulation: ein wichtiges Instrument für die Entwicklung und das Verständnis statistischer Methoden!
runif, random, uniform [1] 0.829975819 0.082188891 0.002092706 0.392128511 0.390446015 0.363470901
[7] 0.081870791 0.116082502 0.296399114 0.130358771

\[ f(x) = \begin{cases} \frac{1}{x_{max}-x_{min}} & \text{für } x \in [x_{min},x_{max}] \\ 0 & \text{sonst} \end{cases} \]
Die cdf (cumulative distribution function) ist das Integral der Dichtefunktion:
\[ F(x) =\int_{-\infty}^{x} f(x) dx \] Die Gesamtfläche (Gesamtwahrscheinlichkeit) ist \(1.0\):
\[ F(x) =\int_{-\infty}^{+\infty} f(x) dx = 1 \]
Für die Verteilungsfunktion der Gleichverteilung gilt somit:
\[ F(x) = \begin{cases} 0 & \text{für } x < x_{min} \\ \frac{x-x_{min}}{x_{max}-x_{min}} & \text{für } x \in [x_{min},x_{max}] \\ 1 & \text{für } x > x_{max} \end{cases} \]

… die Umkehrung der kumulativen Verteilungsfunktion.

Kumulative Verteilungsfunktion

Quantilsfunktion
Beispiel: In welchem Bereich kann man 95% einer Gleichverteilung \(\mathbf{U}(40,60)\) finden?
Die Dichtefunktion der Normalverteilung ist eine mathematische Schönheit.
\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}} \]
C.F. Gauß, Gauß-Kurve und Formel auf einer deutschen DM-Banknote von 1991–2001 (Wikipedia, CC0)
Die Summe einer großen Anzahl \(n\) unabhängiger und identisch verteilter Zufallswerte konvergiert gegen eine Normalverteilung, unabhängig vom Typ der ursprünglichen Verteilung.
\(\rightarrow\) Zeilensummen sind annähernd normalverteilt

| Quantil | 1 | 1.64 | 1.96 | 2.0 | 2.33 | 2.57 | 3 | \(\mu \pm z\cdot \sigma\) |
|---|---|---|---|---|---|---|---|---|
| einseitig | 0.95 | 0.975 | 0.977 | 0.99 | 0.995 | 0.9986 | \(1-\alpha\) | |
| zweiseitig | 0.68 | 0.90 | 0.95 | 0.955 | 0.98 | 0.99 | 0.997 | \(1-\alpha/2\) |
Jede Normalverteilung kann skaliert und verschoben werden, um eine Standardnormalverteilung mit \(\mu=0, \sigma=1\) zu bilden.
Normalverteilung

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \, \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}} \]
\[
z = \frac{x-\mu}{\sigma}
\] \(\longrightarrow\) \(\longrightarrow\) \(\longrightarrow\)
Standardnormalverteilung

\[ f(x) = \frac{1}{\sqrt{2\pi}} \, \mathrm{e}^{-\frac{1}{2}x^2} \]
| df | 1.00 | 4.00 | 9.00 | 19.00 | 29.00 | 99.00 | 999.00 |
| t | 12.71 | 2.78 | 2.26 | 2.09 | 2.05 | 1.98 | 1.96 |
Beispiele: Abfluss von Flüssen, Nährstoffkonzentrationen, Algenbiomasse in einem See
Quasi-Poisson, wenn \(\mu \neq \sigma^2\)
– hängt nur von \(\lambda\) bzw. der Anzahl der gezählten Einheiten (\(k\)) ab
Typischer Fehler bei einer Zellzählung: 95% Konfidenzintervall
| Anzahl | 2 | 3 | 5 | 10 | 50 | 100 | 200 | 400 | 1000 |
| von | 0 | 1 | 2 | 5 | 37 | 81 | 173 | 362 | 939 |
| bis | 7 | 9 | 12 | 18 | 66 | 122 | 230 | 441 | 1064 |
Die Summen einer großen Anzahl \(n\) unabhängiger und identisch verteilter Zufallswerte konvergieren gegen eine Normalverteilung, unabhängig vom Typ der ursprünglichen Verteilung.
Grund: Methoden wie t-Test oder ANOVA basieren auf Mittelwerten.
Standardfehler
\[ s_{\bar{x}} = \frac{s}{\sqrt{n}} \]
Schätzung des 95%-Konfidenzintervalls:
\[ CI_{95\%} = \bigg(\bar{x} - z_{0.975} \cdot \frac{s}{\sqrt{n}}, \bar{x} + z_{0.975} \cdot \frac{s}{\sqrt{n}}\bigg) \]
mit \(z_{1-\alpha/2} = z_{0.975} =\) \(1.96\).
\(\rightarrow\) \(2\sigma\) Regel
Vorhersageintervall: Charakterisiert die Verteilung der Daten anhand der Parameter der Stichprobe (z. B. Mittelwert, Standardabweichung). Es schätzt den Bereich, in den eine einzelne zukünftige Beobachtung wahrscheinlich fallen wird.
Standardabweichung \(s_x\) misst die Variabilität der ursprünglichen Daten
rekonstruiert die ursprüngliche Verteilung, wenn ihr Typ bekannt ist (z. B. normal, lognormal)
Konfidenzintervall: charakterisiert die Genauigkeit eines statistischen Parameters, basierend auf seinem Standardfehler
Schätzt anhand von \(\bar{x}\) und \(s_\bar{x}\) das Intervall, in dem \(\mu\) mit einer bestimmten Wahrscheinlichkeit gefunden wird
weniger abhängig von der ursprünglichen Verteilung der Daten aufgrund des ZGWS
\[ CI_{95\%} = \bigg(\bar{x} - t_{0.975, n-1} \cdot \frac{s}{\sqrt{n}}, \bar{x} + t_{0.975, n-1} \cdot \frac{s}{\sqrt{n}}\bigg) \]
qt() in R berechnet werden.Beispiel mit \(\mu=50\) und \(\sigma=10\):
set.seed(123)
n <- 10
x <- rnorm(n, 50, 10)
m <- mean(x); s <- sd(x)
se <- s/sqrt(n)
# lower and upper confidence limits
m + qt(c(0.025, 0.975), n-1) * se[1] 43.92330 57.56922
\(\rightarrow\) der wahre Mittelwert (\(\mu\)=50) ist im Intervall CI = (43.9, 57.6).
\(\Rightarrow\) Es kann falsch sein, Werte auszuschließen, nur weil sie „zu groß“ oder „zu klein“ sind.
\(\rightarrow\) Versuche, den Grund zu finden, warum Werte extrem sind!
\(4 \sigma\)-Regel
library(car)
x <- c(rnorm(20), 12) # der 21. Wert (=12) ist ein Ausreißer
outlierTest(lm(x ~ 1)) # x ~ 1 ist das "Nullmodell" rstudent unadjusted p-value Bonferroni p
21 11.66351 4.1822e-10 8.7826e-09
\(\rightarrow\) Der 21. Wert wird als Ausreißer identifiziert.
Alternative zu Ausreißertests
Abflussdaten der Elbe in Dresden in \(\mathrm m^3 s^{-1}\), Datenquelle: Bundesanstalt für Gewässerkunde (BFG), siehe Nutzungshinweise.