03-Statistische Parameter

Angewandte Statistik – Ein Praxiskurs

Thomas Petzoldt

2025-12-13

Statistische Parameter

\(\rightarrow\) Zur Erinnerung: Die Berechnung statistischer Parameter wird als Schätzung bezeichnet.

Eigenschaften von statistischen Parametern

Erwartungstreue: die Schätzung konvergiert mit zunehmendem \(n\) gegen den wahren Wert
Effizienz für eine gute Schätzung ist ein relativ kleines \(n\) ausreichend
Robustheit die Schätzung wird durch Ausreißer oder gewisse Verletzungen statistischer Annahmen nur wenig beeinflusst

Je nach Fragestellung gibt es verschiedene Arten von Parametern, insbesondere Maße der Lage (z.B. Mittelwert, Median), der Variation (z. B. Varianz, Standardabweichung) oder der Abhängigkeit (z. B. Korrelation).

Lagemaße I

Arithmetisches Mittel

\[ \bar{x} = \frac{1}{n} \cdot {\sum_{i=1}^n x_i} \]

Geometrisches Mittel

\[ G = \sqrt[n]{\prod_{i=1}^n x_i} \]

Praktischer: logarithmische Form:

\[ G =\exp\Bigg(\frac{1}{n} \cdot {\sum_{i=1}^n \ln{x_i}}\Bigg) \]

vermeidet große Zahlen, die dem Computer numerische Probleme bereiten.

Lagemaße II

Harmonisches Mittel

\[ \frac{1}{H}=\frac{1}{n}\cdot \sum_{i=1}^n \frac{1}{x_i} \quad; x_i>0 \]

Beispiel:

Man fährt mit 50km/h zur Uni und mit 100km/h wieder nach Hause.
Wie groß ist die mittlere Geschwindigkeit?

Ergebnis:

1/((1/50 + 1/100)/2) = 1/((0.02 + 0.01)/2) = 1/0.015 = 66.67

Median (Zentralwert)

\(n\) ungerade: Daten sortieren, den mittleren Wert nehmen

\[\tilde{x} = x_{(n+1)/2}\] \(n\) gerade: Daten sortieren, Durchschnitt der beiden mittleren Werte bilden

\[\tilde{x} = \frac{x_{n/2}+x_{n/2+1}}{2}\]

Beispiel

Stichprobe mit 7 Werten	2.9, 7.9, 4.1, 8.8, 9.4, 0.5, 5.3
sortierte Stichprobe	0.5, 2.9, 4.1, 5.3, 7.9, 8.8, 9.4

\(\Rightarrow\) Median: \(\tilde{x} = 5.3\)

\(\Rightarrow\) Mittelwert: \(\bar{x} = 5.5571429\)

Getrimmter Mittelwert

auch „gestutzter Mittelwert“ genannt
Kompromiss zwischen dem arithmetischen Mittel und dem Median
Ein bestimmter Prozentsatz der kleinsten und größten Werte wird ignoriert(z.B. 10% oder 25%), bevor das arithmetische Mittel berechnet wird
wird auch im Sport verwendet

Beispiel: Stichprobe mit 20 Werten, 10% auf beiden Seiten ausschließen

0.4, 0.5, 1, 2.5, 2.9, 3.3, 4.1, 4.5, 4.6, 5.3, 5.5, 5.7, 6.8, 7.9, 8.8, 8.9, 9, 9.4, 9.6, 46

\(\rightarrow\) Arithmetisches Mittel: \(\bar{x}=7.335\)
\(\rightarrow\) Getrimmter Mittelwert: \(\bar{x}_{t, 0.1}=5.6375\)

Median und getrimmter Mittelwert werden weniger von Ausreißern und Schiefe der Verteilung beeinflusst \(\rightarrow\) robuster
aber etwas weniger effizient

Pseudomedian (Hodges-Lehmann-Schätzer)

Der Pseudomedian (\(\tilde{x}^*\)) ist ein robuster und effizienter Schätzer für den Lageparameter. Er wird als Median aller möglichen Mittelwerte von je zwei Beobachtungen berechnet.

\[\tilde{x}^* = \text{median}\left(M_{ij}\right) \text{ mit } M_{ij} = \frac{x_i + x_j}{2} \text{ für } 1 \le i \le j \le n\]

Beispiel

library(Hmisc) 

# Verwenden der gleichen Stichprobe wie für den Median
set.seed(123)
x <- round(runif(7, max = 10), 1)

# Sortierung für bessere Lesbarkeit des Beispiels (nicht Teil der pMedian-Berechnung)
sort(x)

[1] 0.5 2.9 4.1 5.3 7.9 8.8 9.4

# arithmetisches Mittel, Median, Pseudomedian
c(mean(x), median(x), pMedian(x))

[1] 5.557143 5.300000 5.625000

Beachte: Strengenommen wird der Grundgesamtheitsparameter als “Pseudomedian” bezeichnet, der Stichprobenparameter als “Hodges-Lehmann-Schätzer”.

Modus (Modalwert)

häufigster Wert einer Stichprobe
Strenge Definition nur gültig für diskrete (binäre, nominale, ordinale) Skalen
Erweiterung auf kontinuierliche Skalen: Klassenbildung oder Dichteschätzung

Erste Näherung: Mitte der häufigsten Klasse.

Modus: Gewichtungsformel

\[\begin{align} D &= x_{lo}+\frac{f_k-f_{k-1}}{2f_k-f_{k-1}-f_{k+1}}\cdot w \\ D &= 18 + \frac{29 - 15}{2 \cdot 29 - 15 - 26} \cdot 2 = 19.65 \end{align}\]

\(f\): Klassenhäufigkeit, \(w\): Klassenbreite

\(k\): der Index der häufigsten Klasse, \(x_{lo}\) ihre Untergrenze.

Modus: Dichteschätzung

Etwas rechenintensiver, wobei der Modus das Maximum einer Kernel-Dichte-Schätzung ist.

Der Modus aus der Dichteschätzung ist dann \(D=19.42\).

Multimodale Verteilung

Beispiel: Fischpopulation mit mehreren Altersklassen (Kohorten)

Maßzahlen der Streuung

Varianz

\[ s^2_x = \frac{SQ}{df}=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1} \]

\(SQ\): Summe der quadrierten Differenzen vom Mittelwert \(\bar{x}\)
\(df = n-1\): Freiheitsgrade, \(n\): Stichprobenumfang

Standardabweichung

\[s=\sqrt{s^2}\] \(\rightarrow\) dieselbe Einheit wie der Mittelwert \(\bar{x}\), so dass sie direkt verglichen werden können.

In der Praxis wird \(s^2\) oft mit folgender Formel berechnet:

\[ s^2_x = \frac{\sum{(x_i)^2}-(\sum{x_i})^2/n}{n-1} \]

Variationskoeffizient (\(cv\))

Ist die relative Standardabweichung:

\[ cv=\frac{s}{\bar{x}} \]

Vergleich der Streuung verschiedener Variablen, unabhängig von ihrer Maßeinheit
Nur für Daten mit Verhältnisskala, d.h. mit einem absoluten Nullpunkt (wie Meter)
nicht für Variablen wie Celsius-Temperatur oder pH-Wert.

Beispiel

Nehmen wir an, wir haben den Abfluss von zwei Flüssen, einer mit \(cv=0.3\), der andere mit \(cv=0.8\). Wir sehen, dass der 2. eine extremere Schwankung aufweist.

Spannweite

Die Spannweite misst die Differenz zwischen Maximum und Minimum einer Stichprobe:

\[ r_x = x_{max}-x_{min} \]

Nachteil: sehr empfindlich gegenüber Ausreißern.

Interquartilsabstand

IQR oder \(I_{50}\) lässt die kleinsten und größten 25% aus.
Stichprobengröße von mindestens 12 Werten empfohlen

\[ I_{50}=Q_3-Q_1=P_{75}-P_{25} \]

Geordnete Stichprobe

\(Q_1\), \(Q_3\): 1. und 3. Quartil
\(P_{25}, P_{75}\): 25. und 75. Perzentil
typischerweise in Boxplots verwendet

Für normalverteilte Stichproben, feste Beziehung zwischen \(I_{50}\) und \(s\):

\[ \sigma = E(I_{50}/(2\Phi^{-1}(3/4))) \approx E(I_{50}/1.394) % 2*qnorm(3/4)) \]

wobei \(\Phi^{-1}\) die Quantilfunktion der Normalverteilung ist.

Median absolute Abweichung

Der Median der absoluten Differenzen zwischen dem Median und den Einzelwerten.

\[ MAD = \text{median}(|\tilde{x} - x_i|) \quad\text{wobei}\quad \tilde{x} = \text{median}(x) \]

sehr robuster Schätzer
in einigen Communities häufig verwendet, in unserem Bereich noch selten
Oft als praktisches Skalenmaß mit dem Hodges-Lehmann (HL)-Schätzer.

Achtung: Skalierung

Der “echte” MAD ist unskaliert (Konstante \(1\)).
Viele Programme (z.B. R) verwenden eine Skalierung mit dem Faktor \(1.4826\).
Dieser korrigierte Wert (cMAD) ist konsistent zur Standardabweichung \(\sigma\) bei normalverteilten Daten.

\(\longrightarrow\) Sei vorsichtig und prüfe die Software-Dokumentation!

Unskalierter MAD in R: mad(x, constant = 1)

Anwendung in R

Die Maßzahlen der Streuung können wie folgt berechnet werden:

 x <- rnorm(100, mean=50, sd=10)  # 100 Zufallszahlen

 var(x)                           # Varianz
 sd(x)                            # Standardabweichung
 range(x)                         # Spannweite
 quantile(x, c(0.25, 0.75))       # Quartile
 IQR(x)                           # Interquartilbereich
 diff(quantile(x, c(0.25, 0.75))) # ebenso, aus den Quartilen geschätzt
 mad(x)                           # Median absolute Abweichung, skaliert (cMAD)
 mad(x, constant = 1)             # MAD, unskaliert

Standardfehler des Mittelwerts

\[ s_{\bar{x}}=\frac{s}{\sqrt{n}} \]

misst die Genauigkeit des Mittelwerts
spielt eine zentrale Rolle bei der Schätzung von Konfidenzintervallen und statistischen Tests

Faustregel für einen Stichprobenumfang von etwa \(n > 30\):

„Zwei-Sigma-Regel“: der wahre Mittelwert liegt mit 95% im Bereich von \(\bar{x} \pm 2 s_\bar{x}\)

Wichtig

Standardabweichung \(s\) misst Variabilität der Stichprobe
Standardfehler \(s_\bar{x}\) misst Genauigkeit des Mittelwerts

Mehr dazu wird in den nächsten Abschnitten erläutert.