03-Statistische Parameter

Angewandte Statistik – Ein Praxiskurs

Thomas Petzoldt

2025-10-15

Statistische Parameter


\(\rightarrow\) Zur Erinnerung: Die Berechnung statistischer Parameter wird als Schätzung bezeichnet.

Eigenschaften von statistischen Parametern

  • Erwartungstreue: die Schätzung konvergiert mit zunehmendem \(n\) gegen den wahren Wert
  • Effizienz für eine gute Schätzung ist ein relativ kleines \(n\) ausreichend
  • Robustheit die Schätzung wird durch Ausreißer oder gewisse Verletzungen statistischer Annahmen nur wenig beeinflusst

Je nach Fragestellung gibt es verschiedene Arten von Parametern, insbesondere Maße der Lage (z.B. Mittelwert, Median), der Variation (z. B. Varianz, Standardabweichung) oder der Abhängigkeit (z. B. Korrelation).

Lagemaße I

Arithmetisches Mittel

\[ \bar{x} = \frac{1}{n} \cdot {\sum_{i=1}^n x_i} \]

Geometrisches Mittel

\[ G = \sqrt[n]{\prod_{i=1}^n x_i} \]

Praktischer: logarithmische Form:

\[ G =\exp\Bigg(\frac{1}{n} \cdot {\sum_{i=1}^n \ln{x_i}}\Bigg) \]

vermeidet große Zahlen, die dem Computer numerische Probleme bereiten.

Lagemaße II

Harmonisches Mittel

\[ \frac{1}{H}=\frac{1}{n}\cdot \sum_{i=1}^n \frac{1}{x_i} \quad; x_i>0 \]

Beispiel:

Man fährt mit 50km/h zur Uni und mit 100km/h wieder nach Hause.
Wie groß ist die mittlere Geschwindigkeit?

Ergebnis:

1/((1/50 + 1/100)/2) = 1/((0.02 + 0.01)/2) = 1/0.015 = 66.67

Median (Zentralwert)


\(n\) ungerade: Daten sortieren, den mittleren Wert nehmen

\[\tilde{x} = x_{(n+1)/2}\] \(n\) gerade: Daten sortieren, Durchschnitt der beiden mittleren Werte bilden

\[\tilde{x} = \frac{x_{n/2}+x_{n/2+1}}{2}\]

Beispiel

Stichprobe mit 7 Werten 2.9, 7.9, 4.1, 8.8, 9.4, 0.5, 5.3
sortierte Stichprobe 0.5, 2.9, 4.1, 5.3, 7.9, 8.8, 9.4

\(\Rightarrow\) Median: \(\tilde{x} = 5.3\)

\(\Rightarrow\) Mittelwert: \(\bar{x} = 5.5571429\)

Getrimmter Mittelwert


  • auch „gestutzter Mittelwert“ genannt
  • Kompromiss zwischen dem arithmetischen Mittel und dem Median
  • Ein bestimmter Prozentsatz der kleinsten und größten Werte wird ignoriert(z.B. 10% oder 25%), bevor das arithmetische Mittel berechnet wird
  • wird auch im Sport verwendet

Beispiel: Stichprobe mit 20 Werten, 10% auf beiden Seiten ausschließen

0.4, 0.5, 1, 2.5, 2.9, 3.3, 4.1, 4.5, 4.6, 5.3, 5.5, 5.7, 6.8, 7.9, 8.8, 8.9, 9, 9.4, 9.6, 46

\(\rightarrow\) Arithmetisches Mittel: \(\bar{x}=7.335\)
\(\rightarrow\) Getrimmter Mittelwert: \(\bar{x}_{t, 0.1}=5.6375\)

  • Median und getrimmter Mittelwert werden weniger von Ausreißern und Schiefe der Verteilung beeinflusst \(\rightarrow\) robuster
  • aber etwas weniger effizient

Pseudomedian (Hodges-Lehmann-Schätzer)


Der Pseudomedian (\(\tilde{x}^*\)) ist ein robuster und effizienter Schätzer für den Lageparameter. Er wird als Median aller möglichen Mittelwerte von je zwei Beobachtungen berechnet.

\[\tilde{x}^* = \text{median}\left(M_{ij}\right) \text{ mit } M_{ij} = \frac{x_i + x_j}{2} \text{ für } 1 \le i \le j \le n\]

Beispiel

library(Hmisc) 

# Verwenden der gleichen Stichprobe wie für den Median
set.seed(123)
x <- round(runif(7, max = 10), 1)

# Sortierung für bessere Lesbarkeit des Beispiels (nicht Teil der pMedian-Berechnung)
sort(x) 
[1] 0.5 2.9 4.1 5.3 7.9 8.8 9.4
# arithmetisches Mittel, Median, Pseudomedian
c(mean(x), median(x), pMedian(x))
[1] 5.557143 5.300000 5.625000

Beachte: Strengenommen wird der Grundgesamtheitsparameter als “Pseudomedian” bezeichnet, der Stichprobenparameter als “Hodges-Lehmann-Schätzer”.

Modus (Modalwert)

  • häufigster Wert einer Stichprobe
  • Strenge Definition nur gültig für diskrete (binäre, nominale, ordinale) Skalen
  • Erweiterung auf kontinuierliche Skalen: Klassenbildung oder Dichteschätzung

Erste Näherung: Mitte der häufigsten Klasse.

Modus: Gewichtungsformel

\[\begin{align} D &= x_{lo}+\frac{f_k-f_{k-1}}{2f_k-f_{k-1}-f_{k+1}}\cdot w \\ D &= 18 + \frac{29 - 15}{2 \cdot 29 - 15 - 26} \cdot 2 = 19.65 \end{align}\]

\(f\): Klassenhäufigkeit, \(w\): Klassenbreite

\(k\): der Index der häufigsten Klasse, \(x_{lo}\) ihre Untergrenze.

Modus: Dichteschätzung

Etwas rechenintensiver, wobei der Modus das Maximum einer Kernel-Dichte-Schätzung ist.

Der Modus aus der Dichteschätzung ist dann \(D=19.42\).

Multimodale Verteilung

Beispiel: Fischpopulation mit mehreren Altersklassen (Kohorten)

Maßzahlen der Streuung

Varianz

\[ s^2_x = \frac{SQ}{df}=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1} \]

  • \(SQ\): Summe der quadrierten Differenzen vom Mittelwert \(\bar{x}\)
  • \(df = n-1\): Freiheitsgrade, \(n\): Stichprobenumfang

Standardabweichung

\[s=\sqrt{s^2}\] \(\rightarrow\) dieselbe Einheit wie der Mittelwert \(\bar{x}\), so dass sie direkt verglichen werden können.


In der Praxis wird \(s^2\) oft mit folgender Formel berechnet:

\[ s^2_x = \frac{\sum{(x_i)^2}-(\sum{x_i})^2/n}{n-1} \]

Variationskoeffizient (\(cv\))

Ist die relative Standardabweichung:

\[ cv=\frac{s}{\bar{x}} \]

  • Vergleich der Streuung verschiedener Variablen, unabhängig von ihrer Maßeinheit
  • Nur für Daten mit Verhältnisskala, d.h. mit einem absoluten Nullpunkt (wie Meter)
  • nicht für Variablen wie Celsius-Temperatur oder pH-Wert.

Beispiel

Nehmen wir an, wir haben den Abfluss von zwei Flüssen, einer mit \(cv=0.3\), der andere mit \(cv=0.8\). Wir sehen, dass der 2. eine extremere Schwankung aufweist.

Spannweite


Die Spannweite misst die Differenz zwischen Maximum und Minimum einer Stichprobe:

\[ r_x = x_{max}-x_{min} \]


Nachteil: sehr empfindlich gegenüber Ausreißern.

Interquartilsabstand

  • IQR oder \(I_{50}\) lässt die kleinsten und größten 25% aus.
  • Stichprobengröße von mindestens 12 Werten empfohlen

\[ I_{50}=Q_3-Q_1=P_{75}-P_{25} \]

Geordnete Stichprobe

  • \(Q_1\), \(Q_3\): 1. und 3. Quartil
  • \(P_{25}, P_{75}\): 25. und 75. Perzentil
  • typischerweise in Boxplots verwendet


Für normalverteilte Stichproben, feste Beziehung zwischen \(I_{50}\) und \(s\):

\[ \sigma = E(I_{50}/(2\Phi^{-1}(3/4))) \approx E(I_{50}/1.394) % 2*qnorm(3/4)) \]

wobei \(\Phi^{-1}\) die Quantilfunktion der Normalverteilung ist.

Median absolute Abweichung


Der Median der absoluten Differenzen zwischen dem Median und den Einzelwerten.

\[ MAD = \text{median}(|\tilde{x} - x_i|) \quad\text{wobei}\quad \tilde{x} = \text{median}(x) \]

  • sehr robuster Schätzer
  • in einigen Communities häufig verwendet, in unserem Bereich noch selten
  • Oft als praktisches Skalenmaß mit dem Hodges-Lehmann (HL)-Schätzer.

Achtung: Skalierung

  • Der “echte” MAD ist unskaliert (Konstante \(1\)).
  • Viele Programme (z.B. R) verwenden eine Skalierung mit dem Faktor \(1.4826\).
  • Dieser korrigierte Wert (cMAD) ist konsistent zur Standardabweichung \(\sigma\) bei normalverteilten Daten.

\(\longrightarrow\) Sei vorsichtig und prüfe die Software-Dokumentation!

  • Unskalierter MAD in R: mad(x, constant = 1)

Anwendung in R


Die Maßzahlen der Streuung können wie folgt berechnet werden:


 x <- rnorm(100, mean=50, sd=10)  # 100 Zufallszahlen

 var(x)                           # Varianz
 sd(x)                            # Standardabweichung
 range(x)                         # Spannweite
 quantile(x, c(0.25, 0.75))       # Quartile
 IQR(x)                           # Interquartilbereich
 diff(quantile(x, c(0.25, 0.75))) # ebenso, aus den Quartilen geschätzt
 mad(x)                           # Median absolute Abweichung, skaliert (cMAD)
 mad(x, constant = 1)             # MAD, unskaliert

Standardfehler des Mittelwerts

\[ s_{\bar{x}}=\frac{s}{\sqrt{n}} \]

  • misst die Genauigkeit des Mittelwerts
  • spielt eine zentrale Rolle bei der Schätzung von Konfidenzintervallen und statistischen Tests

Faustregel für einen Stichprobenumfang von etwa \(n > 30\):

  • „Zwei-Sigma-Regel“: der wahre Mittelwert liegt mit 95% im Bereich von \(\bar{x} \pm 2 s_\bar{x}\)

Wichtig


  • Standardabweichung \(s\) misst Variabilität der Stichprobe
  • Standardfehler \(s_\bar{x}\) misst Genauigkeit des Mittelwerts

Mehr dazu wird in den nächsten Abschnitten erläutert.