03-Statistische Parameter

Angewandte Statistik – Ein Praxiskurs

Thomas Petzoldt

2025-09-29

Statistische Parameter


\(\rightarrow\) Zur Erinnerung: Die Berechnung statistischer Parameter wird als Schätzung bezeichnet.

Eigenschaften von statistischen Parametern

  • Erwartungstreue: die Schätzung konvergiert mit zunehmendem \(n\) gegen den wahren Wert
  • Effizienz für eine gute Schätzung ist ein relativ kleines \(n\) ausreichend
  • Robustheit die Schätzung wird durch Ausreißer oder gewisse Verletzungen statistischer Annahmen nur wenig beeinflusst

Je nach Fragestellung gibt es verschiedene Arten von Parametern, insbesondere Maße der Lage (z.B. Mittelwert, Median), der Variation (z. B. Varianz, Standardabweichung) oder der Abhängigkeit (z. B. Korrelation).

Lagemaße I

Arithmetisches Mittel

\[ \bar{x} = \frac{1}{n} \cdot {\sum_{i=1}^n x_i} \]

Geometrisches Mittel

\[ G = \sqrt[n]{\prod_{i=1}^n x_i} \]

Praktischer: logarithmische Form:

\[ G =\exp\Bigg(\frac{1}{n} \cdot {\sum_{i=1}^n \ln{x_i}}\Bigg) \]

vermeidet große Zahlen, die dem Computer numerische Probleme bereiten.

Lagemaße II

Harmonisches Mittel

\[ \frac{1}{H}=\frac{1}{n}\cdot \sum_{i=1}^n \frac{1}{x_i} \quad; x_i>0 \]

Beispiel:

Man fährt mit 50km/h zur Uni und mit 100km/h wieder nach Hause.
Wie groß ist die mittlere Geschwindigkeit?

Ergebnis:

1/((1/50 + 1/100)/2) = 1/((0.02 + 0.01)/2) = 1/0.015 = 66.67

Median (Zentralwert)


\(n\) ungerade: Daten sortieren, den mittleren Wert nehmen

\[\tilde{x} = x_{(n+1)/2}\] \(n\) gerade: Daten sortieren, Durchschnitt der beiden mittleren Werte bilden

\[\tilde{x} = \frac{x_{n/2}+x_{n/2+1}}{2}\]

Beispiel

Stichprobe mit 7 Werten 2.9, 7.9, 4.1, 8.8, 9.4, 0.5, 5.3
sortierte Stichprobe 0.5, 2.9, 4.1, 5.3, 7.9, 8.8, 9.4

\(\Rightarrow\) Median: \(\tilde{x} = 5.3\)

\(\Rightarrow\) Mittelwert: \(\bar{x} = 5.5571429\)

Getrimmter Mittelwert


  • auch „gestutzter Mittelwert“ genannt
  • Kompromiss zwischen dem arithmetischen Mittel und dem Median
  • Ein bestimmter Prozentsatz der kleinsten und größten Werte wird ignoriert(z.B. 10% oder 25%), bevor das arithmetische Mittel berechnet wird
  • wird auch im Sport verwendet

Beispiel: Stichprobe mit 20 Werten, 10% auf beiden Seiten ausschließen

0.4, 0.5, 1, 2.5, 2.9, 3.3, 4.1, 4.5, 4.6, 5.3, 5.5, 5.7, 6.8, 7.9, 8.8, 8.9, 9, 9.4, 9.6, 46

\(\rightarrow\) Arithmetisches Mittel: \(\bar{x}=7.335\)
\(\rightarrow\) Getrimmter Mittelwert: \(\bar{x}_{t, 0.1}=5.6375\)

  • Median und getrimmter Mittelwert werden weniger von Ausreißern und Schiefe der Verteilung beeinflusst \(\rightarrow\) robuster
  • aber etwas weniger effizient

Modus (Modalwert)

  • häufigster Wert einer Stichprobe
  • Strenge Definition nur gültig für diskrete (binäre, nominale, ordinale) Skalen
  • Erweiterung auf kontinuierliche Skalen: Klassenbildung oder Dichteschätzung

Erste Näherung: Mitte der häufigsten Klasse.

Modus: Gewichtungsformel

\[\begin{align} D &= x_{lo}+\frac{f_k-f_{k-1}}{2f_k-f_{k-1}-f_{k+1}}\cdot w \\ D &= 18 + \frac{29 - 15}{2 \cdot 29 - 15 - 26} \cdot 2 = 19.65 \end{align}\]

\(f\): Klassenhäufigkeit, \(w\): Klassenbreite

\(k\): der Index der häufigsten Klasse, \(x_{lo}\) ihre Untergrenze.

Modus: Dichteschätzung

Etwas rechenintensiver, wobei der Modus das Maximum einer Kernel-Dichte-Schätzung ist.

Der Modus aus der Dichteschätzung ist dann \(D=19.42\).

Multimodale Verteilung

Beispiel: Fischpopulation mit mehreren Altersklassen (Kohorten)

Maßzahlen der Streuung

Varianz

\[ s^2_x = \frac{SQ}{df}=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1} \]

  • \(SQ\): Summe der quadrierten Differenzen vom Mittelwert \(\bar{x}\)
  • \(df = n-1\): Freiheitsgrade, \(n\): Stichprobenumfang

Standardabweichung

\[s=\sqrt{s^2}\] \(\rightarrow\) dieselbe Einheit wie der Mittelwert \(\bar{x}\), so dass sie direkt verglichen werden können.


In der Praxis wird \(s^2\) oft mit folgender Formel berechnet:

\[ s^2_x = \frac{\sum{(x_i)^2}-(\sum{x_i})^2/n}{n-1} \]

Variationskoeffizient (\(cv\))

Ist die relative Standardabweichung:

\[ cv=\frac{s}{\bar{x}} \]

  • Nützlich für den Vergleich der Streuung verschiedener Variablen, unabhängig von ihrer Maßeinheit
  • nur anwendbar für Daten mit Verhältnisskala, d.h. mit einem absoluten Nullpunkt (wie Meter)
  • nicht für Variablen wie Celsius-Temperatur oder pH-Wert.

Beispiel

Nehmen wir an, wir haben den Abfluss von zwei Flüssen, einer mit \(cv=0,3\), der andere mit \(cv=0,8\). Wir sehen, dass der 2. eine extremere Schwankung aufweist.

Spannweite


Die Spannweite misst die Differenz zwischen Maximum und Minimum einer Stichprobe:

\[ r_x = x_{max}-x_{min} \]


Nachteil: sehr empfindlich gegenüber Ausreißern.

Interquartilsabstand

  • IQR oder \(I_{50}\) lässt die kleinsten und größten 25% aus.
  • Stichprobengröße von mindestens 12 Werten empfohlen

\[ I_{50}=Q_3-Q_1=P_{75}-P_{25} \]

Geordnete Stichprobe

  • \(Q_1\), \(Q_3\): 1. und 3. Quartil
  • \(P_{25}, P_{75}\): 25. und 75. Perzentil
  • typischerweise in Boxplots verwendet


Für normalverteilte Stichproben, feste Beziehung zwischen \(I_{50}\) und \(s\):

\[ \sigma = E(I_{50}/(2\Phi^{-1}(3/4))) \approx E(I_{50}/1.394) % 2*qnorm(3/4)) \]

wobei \(\Phi^{-1}\) die Quantilfunktion der Normalverteilung ist.

Median absolute Abweichung


Der Median der absoluten Differenzen zwischen dem Median und den Einzelwerten.

\[ MAD = \text{median}(|\text{median} - x_i|) \]

  • in einigen Communities häufig verwendet, in unserem Bereich selten
  • Einige Programme skalieren den MAD mit einem Faktor \(1,4826\) neu, um die Standardabweichung anzunähern.

\(\rightarrow\) Sei vorsichtig und prüfe die Software-Dokumente!

Standardfehler des Mittelwerts

\[ s_{\bar{x}}=\frac{s}{\sqrt{n}} \]

  • misst die Genauigkeit des Mittelwerts
  • spielt eine zentrale Rolle bei der Schätzung von Konfidenzintervallen und statistischen Tests

Faustregel für einen Stichprobenumfang von etwa \(n > 30\):

  • „Zwei-Sigma-Regel“: der wahre Mittelwert liegt mit 95% im Bereich von \(\bar{x} \pm 2 s_\bar{x}\)

Wichtig


  • Standardabweichung \(s\) misst Variabilität der Stichprobe
  • Standardfehler \(s_\bar{x}\) misst Genauigkeit des Mittelwerts

Mehr dazu wird in den nächsten Abschnitten erläutert.