Angewandte Statistik – Ein Praxiskurs
2025-09-29
\(\rightarrow\) Zur Erinnerung: Die Berechnung statistischer Parameter wird als Schätzung bezeichnet.
Eigenschaften von statistischen Parametern
Je nach Fragestellung gibt es verschiedene Arten von Parametern, insbesondere Maße der Lage (z.B. Mittelwert, Median), der Variation (z. B. Varianz, Standardabweichung) oder der Abhängigkeit (z. B. Korrelation).
Arithmetisches Mittel
\[ \bar{x} = \frac{1}{n} \cdot {\sum_{i=1}^n x_i} \]
Geometrisches Mittel
\[ G = \sqrt[n]{\prod_{i=1}^n x_i} \]
Praktischer: logarithmische Form:
\[ G =\exp\Bigg(\frac{1}{n} \cdot {\sum_{i=1}^n \ln{x_i}}\Bigg) \]
vermeidet große Zahlen, die dem Computer numerische Probleme bereiten.
Harmonisches Mittel
\[ \frac{1}{H}=\frac{1}{n}\cdot \sum_{i=1}^n \frac{1}{x_i} \quad; x_i>0 \]
Beispiel:
Man fährt mit 50km/h zur Uni und mit 100km/h wieder nach Hause.
Wie groß ist die mittlere Geschwindigkeit?
Ergebnis:
1/((1/50 + 1/100)/2) = 1/((0.02 + 0.01)/2) = 1/0.015 = 66.67
\(n\) ungerade: Daten sortieren, den mittleren Wert nehmen
\[\tilde{x} = x_{(n+1)/2}\] \(n\) gerade: Daten sortieren, Durchschnitt der beiden mittleren Werte bilden
\[\tilde{x} = \frac{x_{n/2}+x_{n/2+1}}{2}\]
Beispiel
Stichprobe mit 7 Werten | 2.9, 7.9, 4.1, 8.8, 9.4, 0.5, 5.3 |
sortierte Stichprobe | 0.5, 2.9, 4.1, 5.3, 7.9, 8.8, 9.4 |
\(\Rightarrow\) Median: \(\tilde{x} = 5.3\)
\(\Rightarrow\) Mittelwert: \(\bar{x} = 5.5571429\)
Beispiel: Stichprobe mit 20 Werten, 10% auf beiden Seiten ausschließen
0.4, 0.5, 1, 2.5, 2.9, 3.3, 4.1, 4.5, 4.6, 5.3, 5.5, 5.7, 6.8, 7.9, 8.8, 8.9, 9, 9.4, 9.6, 46
\(\rightarrow\) Arithmetisches Mittel: \(\bar{x}=7.335\)
\(\rightarrow\) Getrimmter Mittelwert: \(\bar{x}_{t, 0.1}=5.6375\)
Erste Näherung: Mitte der häufigsten Klasse.
\[\begin{align} D &= x_{lo}+\frac{f_k-f_{k-1}}{2f_k-f_{k-1}-f_{k+1}}\cdot w \\ D &= 18 + \frac{29 - 15}{2 \cdot 29 - 15 - 26} \cdot 2 = 19.65 \end{align}\]
\(f\): Klassenhäufigkeit, \(w\): Klassenbreite
\(k\): der Index der häufigsten Klasse, \(x_{lo}\) ihre Untergrenze.
Etwas rechenintensiver, wobei der Modus das Maximum einer Kernel-Dichte-Schätzung ist.
Der Modus aus der Dichteschätzung ist dann \(D=19.42\).
Beispiel: Fischpopulation mit mehreren Altersklassen (Kohorten)
Varianz
\[ s^2_x = \frac{SQ}{df}=\frac{\sum_{i=1}^n (x_i-\bar{x})^2}{n-1} \]
Standardabweichung
\[s=\sqrt{s^2}\] \(\rightarrow\) dieselbe Einheit wie der Mittelwert \(\bar{x}\), so dass sie direkt verglichen werden können.
In der Praxis wird \(s^2\) oft mit folgender Formel berechnet:
\[ s^2_x = \frac{\sum{(x_i)^2}-(\sum{x_i})^2/n}{n-1} \]
Ist die relative Standardabweichung:
\[ cv=\frac{s}{\bar{x}} \]
Beispiel
Nehmen wir an, wir haben den Abfluss von zwei Flüssen, einer mit \(cv=0,3\), der andere mit \(cv=0,8\). Wir sehen, dass der 2. eine extremere Schwankung aufweist.
Die Spannweite misst die Differenz zwischen Maximum und Minimum einer Stichprobe:
\[ r_x = x_{max}-x_{min} \]
Nachteil: sehr empfindlich gegenüber Ausreißern.
\[ I_{50}=Q_3-Q_1=P_{75}-P_{25} \]
Geordnete Stichprobe
Für normalverteilte Stichproben, feste Beziehung zwischen \(I_{50}\) und \(s\):
\[ \sigma = E(I_{50}/(2\Phi^{-1}(3/4))) \approx E(I_{50}/1.394) % 2*qnorm(3/4)) \]
wobei \(\Phi^{-1}\) die Quantilfunktion der Normalverteilung ist.
Der Median der absoluten Differenzen zwischen dem Median und den Einzelwerten.
\[ MAD = \text{median}(|\text{median} - x_i|) \]
\(\rightarrow\) Sei vorsichtig und prüfe die Software-Dokumente!
\[ s_{\bar{x}}=\frac{s}{\sqrt{n}} \]
Faustregel für einen Stichprobenumfang von etwa \(n > 30\):
Mehr dazu wird in den nächsten Abschnitten erläutert.