02-Grundbegriffe

Angewandte Statistik – Ein Praxiskurs

Thomas Petzoldt

2025-09-29

Grundlagen und Terminologie


  • Ziele von statistischen Analysen
  • Deskriptive und experimentelle Forschung
  • Das Sparsamkeitsprinzip
  • Skalen von Variablen
  • Wahrscheinlichkeit
  • Stichprobe und Grundgesamtheit
  • Zufällige und systematische Fehler
  • Parameter der Grundgesamtheit und der Stichprobe

Ziele von statistischen Analysen

  1. Daten zusammenfassen, komprimieren und beschreiben (deskriptive Statistik)
    • Effizientes Arbeiten mit großen Datensätzen
    • Statistische Parameter, Mittelwerte, Streuung, Korrelation abschätzen
  2. Erstellen von Hypothesen aus Daten (explorative Statistik)
    • Data Mining und explorative Statistik
    • Grafische Methoden, multivariate Statistik
  3. Hypothesen testen (statistische Inferenz)
    • klassische Tests, ANOVA, Korrelation, . . .
    • Modellauswahl
  4. Forschung planen (Versuchsplanung)
    • Effektstärke im Vergleich zum Zufallsfehler
    • Versuchsaufbau und erforderliche Stichprobengröße
  5. Statistische Modellierung
    • Effektstärke messen, beste Erklärung für ein Problem finden
    • Mustererkennung, Vorhersage, maschinelles Lernen

Deskriptive oder experimentelle Forschung

Deskriptive Forschung

  • Aufdecken von Unterschieden und von Wechselbeziehungen in Datensätzen.
    • Beobachtung, Überwachung, Korrelationen
    • das Forschungsthema wird nicht manipuliert

Experimentelle Forschung

  • Kann ein erwarteter Effekt reproduziert werden?
    • Manipulation von einzelnen Bedingungen
    • Eliminierung von Störungen (kontrollierte Randbedingungen)
    • möglichst einfacher Versuchsaufbau

Starke Inferenz erfordert eine klare Hypothese und experimentelle Forschung.

Schwache Inferenz aus Beobachtungen und Daten abgeleitet.

\(\rightarrow\) deskriptive Forschung liefert die Daten für die Hypothesenbildung.

Das Sparsamkeitsprinzip (Parsimonieprinzip)

Wird einem englischen Philosophen aus dem 14. Jahrhundert zugeschrieben („Ockhams Rasiermesser“)

Wenn man zwei konkurrierende Theorien hat, die genau die gleichen Vorhersagen machen, ist die einfachere die bessere.

Im Zusammenhang mit der statistischen Analyse und Modellierung:

  • Modelle sollten so wenig Parameter wie möglich haben
  • lineare Modelle sollten gegenüber nichtlinearen Modellen bevorzugt werden
  • Experimente sollten auf nur wenigen Annahmen beruhen
  • Modelle sollten vereinfacht werden, bis sie minimal angemessen sind
  • einfache Erklärungen sind komplexen Erklärungen vorzuziehen

Einer der wichtigsten wissenschaftlichen Grundsätze

\(\rightarrow\) Aber die Natur ist komplex, eine zu starke Vereinfachung muss vermieden werden.

  • muss kritisch reflektiert und diskutiert werden

Variablen und Parameter


y = a + b \(\cdot\) x


  • Variablen: alles, was gemessen oder experimentell manipuliert wird, z. B. die Phosphorkonzentration in einem See, die Lufttemperatur oder die Abundanz von Tieren

  • Parameter: Werte, die durch ein statistisches Modell geschätzt werden, z. B. Mittelwert, Standardabweichung, Steigung eines linearen Modells.

Unabhängige Variablen Erklärungsvariablen, Prädiktoren)

  • werden absichtlich eingestellt oder als Ergebnis nicht kontrollierbarer Faktoren angenommen

Abhängige Variablen (Zielgröße, Zielvariablen, vorhergesagte Variablen)

  • die Variablen von Interesse, die wir zu verstehen versuchen.

Skalen von Variablen


  • Binär (boolesche Variable): genau zwei Zustände: wahr/falsch, 1/0, vorhanden oder nicht vorhanden.
  • Nominal (benannte Entitäten): ohne Ordnung, {rot, gelb, grün}, Liste von Arten.
  • Ordinale Variablen (Ränge, geordnete Faktoren): Werte oder Begriffe mit einer Ordnung {1., 2., 3., …}; {oligotroph, mesotroph, eutroph, polytroph, hypertroph}, aber nicht „dystroph“
  • Metrisch: kontinuierlich (idealerweise ohne Stufen). Zwei Untertypen:
    • Intervallskala: ermöglicht Vergleiche und Differenzen, aber Verhältnisse machen keinen Sinn. (20°C ist 10 Grad wärmer als 10°C, aber nicht das Doppelte)
    • Verhältnisskala: Daten mit einem absoluten Nullpunkt, Verhältnisse machen Sinn. Ein Baum mit 2m ist doppelt so hoch wie ein Baum mit 1m.

Das Niveau der Variablen steigt von der binären zur Verhältnis-Skala. Es ist immer möglich, ein höheres in ein niedrigeres Niveau umzuwandeln.

Umwandlung von Skalen


Das Niveau der Variablen steigt von der binären zur Verhältnis-Skala. Es ist immer möglich, ein höheres in ein niedrigeres Niveau umzuwandeln:

  • metrisch \(\rightarrow\) ordinal: Rangbildung
  • metrisch oder ordinal \(\rightarrow\) binär: Vergleich mit Schwellenwert
  • nominal \(\rightarrow\) binär: Zuordnung zu zwei Gruppen

Die Umwandlung in eine niedrigere Skala führt zu einem gewissen Informationsverlust, ermöglicht aber die Verwendung zusätzlicher Methoden aus der untergeordneten Skala.

Erklärung: Wenn wir die Rangkorrelation auf metrische Daten anwenden, wenden wir im Wesentlichen eine Methode für die Ordinalskala auf metrische Daten an. In diesem Fall verlieren wir Informationen über die Unterschiede zwischen den Werten, verringern aber auch den Einfluss von Extremwerten und Ausreißern.

Die Umwandlung von metrischen in binäre Daten kann sinnvoll sein, wenn die metrischen Daten nicht genau genug sind. So kann beispielsweise die Zählung von Tieren (z. B. Wölfen) in einem bestimmten Gebiet von zu vielen Faktoren abhängen (Struktur der Landschaft, Erfahrung der Menschen, Jahreszeit usw.), so dass die genauen Zahlen (Häufigkeiten) fraglich sind. In solchen Fällen ist eine Umwandlung in eine binäre Skala (vorhanden/abwesend) und die Anwendung eines entsprechenden Tests (z. B. logistische Regression oder Fisher’s exakter Test) zuverlässiger.

Andere Beispiele sind der Vergleich von Hochwasser zwischen verschiedenen Flüssen, z.B. einem großen und einem kleinen Fluss, oder das Vorkommen von Genen in einer molekularbiologischen Analyse.

Wahrscheinlichkeit


Klassische Definition

  • Die Wahrscheinlichkeit \(p\) ist die Chance eines bestimmten Ereignisses:

\[ p = \frac{\text{Anzahl der ausgewählten Fälle}}{\text{Anzahl aller möglichen Fälle}} \]

  • 1 oder 6 bei einem Würfel \(p=2/6\)
  • Problem, wenn der Nenner unendlich wird

Axiomatische Definition

  • Axiom I: \(0 \le p \le 1\)
  • Axiom II: unmögliche Ereignisse haben \(p=0\), sichere Ereignisse haben \(p=1\)
  • Axiom III: für sich gegenseitig ausschließende Ereignisse \(A\) und \(B\), d.h. in der Mengenlehre gilt \(A \bigcap B = \emptyset\): \(p(A \bigcup B)= p(A) + p(B)\)

Stichprobe und Grundgesamtheit


Stichprobe

Objekte, von denen wir Messungen oder Beobachtungen haben


Grundgesamtheit

Menge aller Probanden, die die gleiche Chance hatten, Teil der Stichprobe zu werden.

\(\Rightarrow\) Die Grundgesamtheit wird durch die Art der Strichprobengewinnung definiert

\(\Rightarrow\) Die Stichproben sollten repräsentativ für unser beabsichtigtes Beobachtungsobjekt sein.

Stichproben-Strategien


Zufallsstichprobe

  • Individuen werden nach dem Zufallsprinzip aus einer Grundgesamtheit ausgewählt.
  • Beispiele:
    • Zufällige Auswahl von Probenahmestellen auf einem Raster.
    • Zufällige Platzierung von Versuchseinheiten in einem Regal.


Geschichtete Stichprobe

  • Die Grundgesamtheit wird in Klassen ähnlicher Objekte (Schichten oder Strata) unterteilt.

  • Die Schichten werden getrennt analysiert, danach werden die Informationen gewichtet und kombiniert, um Rückschlüsse auf die Grundgesamtheit zu ziehen.

  • Die geschichtete Stichprobe erfordert Informationen über die Größe und Repräsentativität der Schichten.

  • Beispiele: Wahlprognosen, Tiefenschichten in einem See, Altersklassen von Tieren.

Zufällige und systematische Fehler


Zufallsfehler

  • können mit statistischen Methoden geschätzt werden
  • werden eliminiert, wenn der Stichprobenumfang groß ist
  • bei großen Stichproben gleichen sich große und kleine Fehler aus

Systematische Fehler auch Bias genannt

  • können in der Regel nicht allein mit statistischen Methoden geschätzt werden
  • erfordern Kenntnisse über das betrachtete System
  • Eliminierung erfordert Kalibrierung mittels Standards, Blindwerten oder Paarbildung

Grundgesamtheits- und Stichprobenparameter


„Wahre“ Parameter der Grundgesamtheit

  • symbolisiert durch griechische Buchstaben, (\(\mu, \sigma, \gamma\, \alpha, \beta\))
  • in der Regel unbekannt
  • werden anhand einer Stichprobe geschätzt

„Berechnete“ Parameter aus einer Probe

  • symbolisiert mit lateinischen Buchstaben (\(\bar{x}\), \(s\), \(r^2\), …)
  • die Berechnung erfolgt anhand einer Stichprobe
  • Statistiker sagen „Schätzung“ statt „Berechnung“.
  • Die geschätzten Parameter können auch wieder als Zufallsvariable behandelt werden

Erwartungswert


Eine einzelne Messung \(x_i\) einer Zufallsvariablen \(X\) kann als Summe des Erwartungswertes \(\mathbf{E}(X)\) der Zufallsvariablen und eines Zufallsfehlers \(\varepsilon_i\) formuliert werden.

\[\begin{align} x_i &= \mathbf{E}(X) + \varepsilon_i\\ \mathbf{E}(\varepsilon)&=0 \end{align}\]

Beispiel:

  • für einen fairen Würfel mit 6 Augen sollte der wahre Mittelwert \(\mu\) 3,5 sein
  • In Wirklichkeit ist nicht genau bekannt, ob ein realer Würfel perfekt symmetrisch ist.

Beispiel: 3 Personen mit 5 Versuchen:

sample 1:  3 3 2 4 1  mean: 2.6
sample 2:  6 1 1 6 1  mean: 3
sample 3:  6 5 6 6 5  mean: 5.6

Gesamtmittelwert: \(\bar{x} = 3.73\) liegt nahe an \(\mu = 3,5\).