06-Lineare Regression

Angewandte Statistik – Ein Praxiskurs

Thomas Petzoldt

2025-09-29

Achtung: deutsche Übersetzung muss noch geprüft werden

Lineare Regression

Das lineare Modell

\[ y_i = \alpha + \beta_1 x_{i,1} + \beta_2 x_{i,2} + \cdots + \beta_p x_{i,p} + \varepsilon_i \]

Grundlegend für viele statistische Methoden

  • Lineare Regression einschließlich einiger (auf den ersten Blick) „nichtlinearer“ Funktionen
  • ANOVA, ANCOVA, GLM (gleichzeitiges Testen von mehreren Stichproben oder mehreren Faktoren)
  • Multivariate Statistik (z. B. PCA)
  • Zeitreihenanalyse (z. B. ARIMA)
  • Imputation (Schätzung von fehlenden Werten)

Method of least squares

\[ RSS = \sum_{i=1}^n (y_i - \hat{y}_i)^2 = \sum_{i=1}^n \varepsilon^2 \qquad \text{(residual sum of squares)} \]

\[\begin{align} \text{Gesamtvarianz} &= \text{Varianzaufklärung} &+& \text{Restvarianz}\\ s^2_y &= s^2_{y|x} &+& s^2_{\varepsilon} \end{align}\]

Das Bestimmtheitsmaß

\[\begin{align} r^2 & = \frac{\text{Varianzaufklärung}}{\text{Gesamtvarianz}}\\ & = \frac{s^2_{y|x}}{s^2_y}\\ \end{align}\]

Sie kann auch als Verhältnis zwischen der Summe der Quadrate der Residuen (RSS) und der Gesamtsumme (TSS = total sum of squares) ausgedrückt werden:

\[ r^2 = 1-\frac{s^2_{\varepsilon}}{s^2_{y}} = 1-\frac{RSS}{TSS} = 1- \frac{\sum(y_i -\hat{y}_i)^2}{\sum(y_i - \bar{y})^2} \]

  • abgeleitet von der „Summe der Quadrate“, skaliert als relative Varianz
  • identisch mit der quadrierten Pearson-Korrelation \(r^2\) (im linearen Fall)
  • Sehr nützliche Interpretation: Prozentsatz der Varianz der Rohdaten, der durch das Modell erklärt wird.

Zum Beispiel: \(r^2= 1-\) 15.3 \(/\) 40.8 \(=\) 0.625

Minimierung der RSS

  • Analytische Lösung: Minimierung der Summe der Quadrate (\(\sum \varepsilon^2\))
  • Lineares Gleichungssystem
  • Minimale RSS \(\longleftarrow\) partielle 1. Ableitungen (\(\partial\))

Für \(y=a \cdot x + b\) mit 2 Parametern: \(\frac{\partial\sum \varepsilon^2}{\partial{a}}=0\), \(\frac{\partial\sum \varepsilon^2}{\partial{b}}=0\):


\[\begin{align} \frac{\partial \sum(\hat{y_i} - y_i)^2}{\partial a} &= \frac{\partial \sum(a + b \cdot x_i - y_i)^2}{\partial a} = 0\\ \frac{\partial \sum(\hat{y_i} - y_i)^2}{\partial b} &= \frac{\partial \sum(a + b \cdot x_i - y_i)^2}{\partial b} = 0 \end{align}\]

Lösung des linearen Gleichungssystems:

\[\begin{align} b &=\frac {\sum x_iy_i - \frac{1}{n}(\sum x_i \sum y_i)} {\sum x_i^2 - \frac{1}{n}(\sum x_i)^2}\\ a &=\frac {\sum y_i - b \sum x_i}{n} \end{align}\]

  • Lösung für eine beliebige Anzahl von Parametern mit Matrixalgebra

Signifikanz der Regression


\[ \hat{F}_{1;n-2;\alpha}= \frac{s^2_{explained}}{s^2_{residual}} = \frac{r^2(n-2)}{1-r^2} \]

Annahmen

  1. Gültigkeit: die Daten entsprechen der Forschungsfrage
  2. Additivität und Linearität: \(y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \cdots\)
  3. Unabhängigkeit der Fehler: Residuen um die Regressionslinie sind unabhängig
  4. Gleiche Varianz der Fehler: Residuen sind homogen um die Regressionsgerade verteilt
  5. Normalität der Fehler: die „Annahme, die im Allgemeinen am wenigsten wichtig ist

Siehe: Gelman & Hill (2007) : Data analysis using regression …

Diagnostik



Keine Regressionsanalyse ohne grafische Diagnostik!

  • x-y-Plot mit Regressionsgerade: ist die Varianz homogen?
  • Plot der Residuen vs. gefittet: gibt es noch irgendwelche Restmuster?
  • Q-Q- Plot, Histogramm: Ist die Verteilung der Residuen näherungsweise normal?

Verwende grafische Methoden für die Normalität, vertraue in diesem Fall nicht auf Shapiro-Wilks.

Konfidenzintervalle der Parameter

  • Basierend auf Standardfehlern und der t-Verteilung, ähnlich wie beim KI des Mittelwerts

\[\begin{align} a & \pm t_{1-\alpha/2, n-2} \cdot s_a\\ b & \pm t_{1-\alpha/2, n-2} \cdot s_b \end{align}\]

summary(m)

Call:
lm(formula = y ~ x)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4451 -1.0894 -0.4784  1.5065  3.1933 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.50740    0.87338   2.871   0.0102 *  
x            2.04890    0.07427  27.589 3.51e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.885 on 18 degrees of freedom
Multiple R-squared:  0.9769,    Adjusted R-squared:  0.9756 
F-statistic: 761.1 on 1 and 18 DF,  p-value: 3.514e-16


Beispiel: KI von a: \(a \pm t_{1-\alpha/2, n-2} \cdot s_a = 2.5074 \pm 2.09 \cdot 0.87338\)

Konfidenzintervall und Vorhersageintervall

  • Konfidenzintervall:
    • Zeigt den Bereich, in dem die „wahre Regressionslinie“ zu 95 % erwartet wird.
    • Die Breite dieses Bereichs nimmt mit zunehmendem \(n\) ab
    • analog zum Standardfehler
  • Vorhersageintervall:
    • Zeigt den Bereich an, in dem die Vorhersage für einen einzelnen Wert (zu 95%) erwartet wird.
    • Die Breite ist unabhängig vom Stichprobenumfang \(n\)
    • analog zur Standardabweichung

Konfidenzintervalle für die lineare Regression: Code

## generiere Beispiel Daten
x <- 1:10
y <- 2 + 0.5 * x + 0.5 * rnorm(x)

## fitte Modell
reg <- lm(y ~ x)
summary(reg)

## Daten und Regressionslinie plotten
plot(x,y, xlim = c(0, 10), ylim = c(0, 10), pch = 16)
abline(reg, lwd = 2)

## Intervalle berechnen und plotten
newdata <- data.frame(x=seq(-1, 11, length=100))
conflim <- predict(reg, newdata=newdata, interval = "confidence")
predlim <- predict(reg, newdata=newdata, interval = "prediction")

lines(newdata$x, conflim[,2], col = "blue")
lines(newdata$x, conflim[,3], col = "blue")
lines(newdata$x, predlim[,2], col = "red")
lines(newdata$x, predlim[,3], col = "red")
  • Die Variable newdata:
    • überspannt den Bereich der x-Werte in kleinen Schritten, um eine glatte Kurve zu erhalten
    • eine einzige Spalte mit genau demselben Namen x wie in der Modellformel
    • bei multipler Regression: eine Spalte pro Erklärungsvariable

Problemfälle

Identifizierung und Behandlung von Problemfällen


Rainbow-Test (Linearität)

## generiere Test-Daten
x <- 1:10
y <- 2 + 0.5 * x + 0.5 * rnorm(x)

library(lmtest)
raintest(y~x)

    Rainbow test

data:  y ~ x
Rain = 0.79952, df1 = 5, df2 = 3, p-value = 0.6153


Breusch-Pagan-Test (Homogenität der Varianz)

bptest(y~x)

    studentized Breusch-Pagan test

data:  y ~ x
BP = 3.3989, df = 1, p-value = 0.06524

Nicht-Normalität und Ausreißer


  • Nicht-Normalität
    • weniger wichtig, als viele Leute denken ( aufgrund des CLTs)
    • Transformationen (z. B. Box-Cox), Polynome, periodische Funktionen
    • Verwendung von GLM’s (generalized linear models)


  • Ausreißer (abhängig vom Muster)
    • Verwendung von Transformationen (z.B. Doppellog)
    • Verwendung von Ausreißer-Tests, z.B. outlierTest aus Paket car
    • robuste Regression mit IWLS (iteratively re-weighted least squares) aus dem Paket MASS

Robuste Regression mit IWLS

  • IWLS: iterierte, neu gewichtete kleinste Quadrate (engl. iterated re-weighted least squares)
  • OLS (gewöhnliche kleinste Quadrate, engl. ordinary least squares) ist eine „normale“ lineare Regression.
  • M-Schätzung und MM-Schätzung sind zwei verschiedene Ansätze, Details in Venables & Ripley (2013)
  • robuste Regression ist dem Ausschluss von Ausreißern vorzuziehen

Code der IWLS-Regression

library("MASS")

## Testdaten mit 2 „Ausreißern“
x <- c(1, 2, 3, 3, 4, 5, 7, 7, 7, 8, 8, 9, 10, 14, 15, 15, 16, 17, 18, 18)
y <- c(8.1, 20, 10.9, 8.4, 9.6, 16.1, 17.3, 15.3, 16, 15.9, 19.3, 
       21.3, 24.8, 31.3, 4, 31.9, 33.7, 36.5, 42.4, 38.5)

## Fitten der Modelle
ssq    <- lm(y ~ x)
iwls   <- rlm(y ~ x)
iwlsmm <- rlm(y ~ x, method = "MM")

## Plotten der Modelle
plot(x, y, pch = 16, las = 1)
abline(ssq, col = "blue", lty = "dashed")
abline(iwls, col = "red")
abline(iwlsmm, col = "green")
legend("topleft", c("OLS", "IWLS-M", "IWLS-MM"),
       col = c("blue", "red", "green"),
       lty = c("dashed", "solid", "solid"))

Weiterführende Literatur

  • Kleiber & Zeileis (2008) Applied econometrics with R. Springer Verlag.
  • Venables & Ripley (2013) Modern applied statistics with S-PLUS (3rd ed.). Springer Science & Business Media.
  • Fox & Weisberg (2018) An R companion to applied regression. Sage publications.
  • Gelman & Hill (2007) Data analysis using regression and multilevel hierarchical models (Vol. 1). Cambridge University Press, New York.

Referenzen


Fox, J., & Weisberg, S. (2018). An R companion to applied regression. Sage publications.
Gelman, A., & Hill, J. (2007). Data analysis using regression and multilevelhierarchical models (Vol. 1). Cambridge University Press New York, NY, USA.
Kleiber, C., & Zeileis, A. (2008). Applied econometrics with R. Springer.
Venables, W. N., & Ripley, B. D. (2013). Modern applied statistics with S-PLUS (3rd ed.). Springer Science; Business Media.