10-Linear Mixed Effects Models

Angewandte Statistik – Ein Praxiskurs

Thomas Petzoldt

2025-12-17

Ein sehr einfaches Beispiel

Was ist ein Lineares Gemischtes Modell (LMM)?

Ein LMM berücksichtigt sowohl feste als auch zufällige Effekte

Feste Effekte (Fixed Effects)

  • Beschreiben die mittlere Antwort der Population.
  • Werden durch das experimentelle Design kontrolliert (z.B. Behandlung, Dosis, Geschlecht).
  • Das Interesse gilt allen Ebenen, die im Modell enthalten sind.
  • Ziel: Schätzung spezifischer Mittelwertsunterschiede (\(\beta\)).

+Zufällige Effekte (Random Effects)

  • Beschreiben die Variabilität in der Antwort.
  • Werte sind bekannt, können aber keiner festen Behandlung zugeordnet werden.
  • Das Interesse gilt nur der Varianz (\(\sigma^2\)) zwischen den Gruppen, nicht dem spezifischen Effekt jeder Gruppe.

Typische Anwendungsfälle

  • Pseudoreplikate: Wiederholte Messungen am gleichen Subjekt oder in derselben räumlichen Einheit.
  • Hierarchische Daten: Daten sind verschachtelt (z.B. Pflanzen in Plots, Plots in Feldern).

Warum LMMs verwenden?


  1. Korrekte Standardfehler: Berücksichtigen Abhängigkeiten (Korrelationen) in den Daten, was zu validen p-Werten und Konfidenzintervallen führt.

  2. Pseudoreplikation: Sie bieten die korrekte Methode, um hierarchische Daten zu analysieren und das Problem der Pseudoreplikation zu lösen.

  3. Parsimonie: Sie verwenden weniger Parameter als herkömmliche Modelle, da sie nur die Varianz der Zufallseffekte schätzen und nicht deren individuelle Mittelwerte.

Hinweis zur Komplexität

Die dahinter liegende Statistik und die Philosophie der Modellspezifikation sind komplex. Deshalb soll hier nur ein einfaches Beispiel zur Veranschaulichung des Grundprinzips der Varianzzerlegung vorgestellt werden.

Wie unterscheiden sich die Früchte


Gibt es einen signifikanten Unterschied im Gewicht von Clementinen aus zwei verschiedenen Marken-Kategorien (‘organic’ vs. ‘standard’)?


Das Problem der Pseudoreplikation

Die Früchte stammen nicht aus einer zufälligen repräsentativen Stichprobe, sondern wurden als Abpackungen (sample) gekauft.

  • Beobachtung: Jede Packung (z.B. S1, I2, S4) enthält mehrere Früchte.
  • Abhängigkeit: Die Früchte innerhalb einer Packung sind eventuell ähnlicher zueinander als Früchte aus verschiedenen Abpackungen (z.B. aufgrund der Sortierung und Lagerung).

Die Forschungsfrage mit LMM:

  1. Gibt es einen Effekt der Marke (brand) auf das Fruchtgewicht (weight)? (Fester Effekt)
  2. Wie groß ist die Variation zwischen den einzelnen Packungen (sample)? (Zufälliger Effekt)

Wir verwenden ein LMM, um den Effekt der Marke zu schätzen und gleichzeitig die Chargen-Variabilität statistisch zu kontrollieren.

Der Datensatz


Der Datensatz clem, enthält die Messungen von 74 einzelnen Clementinen.


Variable Beschreibung Rolle im Modell
weight Gewicht der Frucht (Abhängige Variable) Zielgröße, deren Variation erklärt werden soll.
brand Marke (nominal: ‘organic’, ‘standard’) Fester Effekt: Der Haupteffekt von Interesse.
sample Packungs-ID (nominal: S1, I1, S2, …) Zufälliger Effekt: Die Gruppierungsstruktur.
Datensatz anzeigen
clem <- data.frame(
  id = 1:74, 
  no = c(1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 
         1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 
         1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9, 
         1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1, 2, 3, 4, 5, 6, 7, 8, 9), 
  brand = c("organic", "organic", "organic", "organic", "organic", "organic", 
            "organic", "organic", "organic", "organic", "organic", "organic", 
            "organic", "organic", "organic", "organic", "organic", "organic", 
            "organic", "organic", "organic", "organic", "organic", "organic", 
            "organic", "organic", "organic", "organic", "standard", "standard",
            "standard", "standard", "standard", "standard", "standard", "standard",
            "standard", "standard", "standard", "standard", "standard", "standard",
            "standard", "standard", "standard", "standard", "standard", "standard",
            "standard", "standard", "standard", "standard", "standard", "standard",
            "standard", "organic", "organic", "organic", "organic", "organic",
            "organic", "organic", "organic", "organic", "organic", "standard",
            "standard", "standard", "standard", "standard", "standard", "standard",
            "standard", "standard"), 
  sample = c("S1", "S1", "S1", "S1", "S1", "S1", "S1", "S1", "S1", "S2", "S2", "S2",
             "S2", "S2", "S2", "S2", "S2", "S2", "S2", "S3", "S3", "S3", "S3", "S3",
             "S3", "S3", "S3", "S3", "I1", "I1", "I1", "I1", "I1", "I1", "I1", "I1",
             "I1", "I2", "I2", "I2", "I2", "I2", "I2", "I2", "I2", "I2", "I3", "I3",
             "I3", "I3", "I3", "I3", "I3", "I3", "I3", "S4", "S4", "S4", "S4", "S4",
             "S4", "S4", "S4", "S4", "S4", "I4", "I4", "I4", "I4", "I4", "I4", "I4",
             "I4", "I4"), 
  weight = c(85, 90, 75, 86, 87, 72, 81, 94, 83, 89, 69, 71, 67, 83, 66, 76, 88, 75,
             77, 82, 84, 82, 81, 100, 70, 73, 95, 73, 114, 110, 153, 121, 108, 100,
             107, 112, 117, 103, 115, 109, 124, 111, 116, 121, 114, 116, 105, 119,
             110, 106, 123, 119, 113, 114, 112, 71, 73, 70, 66, 81, 71, 75, 87, 69,
             78, 105, 134, 126, 119, 103, 105, 109, 121, 106)
  )

Explorative Analyse: Die Notwendigkeit eines LMM

Der Boxplot zeigt die Verteilung des Gewichts (weight) pro Packung (sample).

boxplot(weight ~ sample, data = clem,
        main = "Gewichtsverteilung nach Packung (sample)",
        xlab = "Packung (sample)", ylab = "Gewicht")

Fitten des LMM (lmer)

Wir modellieren das Gewicht (weight) als Funktion des Marken-Effekts (brand), wobei wir die Variation der Achsenabschnitte pro Charge (sample) als zufällig annehmen.

Die R-Syntax

Wir verwenden die Funktion lmer aus dem Paket lme4 (Bates et al., 2015):

library(lme4)
library(lmerTest) # Für p-Werte der festen Effekte

# Gewicht ~ fester Effekt (Marke) + zufälliger Achsenabschnitt (pro Charge)
lmm <- lmer(weight ~ brand + (1 | sample), data = clem)

Feste und zufällige Effekte

# Feste Effekte (Mittelwertsunterschiede)
fixef(lmm) 
  (Intercept) brandstandard 
     78.86045      35.58400 
# Zufällige Effekte (Abweichung der Achsenabschnitte pro Charge)
ranef(lmm)
$sample
   (Intercept)
I1  0.27701605
I2 -0.02308467
I3 -0.20776204
I4 -0.04616934
S1  0.99854992
S2 -0.62286163
S3  0.69844920
S4 -1.07413749

with conditional variances for "sample" 

Die Mathematische Notation (LMM)

Die Modellformel

Das Lineare Gemischte Modell (LMM) für unser Clementinen-Beispiel lautet:

\[ \text{weight}_{ij} = \beta_0 + \beta_1 \cdot \text{brand}_i + \gamma_j + \epsilon_{ij} \]

Erklärung der Komponenten

Komponente Bezeichnung Rolle
\(\text{weight}_{ij}\) Abhängige Variable Gewicht der \(i\)-ten Frucht in der \(j\)-ten Packung.
\(\beta_0\) Globaler Achsenabschnitt Erwartetes Gewicht für die Referenzkategorie (‘organic’).
\(\beta_1\) Fester Effekt der Marke Der interessierende mittlere Unterschied zwischen ‘standard’ und ‘organic’.
\(\gamma_j\) Zufälliger Effekt der Packung Abweichung des Achsenabschnitts der \(j\)-ten Packung vom globalen Mittelwert.
\(\epsilon_{ij}\) Residualfehler Unabhängiger, nicht erklärter Fehler.

Die Verteilungsannahmen (Varianzkomponenten)


Die zufälligen Effekte und die Residualfehler müssen unabhängig und normalverteilt sein:


  1. Zufälliger Achsenabschnitt der Charge (\(\gamma_j\)): \[ \gamma_j \sim N(0, \sigma^2_{\text{Charge}}) \]
    • Wir schätzen \(\sigma^2_{\text{Charge}}\), die Varianz zwischen den Chargen.


  1. Residualfehler (\(\epsilon_{ij}\)): \[ \epsilon_{ij} \sim N(0, \sigma^2_{\text{Residuum}}) \]
    • Wir schätzen \(\sigma^2_{\text{Residuum}}\), die verbleibende Varianz innerhalb der Chargen.

Prüfung der Modellannahmen (Diagnostik)

Zur Prüfung der Modellannahmen verwenden wir die Funktion check_model() aus dem Paket performance (Lüdecke et al., 2021), die alle wichtigen diagnostischen Plots generiert.

library("performance")
library("see")
check_model(lmm)

Interpretation der Ergebnisse (summary(lmm))

Wir analysieren die Ausgabe des Modells

lmm <- lmer(weight ~ brand + (1 | sample), data = clem)

in drei Schritten.

Schritt 1: Zufällige Effekte (Die Varianz-Analyse)

Dieser Schritt quantifiziert die Varianz, die auf die Gruppenstruktur (Chargen) und auf den reinen Fehler (Residualfehler) zurückzuführen ist.


Komponente Varianz-Schätzung (\(\sigma^2\)) Berechnung im Code
\(\text{sample}\) (Charge) \(\sigma^2_{\text{Charge}}\) as.data.frame(VarCorr(lmm))[1, "vcov"]
Residuum \(\sigma^2_{\text{Residuum}}\) as.data.frame(VarCorr(lmm))[2, "vcov"]

Schritt 2: Intra-Klassen-Korrelation (ICC)


Die ICC gibt an, wie viel der Gesamtvarianz durch die Gruppierung (Charge) erklärt wird.

\[\text{ICC} = \frac{\sigma^2_{\text{Charge}}}{\sigma^2_{\text{Charge}} + \sigma^2_{\text{Residuum}}}\]

Berechnung des ICC in R:

# Berechnung der Varianzen
Var_Charge <- as.data.frame(VarCorr(lmm))[1, "vcov"]
Var_Residuum <- as.data.frame(VarCorr(lmm))[2, "vcov"]

# ICC-Formel
ICC <- Var_Charge / (Var_Charge + Var_Residuum)

print(ICC)
[1] 0.02831354

Schritt 3: Signifikanz des festen Effekts


Wenn das Paket lmerTest (Kuznetsova et al., 2017) verwendet wird, erhalten wir eine ANOVA-Tabelle mit p-Werten für die festen Effekte:


library("lmerTest")
anova(lmm)
Type III Analysis of Variance Table with Satterthwaite's method
      Sum Sq Mean Sq NumDF  DenDF F value    Pr(>F)    
brand  18437   18437     1 6.2111  217.16 4.579e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


Zur Anwendung solcher Signifikanztests gibt es bei statisikern unterschiedliche Auffassungen. Im vorliegenden fall ist es jedoch viel einfacher als andere Verfahren.

Bei komplexeren Modellen verwendet man stattdessen besser eine AIC-basierte Modellselektion.

Interpretation: Der resultierende p-Wert zeigt, ob der Effekt der Marke (brand) auf das Gewicht statistisch signifikant ist, nachdem die Variation durch die Chargen kontrolliert wurde.

Zum Weiterlesen und Vertiefen


Das hier vorgestellte lineare gemischte Modell ist nur ein erster Anfang. Für eine umfassende Vertiefung wird empfohlen:

  • Der R News-Artikel von Bates (2005). Er bietet eine klare Einführung in die Grundkonzepte des lme4-Pakets und enthält mehrere einfache, leicht verständliche Beispiele zur Anwendung.

  • Das Buch von Pinheiro & Bates (2000) ist der theoretische Standard für gemischte Modelle in R. Es legt dieGrundlage für das ältere, aber nach wie vor wichtige nlme-Paket.

  • Das Buch von Zuur et al. (2009) ist ein praxisorientierter Leitfaden zur Anwendung in der Ökologie und die beste Quelle für die Themen Modellselektion und -validierung.

  • Für eine moderne Sichtweise auf die Ökologische Statistik gibt der Sammelband von Fox et al. (2015) eine hervorragende Übersicht. Er verbindet aktuelle Theorie und praktische Anwendung in der ökologischen Forschung.

Literaturverzeichnis


Bates, D. (2005). Fitting linear mixed models in r. R News, 5(1), 27–30.
Bates, D., Mächler, M., Bolker, B., & Walker, S. (2015). Fitting linear mixed-effects models using lme4. Journal of Statistical Software, 67(1), 1–48. https://doi.org/10.18637/jss.v067.i01
Fox, G. A., Negrete-Yankelevich, S., & Sosa, V. J. (Eds.). (2015). Ecological statistics: Contemporary theory and application. Oxford University Press.
Kuznetsova, A., Brockhoff, P. B., & Christensen, R. H. B. (2017). lmerTest package: Tests in linear mixed effects models. Journal of Statistical Software, 82(13), 1–26. https://doi.org/10.18637/jss.v082.i13
Lüdecke, D., Ben-Shachar, M. S., Patil, I., Waggoner, P., & Makowski, D. (2021). performance: An R package for assessment, comparison and testing of statistical models. Journal of Open Source Software, 6(60), 3139. https://doi.org/10.21105/joss.03139
Pinheiro, J. C., & Bates, D. M. (2000). Mixed-effects models in s and s-PLUS. Springer.
Zuur, A. F., Ieno, E. N., Walker, N., Saveliev, A. A., & Smith, G. M. (2009). Mixed effects models and extensions in ecology with r. Springer.