… können direkt in den Code eingegeben werden. Eine csv-Datei im Long-Format ist ebenfalls möglich.
Boxplot
boxplot(growth ~ treat, data = algae)abline(h =0, lty ="dashed", col ="grey")
Streifendiagramm
stripchart(growth ~ treat, data = algae, vertical =TRUE)
Besser, denn wir haben nur 2-3 Wiederholungen. Boxplot braucht mehr.
Umwandlung einer wissenschaftlichen Frage in eine statistische Hypothese
Wissenschaftliche Fragen
Sind die Behandlungen unterschiedlich?
Welches Medium ist das beste?
Ist das beste Medium signifikant besser als die anderen?
Statistische Hypothesen
\(H_0\): das Wachstum ist bei allen Behandlungen gleich
\(H_A\): Unterschiede zwischen den Medien
Warum können wir nicht einfach mehrere t-Tests anwenden?
Wenn wir 7 Behandlungen haben und alle gegeneinander testen wollen, brauchen wir:
\[7 \cdot (7 - 1) / 2 = 21 \qquad\text{Tests.}\]
Wenn wir \(\alpha = 0,05\) setzen, erhalten wir 5% falsch positive Ergebnisse. \(\Rightarrow\)Einer von 20 Tests ist im Durchschnitt ein falsch positiver
Wenn wir \(N\) Tests durchführen, erhöht sich der Gesamtfehler von \(\alpha\) im schlimmsten Fall auf \(N\cdot\alpha\).
Dies wird alpha-Fehler-Inflation oder das Bonferroni-Gesetz genannt:
\[
\alpha_{total} \le \sum_{i=1}^{N} \alpha_i = N \cdot \alpha
\]
Wenn wir das Bonferroni-Gesetz ignorieren, landen wir beim statistischen Fischen und erhalten zufällige falsche Ergebnisse.
Lösungen
Korrigiere die Alpha-Fehler nach unten, so dass \(\alpha_{total} = 0,05\). \(\rightarrow\) Bonferroni-Regel.
Verwende eine Methode, die alle Tests gleichzeitig durchführt: die ANOVA.
ANOVA: Analyse der Varianzen
Grundgedanke
Aufteilung der Gesamtvarianz in Wirkung(en) und Fehler:
Etwas überraschend: Wir verwenden Varianzen, um Mittelwerte zu vergleichen.
Erklärung: Mittelwertunterschiede tragen zur Gesamtvarianz der ganzen Stichprobe bei.
Die Varianzkomponenten können als Varianz innerhalb (\(s^2_\varepsilon\)) und Varianz zwischen Stichproben bezeichnet werden.
Die Art und Weise, wie man die Varianzen trennt, ist ein lineares Modell.
Beispiel
Zwei Marken von Clementinenfrüchten aus einem Geschäft „E“, die wir als „EB“ und „EP“ kodieren. Wir wollen wissen, ob die Premiummarke („P“) und die Basismarke („B“) ein unterschiedliches Gewicht haben.
plot(weight ~ code, data = clem, axes =FALSE)m <-lm(weight ~ code, data = clem)axis(1, at =c(1,2), labels =c("EB", "EP")); axis(2); box()abline(m, col ="blue")
Varianzkomponenten
Wir passen ein lineares Modell an und vergleichen die Varianzen:
m <-lm(weight ~ code, data = clem)
Gesamtvarianz
(var_tot <-var(clem$weight))
[1] 68.98814
Restvarianz (= innere Varianz)
(var_res <-var(residuals(m)))
[1] 43.25
Erklärte Varianz (= Zwischenvarianz)
var_tot - var_res
[1] 25.73814
Nun können wir analysieren, ob die Zwischenvarianz groß genug ist, um einen signifikanten Effekt zu begründen.
Dies nennt man eine ANOVA.
ANOVA
anova(m)
Analysis of Variance Table
Response: weight
Df Sum Sq Mean Sq F value Pr(>F)
code 1 566.24 566.24 12.497 0.001963 **
Residuals 21 951.50 45.31
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ein t-Test zum Vergleich
t.test(weight ~ code, data = clem, var.equal=TRUE)
Two Sample t-test
data: weight by code
t = 3.5351, df = 21, p-value = 0.001963
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
4.185911 16.147423
sample estimates:
mean in group 1 mean in group 2
95.50000 85.33333
\(\Rightarrow\) die p-Werte sind genau gleich.
ANOVA mit mehr als 2 Stichproben
Zurück zu den Daten über das Algenwachstum. Nennen wir das lineare Modell „m“:
m <-lm(growth ~ treat, data = algae)
Wir können die Koeffizienten des linearen Modells mit summary(m) ausgeben.
Wir interessieren uns aber für den Gesamteffekt und verwenden anova.
anova(m)
Analysis of Variance Table
Response: growth
Df Sum Sq Mean Sq F value Pr(>F)
treat 6 2.35441 0.39240 25.045 1.987e-06 ***
Residuals 13 0.20368 0.01567
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Die ANOVA-Tabelle zeigt F-Tests, die die Signifikanz aller Faktoren prüfen.
In der obigen Tabelle haben wir nur einen einzigen Faktor.
\(\Rightarrow\) Wir sehen, dass die Behandlung einen signifikanten Effekt hat.
Posthoc-Tests
Der Test zeigte, dass der Faktor „Behandlung“ einen signifikanten Effekt hatte.
Wir wissen noch nicht, welche Faktorlevel unterschiedlich waren.
Der Tukey-HSD-Test ist der häufigste.
tk <-TukeyHSD(aov(m))tk
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = m)
$treat
diff lwr upr p adj
F. open-Fertilizer 0.91500000 0.56202797 1.26797203 0.0000103
F.+sugar-Fertilizer 0.19266667 -0.16030537 0.54563870 0.5211198
F.+CaCO3-Fertilizer 0.46900000 0.11602797 0.82197203 0.0069447
Bas.med.-Fertilizer 0.85066667 0.49769463 1.20363870 0.0000231
A.dest-Fertilizer 0.15000000 -0.20297203 0.50297203 0.7579063
Tap water-Fertilizer 0.13666667 -0.25796806 0.53130140 0.8837597
F.+sugar-F. open -0.72233333 -1.07530537 -0.36936130 0.0001312
F.+CaCO3-F. open -0.44600000 -0.79897203 -0.09302797 0.0102557
Bas.med.-F. open -0.06433333 -0.41730537 0.28863870 0.9943994
A.dest-F. open -0.76500000 -1.11797203 -0.41202797 0.0000721
Tap water-F. open -0.77833333 -1.17296806 -0.38369860 0.0001913
F.+CaCO3-F.+sugar 0.27633333 -0.07663870 0.62930537 0.1727182
Bas.med.-F.+sugar 0.65800000 0.30502797 1.01097203 0.0003363
A.dest-F.+sugar -0.04266667 -0.39563870 0.31030537 0.9994197
Tap water-F.+sugar -0.05600000 -0.45063473 0.33863473 0.9985686
Bas.med.-F.+CaCO3 0.38166667 0.02869463 0.73463870 0.0307459
A.dest-F.+CaCO3 -0.31900000 -0.67197203 0.03397203 0.0879106
Tap water-F.+CaCO3 -0.33233333 -0.72696806 0.06230140 0.1247914
A.dest-Bas.med. -0.70066667 -1.05363870 -0.34769463 0.0001792
Tap water-Bas.med. -0.71400000 -1.10863473 -0.31936527 0.0004507
Tap water-A.dest -0.01333333 -0.40796806 0.38130140 0.9999997
Grafische Darstellung
par(las =1) # las = 1 macht y-Anmerkung horizontalpar(mar =c(4, 10, 3, 1)) # mehr Platz auf der linken Seite für Achsenbeschriftungenplot(tk)
ANOVA Annahmen und Diagnosen
Für die ANOVA gelten dieselben Annahmen wie für das lineare Modell.
Unabhängigkeit von Fehlern
Homogenität der Varianz
Annähernde Normalität der Fehler
Grafische Überprüfungen werden bevorzugt.
par(mfrow=c(2, 2))plot(m)
Numerische Tests
Test der Varianzhomogenität
Der F-Test vergleicht nur zwei Varianzen.
Verschiedene Tests für multiple Varianzen, z.B. Bartlett, Levene, Fligner-Killeen
Empfohlen: Fligner-Killeen-Test
fligner.test(growth ~ treat, data = algae)
Fligner-Killeen test of homogeneity of variances
data: growth by treat
Fligner-Killeen:med chi-squared = 4.2095, df = 6, p-value = 0.6483
Test der Normalverteilung
Der Shapiro-Wilks-Test kann irreführend sein.
Verwende eine grafische Methode!
qqnorm(residuals(m))qqline(residuals(m))
Einseitige ANOVA mit heterogenen Varianzen
Erweiterung des Welch-Tests für \(\ge 2\) Stichproben
in R genannt oneway.test
oneway.test(growth ~ treat, data = algae)
One-way analysis of means (not assuming equal variances)
data: growth and treat
F = 115.09, num df = 6.0000, denom df = 4.6224, p-value = 6.57e-05
Zweiseitige ANOVA
Beispiel aus einem Statistik-Lehrbuch (Crawley, 2002), angewandt auf einen neuen Kontext
Auswirkungen von Dünger und Lichtregime auf das Wachstum der Pflanzenhöhe in cm pro Zeit
Dünger
helles Licht
schwaches Licht
A
8.3
6.6
A
8.7
7.2
B
8.1
6.9
B
8.5
8.3
C
9.1
7.9
C
9.0
9.2
faktorielles Experiment (mit Wiederholungen): jede Faktorkombination hat mehr als eine Beobachtung.
ohne Wiederholungen:
keine Wiederholungen pro Faktorkombination
dies ist möglich, erlaubt aber keine Identifizierung von Wechselwirkungen
Im Folgenden sind die rohen p-Werte ohne Korrektur dargestellt:
c(p1, p2, p3)
[1] 0.576275261 0.027378832 0.001190592
… und mit Holm-Korrektur:
p.adjust(c(p1, p2, p3))
[1] 0.576275261 0.054757664 0.003571775
Schlussfolgerungen
Statistische Methoden
Im Falle der Holm-korrigierten t-Tests bleibt nur ein einziger p-Wert (MCYST vs. Subst A) signifikant. Dies zeigt, dass die Holm-Methode in diesem Fall konservativer ist als TukeyHSD (nur ein signifikanter Effekt im Vergleich zu zwei signifikanten).
Eine ANOVA mit Posthoc-Test ist im Allgemeinen vorzuziehen,
aber die sequentielle Holm-Bonferroni-Methode kann in besonderen Fällen hilfreich sein.
Außerdem zeigt es deutlich, dass massive Mehrfachtests vermieden werden müssen.
\(\Rightarrow\) ANOVA ist zu bevorzugen, wenn möglich.
Interpretation
Hinsichtlich unserer ursprünglichen Hypothese können wir feststellen, dass MCYST und SubstA das Wachstum von Pseudanabaena nicht hemmen. Vielmehr stimulierte SubstA das Wachstum.
Dies widersprach unseren Erwartungen - der biologische Grund wurde dann 10 Jahre später gefunden.
Mehr dazu ist zu finden in Jähnichen et al. (2001), Jähnichen et al. (2007), Jähnichen et al. (2011), Zilliges et al. (2011) oder Dziallas & Grossart (2011).
ANCOVA
Statistische Frage
Vergleich von Regressionslinien
Ähnlich wie bei der ANOVA, enthält aber auch metrische Variablen (Kovariaten)
Beispiel
Annette Dobsons Daten zum Geburtsgewicht. Ein Datensatz aus einem Statistik-Lehrbuch (Dobson, 2013), Geburtsgewicht von Jungen und Mädchen in Abhängigkeit von der Schwangerschaftswoche.
Der Datensatz zum Geburtsgewicht
Der Datensatz ist an verschiedenen Stellen im Internet und in verschiedenen Versionen zu finden.
Hier die Version, die in einer R-Demo zu finden ist: demo(lm.glm)
t.test(weight ~ gender, data = dobson, var.equal =TRUE)
Two Sample t-test
data: weight by gender
t = 0.97747, df = 22, p-value = 0.339
alternative hypothesis: true difference in means between group M and group F is not equal to 0
95 percent confidence interval:
-126.3753 351.7086
sample estimates:
mean in group M mean in group F
3024.000 2911.333
Der Boxplot zeigt viele Überschneidungen, und der Unterschied ist nicht signifikant, weil der t-Test wichtige Informationen außer Acht lässt: die Schwangerschaftswoche.
ANCOVA verwendet Kovariaten
m <-lm(weight ~ week * gender, data = dobson)anova(m)
p-Werte können verzerrt sein (d. h. irreführend oder falsch)
Verwendung einer einseitigen ANOVA für ungleiche Varianzen (in R: oneway.test)
Unausgeglichener Fall: Ungleiche Anzahl von Stichproben für jede Faktorkombination \(\rightarrow\) Die Ergebnisse der ANOVA hängen von der Reihenfolge der Faktoren in der Modellformel ab.
Klassische Methode: Typ II oder Typ III ANOVA
Moderner Ansatz: Modellauswahl und Likelihood-Ratio-Tests
Typ II und Typ III ANOVA
Funktion Anova (mit Großbuchstabe A) im Paket car
Hilfsdatei der Funktion Anova:
„Typ-II-Tests werden nach dem Prinzip der Marginalität berechnet, wobei jeder Term nach allen anderen getestet wird, ohne die Verwandten höherer Ordnung zu berücksichtigen; so genannte Typ-III-Tests verletzen die Marginalität, indem sie jeden Term im Modell nach allen anderen testen.“
Schlussfolgerung: Verwende Typ II und nicht Typ III.
Versuche nicht, einzelne Terme im Falle signifikanter Wechselwirkungen zu interpretieren.
Typ II ANOVA: Beispiel
library("car")m <-lm(growth ~ light * fert, data = plants)Anova(m, type="II")
Modell mit dem kleinsten AIC \(\rightarrow\) optimales Modell.
anova(opt)
Analysis of Variance Table
Response: growth
Df Sum Sq Mean Sq F value Pr(>F)
fert 2 2.6600 1.33000 3.7246 0.07190 .
light 1 2.6133 2.61333 7.3186 0.02685 *
Residuals 8 2.8567 0.35708
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
p < 0.05 \(\rightarrow\) signifikant
Ergebnisse des Beispiels:
optimales Modell (m2, opt), enthält beide Faktoren fert und light, aber keine Interaktion.
Die Modellauswahl hat fert und light als notwendige erklärende Variablen identifiziert, im Gegensatz zur klassischen ANOVA-Tabelle, in der nur light signifikant ist.
Signifikanztests?
Das Konzept der Modellauswahl überlagert die p-Wert-basierte Statistik.
Einige Autoren raten generell davon ab, p-Werte in diesem Zusammenhang zu verwenden, andere empfehlen einen Kompromiss.
Wenn man einen p-Wert erhalten möchte, sollte man das optimale Modell mit weiteren reduzierten Modellen vergleichen, die p-Werte aber dennoch mit Vorsicht interpretieren:
anova(m2, m1a) # fertanova(m2, m1b) # light
In jedem Fall gilt: Konzentriere dich auf die praktischen Implikationen und vergiss nicht, die Effektgrößen anzugeben!
Zusammenfassung des Kapitels ANOVA
Lineare Modelle bilden die Grundlage für viele statistische Methoden.
Lineare Regression
ANOVA, ANCOVA, GLM, GAM, GLMM, . . .
ANOVA/ANCOVA anstelle von Mehrfachtests
ANOVA ist leistungsfähiger als Mehrfachtests:
vermeidet \(\alpha\)-Fehlerinflation
ein großes Experiment benötigt weniger n als viele kleine Experimente
Identifizierung von Interaktionseffekten
Eliminierung von Kovariaten
Modellauswahl vs. p-Wert-basierte Tests
Paradigmenwechsel in der Statistik: AIC anstelle des p-Wertes
zuverlässiger, insbesondere bei unausgewogenen oder komplexen Designs
erweiterbar auf generalisierte, additive und gemischte Modelle (GLM, GAM, LME, GLMM, …)
aber: p-Wert-basierte Tests sind manchmal leichter zu verstehen
Vermeide Manipulation von p-Werten
Experimente NICHT wiederholen, bis ein signifikanter p-Wert gefunden wird.
Die hochrangige Zeitschrift „… Nature hat einflussreiche Statistiker gebeten, eine Änderung zur Verbesserung der Wissenschaft zu empfehlen. Das gemeinsame Thema? Das Problem ist nicht unsere Mathematik, sondern wir selbst.“ (Leek et al. (2017)):
Fünf Wege, Statistiken zu verbessern. Kommentar zur Nature
Jeff Leek: Anpassung an die menschliche Kognition
Blakeley B. McShane & Andrew Gelman: Verzicht auf statistische Signifikanz
David Colquhoun: Auch falsch-positives Risiko angeben
Michèle B. Nuijten: Analysepläne und Ergebnisse mitteilen
Steven N. Goodman: Normen von innen heraus ändern
Selbststudium
Lies das Paper von Johnson & Omland (2004) um mehr über das Paradigma der Modellauswahl zu erfahren.
Dobson, A. J. (2013). Introduction to statistical modelling. Springer.
Dziallas, C., & Grossart, H.-P. (2011). Increasing Oxygen Radicals and Water Temperature Select for Toxic Microcystis sp. PLoS ONE, 6(9), e25569. https://doi.org/10.1371/journal.pone.0025569
Holm, S. (1979). A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics, 65–70. https://www.jstor.org/stable/4615733
Jähnichen, S., Ihle, T., Petzoldt, T., & Benndorf, J. (2007). Impact of Inorganic Carbon Availability on Microcystin Production by Microcystis aeruginosa PCC 7806. Applied and Environmental Microbiology, 73(21), 6994–7002. https://doi.org/10.1128/AEM.01253-07
Jähnichen, S., Long, B. M., & Petzoldt, T. (2011). Microcystin production by Microcystis aeruginosa: Direct regulation by multiple environmental factors. Harmful Algae, 12, 95–104. https://doi.org/10.1016/j.hal.2011.09.002
Jähnichen, S., Petzoldt, T., & Benndorf, J. (2001). Evidence for control of microcystin dynamics in Bautzen Reservoir (Germany) by cyanobacterial population growth rates and dissolved inorganic carbon. Fundamental and Applied Limnology, 150(2), 177–196. https://doi.org/10.1127/archiv-hydrobiol/150/2001/177
Johnson, G., Jerald, & Omland, K. S. (2004). Model Selection in Ecology and Evolution. Trends in Ecology and Evolution, 19(2), 101–108. https://doi.org/10.1016/j.tree.2003.10.013
Zilliges, Y., Kehr, J.-C., Meissner, S., Ishida, K., Mikkat, S., Hagemann, M., Kaplan, A., Börner, T., & Dittmann, E. (2011). The Cyanobacterial Hepatotoxin Microcystin Binds to Proteins and Increases the Fitness of Microcystis under Oxidative Stress Conditions. PLoS ONE, 6(3), e17615. https://doi.org/10.1371/journal.pone.0017615