Graduiertenkolleg DFG 1624 | Workshop "Linear mixed models using R" mit Harald Baayen

DE | EN

Workshop "Linear mixed models using R" mit Harald Baayen

Dozent(en)

Harald Baayen

Termin

25.-26. März 2010

Sitzungen

25.-26. März 2010, jeweils 9-12 Uhr und 13:30-16 uhr

Inhalte

- mixed models
- classification trees
- random forests

Teilnahmevoraussetzungen:

- Grundkenntnisse in R
- Eigener Laptop mit installiertem R
- Einbinung der folgenden Librarys in R: languageR, lme4, party (and its many dependencies), Design, HMisc

Bericht

Am 25./26.3.2010 beehrte Harald Baayen (University of Alberta) das Graduiertenkolleg Frequenzeffekte mit seinem Besuch. In einem zweitägigen Workshop führte er ca. 25 interessierte Teilnehmer_innen in verschiedene Aspekte der Analyse linguistischer Daten mit der Statistiksoftware R ein.

Dazu wurde am ersten Tag zunächst ein fiktiver Datensatz erstellt, anhand dessen die Logik und Funktionsweise linearer Modelle praktisch nachvollzogen werden konnte. Die Grundlagen der Analysemethode wurden Schritt für Schritt eingeführt, indem Modelle unterschiedlicher Komplexität an die Daten angepasst wurden. Darauf aufbauend wurden die zusätzlichen Möglichkeiten der Anwendung von linear mixed-effects modeling (Pinheiro & Bates 2000) mithilfe des gleichen Datensatzes deutlich gemacht und anschließend an realen Daten exemplifiziert.

Am zweiten Tag stand die Arbeit mit Korpusdaten einer freiwilligen Kursteilnehmerin (Marjoleine Sloos) im Vordergrund. Dabei wurden die zunächst roh vorliegenden Daten in R eingelesen und für die Analyse vorbereitet. Dies umfasste die Korrektur fehlerhafter Eingaben sowie die Umkodierung bestehender und Berechnung neuer Variablen.

Anhand des so aufbereiteten Datensatzes wurden die tags zuvor eingeführten Analysemethoden geübt. Zusätzlich wurde eine alternative Möglichkeit der Analyse vorgestellt: Classification trees und die darauf aufbauenden Random Forests. Diese Methoden haben unter anderem den Vorteil, dass keine Varianzhomogenität der Daten gegeben sein muss, wie dies bei den meisten gängigen Analysen der Fall ist. Zur Freude (nicht nur) der Freiwilligen wurden auch direkt interessante Aspekte in den Daten deutlich.

Die gemeinsame Arbeit an den Daten, angefangen von den noch weitgehend unbearbeiteten Rohdaten bis hin zur abschließenden Analyse, war für alle TeilnehmerInnen äußerst hilfreich. Potentielle Fehlerquellen, häufige Tippfehler und viele Probleme, die bei der Arbeit mit realen Daten zu erwarten sind, wurden so deutlich, und Lösungsmöglichkeiten konnten angesprochen werden.

Vor allem die geduldige Beantwortung von Fragen aller Art durch Harald Baayen machte auch für relative R Neulinge die komplexe Thematik nach und nach zugänglich.

1 durch p...

Fazit: "Dataanalysis is so much FUN!" (und hübsche Bilder kommen auch raus:)

Literatur

Pinheiro, J. C. and Bates, D. M. (2000). Mixed-Effects Models in S and S-PLUS. Series: Statistics and Computing. Springer-Verlag.