1 Eine Datenanalyseumgebung einrichten
Positron, R, Python und Quarto
Bevor die eigentliche Datenanalyse und Schreibarbeit beginnen kann, braucht ihr eine funktionsfähige Arbeitsumgebung. Diese Übung führt euch Schritt für Schritt durch die Installation und Einrichtung aller benötigten Werkzeuge: von R und Python über die Entwicklungsumgebung Positron bis hin zu Quarto für reproduzierbare Berichte. Am Ende überprüft ihr mit einem kleinen Testszenario, dass alles reibungslos zusammenarbeitet, und denkt darüber nach, warum ihr diese Werkzeuge statt verbreiteter Alternativen wie Excel oder Word einsetzt.
Schritt 1: R installieren
R ist die primäre Sprache für diesen Kurs. Sie deckt den gesamten Analyseprozess ab: Daten einlesen, bereinigen, analysieren und visualisieren.
1. Öffnet die Website cran.r-project.org und ladet die aktuelle R-Version für euer Betriebssystem herunter. Führt das Installationsprogramm mit den Standardeinstellungen aus.
Für Windows gibt es einen einfachen Installer unter Download R for Windows → base. Unter macOS ladet ihr das .pkg-Paket herunter. Auf Ubuntu/Debian-Linux ist R über den Paketmanager verfügbar (sudo apt install r-base) und automatisch im PATH.
Neuere R-Versionen fügen sich unter Windows automatisch zum PATH hinzu. Falls R --version im Terminal dennoch nicht funktioniert, öffnet RGui über das Startmenü, führt R.home("bin") aus und tragt den angezeigten Pfad manuell in Systemsteuerung → System → Erweiterte Systemeinstellungen → Umgebungsvariablen → Path ein.
2. Überprüft die Installation: Öffnet ein Terminal (unter Windows z. B. PowerShell) und gebt R.exe --version ein. Welche Version wird angezeigt?
Die Ausgabe sollte z. B. R version 4.5.2 (2025-04-11) zeigen. Unter Windows ist R.exe statt R wichtig: PowerShell hat r als Alias für den Befehl Invoke-History definiert, der Vorrang vor dem Programm im PATH hat. Mit der .exe-Extension umgeht ihr diesen Alias. Alternativ könnt ihr R über das Startmenü öffnen (RGui) und dort R.version.string in der Konsole ausführen.
Schritt 2: Python installieren
Python verwenden wir als Ergänzung zu R, vor allem für den Zugriff auf KI-Modelle und Python-Bibliotheken, die keine direkte R-Entsprechung haben.
3. Ladet die neueste Version von Python von python.org herunter. Achtet bei der Installation unter Windows darauf, die Option Add Python to PATH zu aktivieren. Führt das Installationsprogramm mit den Standardeinstellungen aus.
Unter macOS empfiehlt sich die Installation über Homebrew: brew install python. Wer bereits pyenv oder conda verwendet, kann diese Umgebungsmanager weiternutzen, sollte aber sicherstellen, dass Positron die Python-Installation automatisch erkennt.
4. Öffnet ein Terminal und überprüft die Python-Installation mit python --version (unter macOS und Linux ggf. python3 --version). Stellt sicher, dass die angezeigte Version \(\geq\) 3.12 ist.
Falls nur eine ältere Version angezeigt wird oder der Befehl nicht gefunden wird, prüft, ob Python korrekt zur PATH-Variable hinzugefügt wurde. Unter Windows öffnet die Systemsteuerung und sucht nach Umgebungsvariablen bearbeiten.
Schritt 3: Positron installieren
Positron ist eine auf Data Science ausgerichtete Entwicklungsumgebung, die auf dem VS-Code-Unterbau aufbaut und R und Python gleichwertig unterstützt. Im Vergleich zu RStudio bietet Positron modernere Editor-Features und eine bessere Python-Integration.
5. Ladet Positron von positron.posit.co herunter und installiert es. Startet Positron nach der Installation und prüft in der Statusleiste unten im Fenster, ob eure R-Version automatisch erkannt wurde.
Positron sucht automatisch nach R-Installationen in den üblichen Systempfaden. Falls R nicht erkannt wird, könnt ihr den Pfad manuell setzen: Öffnet die Einstellungen (Strg+, bzw. Cmd+,) und sucht nach “R: Path”.
6. Macht euch mit der Benutzeroberfläche vertraut. Öffnet ein neues R-Skript (File → New File → R File) und führt 1 + 1 in der Konsole aus. Findet heraus, wo die Bereiche Console, Variables (Umgebungsanzeige) und Explorer (Dateimanager) zu finden sind. Wozu werden sie jeweils verwendet?
Schritt 4: Ein Projekt einrichten
Gut organisierte Projekte sind die Grundlage reproduzierbarer Analysen. Jedes Projekt bekommt seine eigene Ordnerstruktur und eine isolierte Paketumgebung über renv.
7. Erstellt einen neuen Ordner setup-test an einem sinnvollen Ort auf eurem Computer. Öffnet diesen Ordner in Positron über File → Open Folder. Überprüft in der R-Konsole mit getwd(), dass das Arbeitsverzeichnis auf den geöffneten Ordner zeigt.
In Positron gibt es keine Projektdateien wie .Rproj — der geöffnete Ordner ist das Projekt. Solange der Ordner in Positron geöffnet ist, setzt die R-Konsole das Arbeitsverzeichnis automatisch auf diesen Ordner.
8. Initialisiert eine isolierte Paketumgebung mit renv. Öffnet die R-Konsole im Projekt und führt renv::init() aus. Überprüft anschließend mit renv::status(), dass die Umgebung korrekt eingerichtet wurde.
renv::init() legt im Projektverzeichnis einen renv/-Ordner und eine renv.lock-Datei an. Die Lock-Datei protokolliert alle verwendeten Pakete und ihre Versionen. Mit renv::restore() kann jede Person, die das Projekt erhält, dieselbe Paketumgebung reproduzieren.
9. Installiert die folgenden Grundpakete für alle Kurse: tidyverse, janitor und skimr. Verwendet das Metapaket pacman, das ihr zuerst installieren müsst, falls es noch nicht vorhanden ist. Überprüft nach der Installation, dass alle drei Pakete fehlerfrei geladen werden können.
pacman::p_load() installiert fehlende Pakete bei Bedarf automatisch und lädt alle angegebenen Pakete in einem Schritt.
Schritt 5: Quarto einrichten und testen
Quarto ist das System, mit dem ihr in diesem Kurs Analysen als reproduzierbare Berichte dokumentiert. In diesem Schritt erstellt ihr ein kleines Testdokument, das gleichzeitig sicherstellt, dass R, Pakete und Quarto korrekt zusammenarbeiten.
10. Überprüft, ob Quarto verfügbar ist. Öffnet das integrierte Terminal in Positron (Terminal → New Terminal) und gebt quarto --version ein. Quarto wird normalerweise zusammen mit Positron mitgeliefert.
Die Ausgabe sollte eine Versionsnummer wie 1.10.x oder neuer zeigen. Falls Quarto nicht gefunden wird, könnt ihr es separat von quarto.org herunterladen. In Positron ist es in der Regel bereits enthalten.
11. Erstellt im Projektverzeichnis eine neue Datei setup-test.qmd (File → New File → Quarto Document). Tragt im YAML-Header den Titel "Setup-Test" ein und setzt format: html. Fügt dann einen R-Code-Block hinzu, der tidyverse lädt und ein Streudiagramm aus dem eingebauten Datensatz mtcars erzeugt: Fahrzeuggewicht (wt) auf der x-Achse und Kraftstoffverbrauch (mpg) auf der y-Achse.
Ein minimales setup-test.qmd sieht so aus:
12. Rendert das Dokument zu HTML: Klickt auf den Render-Button in der Werkzeugleiste oder führt im Terminal quarto render setup-test.qmd aus. Öffnet die erzeugte HTML-Datei und prüft, ob der Plot korrekt angezeigt wird.
Wenn das Rendern fehlschlägt, lest die Fehlermeldung sorgfältig:
- Fehler beim Laden von
tidyverse→ Paket noch nicht installiert:install.packages("tidyverse")ausführen. - Quarto findet R nicht → Neustart von Positron versuchen oder den R-Pfad in den Einstellungen prüfen.
Ein erfolgreich gerendertes Dokument öffnet sich automatisch im Viewer-Bereich von Positron oder im Browser.
13. Rendert das Testdokument ein zweites Mal als PDF: Ändert im YAML-Header format: html auf format: pdf und rendert erneut. Quarto installiert dabei ggf. automatisch TinyTeX (eine kompakte LaTeX-Distribution). Vergleicht das PDF mit der HTML-Version: Sehen beide inhaltlich identisch aus?
TinyTeX kann beim ersten PDF-Rendering einige Minuten zum Herunterladen benötigen. Falls die automatische Installation fehlschlägt, installiert TinyTeX manuell:
Schritt 6: Typst installieren (optional)
14. Ein weiteres spannendes Schreibwerkzeug, das textbasiert arbeitet, ist Typst. Es bietet eine moderne, einfach zu erlernende Alternative zu LaTeX mit einer einfacheren Syntax und schnellerem Rendering. In diesem Buch werden wir hauptsächlich mit Quarto arbeiten, weil es wunderbar mit der Arbeit mit Daten harmoniert. Wer aber neugierig ist, kann Typst als Ergänzung installieren und ausprobieren.
Typst ist lediglich ein Komamndozeilentool, das ein in der Sprache Typst geschriebenen Dokument in ein PDF rendern kann. Ihr könnt es auf verschiedene Weise installieren. Hier geht es zum Download.
Schritt 7: Kleine Zusatzhelfer
Neben den Kernwerkzeugen gibt es einige Ergänzungen, die euch die tägliche Arbeit erheblich erleichtern.
15. Installiert Git von git-scm.com (Windows) oder über Homebrew (brew install git, macOS). Konfiguriert anschließend euren Namen und eure Hochschul-E-Mail und überprüft mit git --version, dass Git gefunden wird.
git config --global user.name "Euer Vorname Nachname"
git config --global user.email "euer.name@hs-osnabrueck.de"
git --version
Git wird im Kurs für die Versionskontrolle eurer Analyseprojekte verwendet. Damit könnt ihr Änderungen nachverfolgen und ältere Projektzustände wiederherstellen.
16. Aktualisiert den renv-Snapshot eures Projekts, um alle neu installierten Pakete in der Lock-Datei zu erfassen.
Nach dem Snapshot enthält die renv.lock-Datei alle Pakete mit ihren exakten Versionen. Checkt ihr das Projekt in Git ein, können andere die Umgebung mit renv::restore() exakt reproduzieren.
17. Informiert euch über KI-Assistenten für die Programmierung. Im Kurs werden wir gelegentlich Claude Code (Anthropic), Codex (OpenAI) oder GitHub Copilot (Microsoft) als VS-Code-Erweiterung verwenden. Recherchiert kurz, was die beiden Tools können, und notiert, wie sich KI-Assistenten eurer Meinung nach auf das Erlernen von Programmierung auswirken könnten, sowohl positiv als auch negativ.
Claude Code ermöglicht es, Programmieraufgaben im Dialog mit einem Sprachmodell zu lösen und Fehlermeldungen erklären zu lassen. GitHub Copilot schlägt Code-Ergänzungen direkt im Editor vor.
KI-Assistenten können beim Einstieg helfen, indem sie Beispiele liefern und Konzepte erklären. Die Gefahr besteht darin, Code zu übernehmen, ohne ihn zu verstehen. Eine gute Faustregel: KI nutzen, um Ideen und Erklärungen zu erhalten, aber generierten Code stets selbst nachvollziehen und anpassen.
Schritt 8: Reflexion
18. Vergleicht R mit Tabellenkalkulationsprogrammen wie Microsoft Excel. Welche Aufgaben lassen sich in Excel gut erledigen? Für welche Aufgaben ist R klar im Vorteil? Nennt mindestens zwei Stärken von R gegenüber Excel und überlegt, ob es auch Szenarien gibt, in denen Excel die bessere Wahl ist.
R hat klare Vorteile bei großen Datensätzen (Excel ist auf ca. 1 Mio. Zeilen begrenzt), bei wiederholbaren und automatisierten Analysen und bei der Reproduzierbarkeit. Jeder Analyseschritt ist als Code dokumentiert und kann auf neue Daten angewendet werden, ohne manuell wiederholt zu werden.
Excel ist hingegen intuitiv für schnelle Summen, einfache Pivot-Tabellen oder das Nachschlagen einzelner Werte und braucht keine Programmierkenntnisse. In vielen Unternehmen ist es zudem das am weitesten verbreitete Werkzeug für einfache Datenhaltung und Reporting.
19. Vergleicht R (mit ggplot2) mit Visualisierungstools wie Tableau oder Power BI. Was können diese Tools, was R nur schwer kann? Und umgekehrt: Was spricht für den Einsatz von ggplot2?
Tableau und Power BI bieten interaktive Dashboards per Drag-and-drop, die ohne Programmierkenntnisse erstellt und von Endnutzerinnen und Endnutzern exploriert werden können.
Mit ggplot2 hat man deutlich mehr Kontrolle über Darstellung und statistische Transformation, kann Visualisierungen als Teil eines reproduzierbaren Workflows einbetten und eigene Themen und Stile konsequent durchsetzen. Zudem sind R und ggplot2 kostenlos und Open Source, während Tableau und Power BI Lizenzkosten verursachen.
20. Vergleicht Quarto mit Textverarbeitungsprogrammen wie Microsoft Word. Was sind die zentralen Unterschiede im Arbeitsablauf? Welche Vorteile bietet Quarto bei der Erstellung wissenschaftlicher oder technischer Berichte, welche Nachteile hat es?
In Word schreibt man Text und fügt Ergebnisse wie Tabellen und Grafiken manuell ein. Ändert sich die Datenlage, müssen alle Elemente manuell aktualisiert werden, was fehleranfällig ist. Quarto verbindet Code und Bericht in einer Datei: Beim Rendern werden alle Ergebnisse automatisch neu berechnet.
Nachteile von Quarto: Die Einstiegshürde ist höher, kollaboratives Bearbeiten mit Kommentarfunktion ist in Word intuitiver, und für rein textliche Dokumente ohne Analyseanteil bleibt Word oft die praktischere Wahl.
21. Welche Bedeutung hat Reproduzierbarkeit für wissenschaftliche Analysen? Erläutert, wie die in diesem Experiment eingerichteten Werkzeuge (R, Quarto, renv, Git) gemeinsam dazu beitragen, dass Analysen reproduzierbar sind.
Reproduzierbarkeit bedeutet, dass eine Analyse mit denselben Daten und demselben Code zu denselben Ergebnissen führt, unabhängig davon, wer sie ausführt und wann. Das ist ein Grundprinzip wissenschaftlicher Arbeit.
Die eingerichteten Werkzeuge unterstützen das auf vier Ebenen:
- R dokumentiert alle Analyseschritte als ausführbaren Code, ohne manuelles Klicken oder Kopieren.
- Quarto verbindet Code und Bericht in einer Datei; beim Rendern werden Ergebnisse automatisch neu berechnet.
- renv stellt über die
renv.lock-Datei sicher, dass dieselben Paketversionen überall installierbar sind. - Git hält die Versionshistorie fest und ermöglicht es, jeden früheren Projektzustand exakt wiederherzustellen.
Zusatzmaterial
Zu diesem Experiment gibt es folgendes Zusatzmaterial: