Doing Data Science
Das Ziel des Doing Data Science Kurses ist es, den Studierenden die Fähigkeiten zu vermitteln, die sie benötigen, um selbst Data Science Projekte aufzusetzen, zu verwalten und durchzuführen.
Die Studierenden erwerben Kenntnisse über Prozesse, die beschreiben, wie Data-Science-Projekte angegangen und umgesetzt werden können. Sie kennen die Schritte von CRISP-DM [1], einem Akronym für Cross-Industry Standard Process for Data Mining, einem standardisierten Prozess, der gemeinsame Ansätze von Data-Mining-Experten beschreibt und kodifiziert: Es ist das am weitesten verbreitete analytische Modell in der Industrie.
Darüber hinaus lernen die Studierenden verschiedene Anwendungsfälle kennen (aus unterschiedlichen Bereichen wie Wirtschaft, Geisteswissenschaften usw.).
Dieser Kurs besteht aus verschiedenen Teilen:
- Teil I: Wie man an Data-Science-Projekte herangeht
- Teil II: Vorzeigebeispiele für Data Science-Projekte
- Tutorial: Einführung in das Data Science Tool KNIME
- Gruppenarbeit: Studierende arbeiten in einer interdisziplinären Gruppe an einem Data-Science-Projekt
KNIME Analytics Platform ist die Open-Source-Software für die Erstellung von Data Science. Die Studierenden können visuelle Workflows mit einer intuitiven grafischen Oberfläche im Drag-and-Drop-Stil erstellen, ohne dass sie kodieren müssen.
Darüber hinaus werden weitere Showcases von Gastrednern im Umfeld des Forschungsnetzwerks Data Science vorgestellt.
Die Projektarbeit gliedert sich in vier Schritte: Im ersten Schritt geben die Studierenden ihre Themenwünsche an, wir versuchen, diese Themenwünsche zu berücksichtigen und weisen die Studierenden einer interdisziplinären Gruppe von 3-4 Mitgliedern zu. Im zweiten Schritt befassen sich die Studierenden mit dem Teil "Projekt- und Datenverständnis" des CRISP-Prozesses und haben das erste Treffen mit ihrem Betreuer. Im dritten Schritt arbeiten die Gruppen an der Phase "Datenaufbereitung und Modellierung" und haben ein zweites Treffen mit den Betreuern. Der letzte Schritt der Projektarbeit besteht aus dem Teil "Datenmodellierung und Auswertung".
Es gibt insgesamt drei Prüfungen - eine schriftliche Zwischenprüfung und eine schriftliche Abschlussprüfung sowie eine mündliche Prüfung in Form von Poster-Pitch-Videos und Diskussionen über die untersuchten Projektthemen.
Am Tag der mündlichen Prüfung sehen sich alle Teilnehmer den Poster-Pitch an und nehmen an einer Fragerunde teil.
Danach sind alle eingeladen, an Wonder* teilzunehmen, einer Online-Plattform für Zusammenkünfte, wo jede Gruppe in einer "Ecke" steht und alle Teilnehmer sich bewegen und einer Gruppe beitreten können, um Fragen zu stellen oder ein Feedback zu geben.
Der Erfolg der LV Doing Data Science wurde mit einem Fragebogen evaluiert. Um herauszufinden, ob die Studierenden die Fragen so verstanden haben, wie wir es erwarteten, führten wir eine Vorstudie mit einigen wenigen Studierenden durch, die den Fragebogen ausfüllten und ihre Reaktionen auf die Fragen mitteilten. Wir erfuhren, dass der Kurs effektiv organisiert war: Vermittlung von Grundkenntnissen, Präsentation von Beispielprojekten, Gruppenarbeit. Die Studenten gaben an, dass sie gerne in Gruppen mit Kollegen mit unterschiedlichem Hintergrund arbeiteten. Außerdem gefiel ihnen die Interaktion während des Unterrichts: Rekapitulation der vergangenen Vorlesungen, Zusammenfassung am Ende, Gruppenräume. Ein wichtiger Aspekt für die Studierenden ist, dass der Dozent hervorhebt, wie die erlernten Konzepte im wirklichen Leben genutzt und angewendet werden können.
* Die Organisation ist auf die aktuelle COVID-19-Verordnung zurückzuführen
[1] R. Wirth und Jochen Hipp. Crisp-dm: Towards a standard process modelfor data mining.Proceedings of the 4th International Conference on thePractical Applications of Knowledge Discovery and Data Mining, 01 2000.
Text Mining for Non-Computer Scientists
Studierende der Geistes-, Sozial-, Sprach- und Rechtswissenschaften interessieren sich für Zeitungsartikel, in denen ein bestimmter Diskurs diskutiert wird. Es gibt eine große Vielfalt an Themen, die die Schüler wählen können. Migration, Armut, Machtverhältnisse, Korruption oder Finanzkrise. Wie verändert sich die Sprache in Zeitungsartikeln vor und nach einschneidenden Ereignissen wie dem arabischen Frühling, 9/11 oder dem Bitcoin-Hype?
- Techniken des Text Mining
- Analyse und Organisation von Korpora
- Grundlagen der natürlichen Sprachverarbeitung
- Clustering von Text
- Werkzeuge zur Visualisierung von Textinhalten
- Verstehen von Kontrollstrukturen in der Python-Programmierung
- Python Spacy-Paket
Die Studierenden erhalten eine Einführung in die lexikometrische Analyse. Diese ist eng mit den Methoden des Text Mining verwandt und kann auf die kritische Diskursanalyse angewendet werden. Diese Metriken helfen den Studierenden, einige über- oder unterrepräsentierte Begriffe in den Zeitungsartikeln zu extrahieren. Die Studierenden werden an einer Fallstudie arbeiten, wobei sie sich auf Textmining-Tools und eine Makroanalyse statt auf die Interpretation konzentrieren werden.
Ein besonderer Schwerpunkt wird auf KNIME liegen, einer freien und quelloffenen Plattform für Datenanalyse, Reporting und Integration. KNIME Analytics Platform ist die Open-Source-Software für die Erstellung von Data Science. Die Studierenden können visuelle Workflows mit einer intuitiven grafischen Oberfläche im Drag-and-Drop-Stil erstellen, ohne dass sie kodieren müssen. Die Studierenden lernen, gängige Methoden des Text Mining mit KNIME anzuwenden und diese Methoden auf individuell zusammengestellte Korpora anzuwenden. Mit einer abschließenden Einführung in Python wollen wir zeigen, dass es von Vorteil sein kann, eine Skriptsprache zu erlernen.
Die Vorlesung wird zum ersten Mal im Wintersemester 2021/22 gehalten. Der Erfolg unserer Vorlesung wird mittels eines Fragebogens evaluiert.