Maschinelles Lernen prägt zunehmend die Forschung in den Digital Humanities und bietet leistungsstarke Werkzeuge zur Analyse und Anreicherung von Textdaten. Mithilfe der Python-Bibliothek BERTopic werden die Teilnehmer:innen verschiedene Schritte des Topic Modelling erkunden. Aufbauend auf der modularen Architektur von BERTopic werden die Teilnehmer:innen in verschiedene wesentliche Methoden des maschinellen Lernens eingeführt, wie z.B. Einbettung (embedding), Dimensionsreduktion (dimensionality reduction) und Clustering. Durch praktische Übungen lernen die Teilnehmer:innen diese Techniken auf historische Texte anzuwenden. Ziel ist es, Nicht-Expert:innen einen praktischen Überblick über die Verwendung der BERTopic-Bibliothek und die grundlegende Theorie hinter ihren Modulen zu vermitteln.
Das Seminar richtet sich sowohl an Studierende als auch an Forschende, die sich für die Schnittstelle zwischen digitaler wissenschaftlicher Edition und maschinellem Lernen interessieren. Nach dem Besuch des Kurses werden die Teilnehmer:innen über ein grundlegendes Verständnis von Algorithmen des maschinellen Lernens verfügen und in der Lage sein, ihre Anwendungsmöglichkeiten sowie ihre Stärken und Grenzen einzuschätzen. Die Teilnehmer:innen werden in der Lage sein, BERTopic praktisch auf ihre eigenen Daten anzuwenden.
Nähere Informationen unter: https://dhgraz.github.io/clariah2025-dse-ml/