Bei der Weiterentwicklung der Sprachdatenplattform Swiss-AL zu einer Open-Research-Data (ORD) Ressource macht das ZHAW Digital Discourse Lab etwas besser, was KI-basierte Textgenerierungssysteme wie Chat GPT noch nicht beachten – und schafft damit einen Mehrwert für Forscherinnen und Forscher der Angewandten Wissenschaften.
Gastbeitrag von Daniela Baumann, Institut für Angewandte Medienwissenschaft.
Titelbild von Ricardo Farina Mora, Multimediaspezialist ZHAW digital.
KI-basierte Textgenerierungssysteme wie Chat-GPT zeigen, wofür sich grosse Mengen von Textdaten einsetzen lassen. Aus der Perspektive von Open Science lässt sich jedoch viel Kritik an solchen Systemen üben: rechtliche und ethische Probleme werden ignoriert, die Zusammenstellung der verwendeten Daten ist intransparent und keineswegs repräsentativ. Die Evaluation und Reproduktion der Modelle ist daher kaum möglich.
Grösste Sprachsammlung der Schweiz
Mit Swiss-AL, einer Plattform für Sprachdaten für die angewandte Forschung, geht das Digital Discourse Lab des Departements Angewandte Linguistik einen anderen Weg. Die Plattform enthält mit über 4.5 Millionen Texten die grösste Korpusfamilie der Schweiz (DE, FR, IT, RM). Darin enthalten sind Texte von zentralen Akteuren öffentlicher Kommunikation in der Schweiz (z.B. journalistische Medien aus der gesamten Schweiz, Bundes- und kantonale Behörden, Berufsverbände, Universitäten, NGOs), die Forschenden als Datengrundlage für die Untersuchung aktueller gesellschaftlicher Diskurse dienen. Durch die Dokumentation der Datenverarbeitung und die Bereitstellung der Daten trägt Swiss-AL zur aktuellen Open Science Transformation bei.
„Sprachdaten wie Swiss-AL sind für eine grosse Fachcommunity von Interesse. Open Science bedeutet für mich, Swiss-AL für diese Community zugänglich zu machen. Im Projekt ist es uns deswegen wichtig, fachspezifische Forschungspraktiken ernst zu nehmen und einen Zugang zu Swiss-AL zu ermöglichen, mit dem Forschende an eigenen Fragestellungen arbeiten können. Man muss also explizit kein:e Linguist:in sein, um mit Swiss-AL arbeiten zu können!“
Julia Krasselt, Projektleiterin
„Swiss-AL“ fördert den Zugang für alle
Seit Anfang des Jahres wird Swiss-AL im Rahmen der Schweizer Open Science Strategie von der ZHAW und swissuniversities verstärkt gefördert: Im Projekt «Swiss-AL: Linguistic ORD Practices for Applied Sciences» (Swiss-AL-CHORD) wird Swiss-AL zu einer Open-Research-Data Ressource weiterentwickelt. Ziel ist es, die datenbasierte Analyse öffentlicher Kommunikation in der Schweiz für alle Bereiche der angewandten Forschung anzubieten – auch ohne linguistische Kenntnisse.
Dafür arbeitet das Forschungs- und Entwicklungsteam an drei Herausforderungen:
- Wie kann die Plattform weiterentwickelt werden, damit Forschende aus verschiedenen Disziplinen und mit heterogenen Forschungspraktiken Swiss-AL für sich nutzen können?
- Wie kann Swiss-AL gemäss den FAIR-Prinzipien zu einer Open Research Data-Plattform ausgebaut werden und gleichzeitig die dazugehörige Infrastruktur flexibel, stetig wachsend und erweiterbar gestalten?
- Wie können die oben genannten Herausforderungen umgesetzt werden und gleichzeitig dem bestehenden Daten- und Urheberrechtsschutz entsprechen?
Diese Herausforderungen werden im Scientific Panel bearbeitet, bestehend aus Forschenden der verschiedenen ZHAW-Departemente sowie dem CLARIN-CH Konsortium. CLARIN steht für Common Language Resources and Technology Infrastructure und ist ein europäisches Netzwerk, das den Zugang zu digitalen Sprachdaten über eine gemeinsame Schnittstelle ermöglicht. Die gewonnenen Erkenntnisse etwa zu erforderlichen Analyse-Tools und Anleitungen fliessen direkt in die Weiterentwicklung von Swiss-AL zur ORD-Plattform von Sprachdaten für die angewandten Wissenschaften in der Schweiz. Das Projekt läuft von Januar 2023 bis Dezember 2024 und wird vom Digital Discourse Lab der ZHAW geleitet. Das Kernteam besteht aus Dr. Julia Krasselt, Prof. Dr. Philipp Dreesen und Prof. Dr. Peter Stücheli-Herlach. Partner im Projekt sind neben den Vertreter:innen aus Departementen und Instituten die Servicestelle Forschungsdaten der ZHAW sowie die Mitglieder des CLARIN-CH Konsortiums.