Schweizer Jugendliche treffen im Internet häufig auf Hate Speech. Das geht aus dem JAMESfocus-Bericht der ZHAW in Zusammenarbeit mit Swisscom hervor. Aber über die Verbreitung von Hate Speech und Fake News in der Schweiz gibt es nur wenige Daten. Pius von Däniken vom ZHAW Centre for Artificial Intelligence (CAI) erklärt, warum das so ist.
Seit 2010 erhebt die ZHAW im Auftrag von Swisscom im Rahmen der JAMES-Studie den Medienumgang von Jugendlichen in der Schweiz. Im JAMESfocus-Bericht 2021 befragte die ZHAW Jugendliche in der Schweiz zu Hate Speech. Herausgegeben wird die JAMES-Studie von der Fachgruppe Medienpsychologie des ZHAW Departements Angewandte Psychologie. Aber auch andere ZHAW-Departemente sind an dem Thema interessiert.
Natural Language Processing zur Analyse der Daten
In der Umfrage kam heraus, dass rund die Hälfte der befragten Jugendlichen mehrmals pro Woche oder häufiger auf Hasskommentare im Internet trifft. Betroffen sind besonders die 16- bis 19- Jährigen. «In der Umfrage sieht man klar, dass das ein Thema ist, dass die Jugendlichen betrifft», sagt Pius von Däniken. Er ist wissenschaftlicher Assistent am Centre for Artificial Intelligence (CAI) der ZHAW School of Engineering. «Aber es ist eine offene Frage, wie hoch der Anteil an Hate Speech im Verhältnis zu anderen Inhalten auf Social Media ist», sagt Pius. Genau das will er in seinem DFF-Projekt erarbeiten.
Um diese Relation abzubilden könne nämlich Natural Language Processing (NLP) helfen. Der Schwerpunktbereich NLP am CAI beschäftigt sich mit dem maschinellen Verstehen von menschlicher Sprache in gesprochener und schriftlicher Form. Um mithilfe von NLP den Anteil von Hate Speech auf Social Media zu quantifizieren, braucht es Datensätze, also eine grosse Menge an Schweizer Social-Media-Posts, die klassifiziert und anschliessend analysiert werden können. Dabei gibt es mehrere Herausforderungen, wie die Sprachenvielfalt in der Schweiz und die unklare Definition von Hate Speech.
Sprachenvielfalt und Schweizer Dialekte
Die bestehende Forschung, um mit NLP Hate Speech zu identifizieren ist zu einem Grossteil auf Englisch, einschliesslich der Datensätze. Auch auf Hochdeutsch gibt es Datensätze, die bereits von Universitäten in Deutschland aufbereitet werden. Auf die Schweiz sind diese Daten aber nur bedingt anwendbar. «In der deutschen Sprachregion der Schweiz verfassen die Jugendlichen ihre Social-Media-Posts in ihrem jeweiligen Dialekt. Und es gibt nur eine begrenzte Datengrundlage auf Schweizerdeutsch», erklärt Pius. Viele Wörter werden beispielsweise je nach Dialekt anders geschrieben, da es keine einheitliche Orthografie gibt.
Hinzu kommt die abweichende Verwendung der Sprache in den sozialen Medien. Wenn ein System mit journalistischen Texten trainiert wird, greift man hier auf standardisierte Texte zu, die von einem Lektor auf ihre Rechtschreibung und Grammatik hin überprüft wurden. «Die Sprachverarbeitung in den sozialen Medien ist besonders schwierig. Dort postet jeder, wie er will», sagt Pius. Auf Plattformen wie Twitter, deren Textlänge pro Tweet beschränkt ist, werden die Userinnen und User besonders kreativ. «Die Userinnen und User nutzen wegen der Textbeschränkung kreative Abkürzungen. Ein Twitter-Korpus beinhaltet also viel mehr Wörter, da er Fehler enthält sowie Emojis und ein spezielles Vokabular von Subkulturen. Es ist immer schwierig, mit Text aus den sozialen Medien zu arbeiten, egal in welcher Sprache. In der Schweiz kommen die Sprachvielfalt und die vielen Dialekte noch hinzu», erklärt Pius.
Wer entscheidet, was Hate Speech ist?
Eine weitere Herausforderung ist die Definition von Hate Speech. Um das System zu trainieren, ist es zunächst nötig, die Textbestandteile als Hate Speech zu kennzeichnen – oder eben nicht. Diese Annotation wird von Menschen vorgenommen, um sie anschliessend dem System beizubringen. «Wenn wir Texte annotieren lassen, ist es wichtig, sehr präzise Annotation-Guidelines zu haben. Es gibt zwar eine allgemeine Definition für Beleidigung, aber was die Leute schliesslich als beleidigend empfinden ist breiter als die legale Definition des Phänomens», sagt Pius. Darum werden die Texte auch von verschiedenen Personen annotiert. «Die Menschen sind auf verschiedene Arten von Hate Speech unterschiedlich sensibilisiert. So empfinden Frauen manche Posts beispielsweise als sexistisch, aber Männer würden das möglicherweise nicht als Hate Speech erkennen.»
Künftig könnten die Erkenntnisse aus dem Projekt auch im Rahmen der JAMES-Studie verwendet werden. So könnte noch genauer abgebildet werden, wie weit verbreitet Hate Speech unter Jugendlichen in der Schweiz ist.
Diskutiert mit am Event von ZHAW digital zum Thema Hate Speech!
In der Veranstaltung von ZHAW digital «Hass via Messenger: Hate Speech, politische Polarisierung und Demokratie» sprechen wir mit Sophie Achermann, Judith Möller und Céline Külling darüber, wie Hass im Internet und politische Polarisierung in Filterblasen nicht nur den Menschen schaden, sondern auch unsere Demokratie gefährden können, was dagegen unternommen wird, worauf man achten sollte und wie man die Technologie zur Unterstützung einsetzen kann. Jetzt anmelden für das Event am 18. November 2021!