Sexuelle Belästigungen in der Online Kommunikation

Sexuelle Übergriffe in Online Dating Plattformen, Online Chats und sozialen Netzen nehmen zu. Methoden der künstlichen Intelligenz helfen sexuelle Inhalte zu identifizieren. Wir stellen dazu hier einen Algorithmus vor, der von jedem ausprobiert werden kann!

Sexuelle Inhalte identifizieren

Wir haben für diese Problemstellung einen Supervised Learning Algorithmus basierend auf einem neuronalen Netzwerk modelliert. Wörter, Phrasen oder ganze Sätze können hier auf ihren sexuellen Inhalt hin getestet werden. Das Zeichen ✅ steht für unbedenklich, ❌ für kritisch. Hinweis: Dieses Modell wurde konkret für den Einsatz in einer österreichischen Online Community trainiert. Gute Ergebnisse erzielt man für Texte aus diesem Context, Dialektformulierungen inklusive.

Unser Sprachmodell lernt österreichisch

Der Algorithmus beruht auf einem Sprachmodell, das wir aus 100 Mio anonymisierten Online Chat Nachrichten gebildet haben. Gibt man ein Wort ein, erhält man sinnverwandte Wörter oder Wörter mit ähnlichen inhaltlichen Eigenschaften. Je eher ein Wort im Umfeld einer Online-Unterhaltung zu erwarten ist, umso "schöner" sind die Ergebnisse. Wörter wie "Facebook", "Ski", "Essen", "Urlaub", "Wetter", "Job" oder Dialektwörter wie "Madl", "wurscht" oder "Spezl" liefern aussagekräftige Informationen. Häufige Falsch- und Dialektschreibweisen sind ebenso inkludiert.

Das Modell erkennt dadurch Zusammenhänge zwischen einzelnen Wörtern. Es weiß z.B., dass „Schatzi“ und „Mausi“ etwas gemeinsam haben. Lernt ein neuronales Netz, dass die Aussage "Hallo Schatzi" als Belästigung eingestuft werden soll, so kann es ableiten, dass dies für "Hallo Mausi" ebenso gelten soll, ohne dass das Wort "Mausi" in den Trainingsdaten vorgekommen ist. Dadurch werden mit wesentlich weniger Trainingsdaten bessere Ergebnisse erzielt.

Erkennung sexueller Inhalte in Bildern

Die Überprüfung der Bilder erfolgt mithilfe eines tiefen neuronalen Netzwerkes. Das Modell basiert auf einem vortrainierten Convolutional Neural Network ("Resnext" mit über 1 Mio Bildern), dass für diese Klassifizierungsaufgabe mit weiteren ca. 100.000 Bildern auf die Problemstellung feinabgestimmt wurde.

Tolerante Prüfung: Keine primären Geschlechtsmerkmale erlaubt.

Strenge Prüfung: Keinerlei Nackheit erlaubt.

Einsatzgebiete

Einsatzgebiete für die neuen Funktionen sind soziale Netzwerke, Chats, Flirt & Dating Plattformen, Foren, Services mit Kommentarfunktion und alle anderen Anwendungen mit Kommunikation zwischen den Nutzern.


Kontakt
DI Raimund Oberreiter, raimund.oberreiter@calista.at
Oberreiter & Dandachi OG, Moeringgasse 20/2, 1150 Wien
Impressum