Le Intelligenze Artificiali che combattono l'Hate Speech

Messi nero su bianco, offese, minacce, comportamenti denigratori e lesivi della dignità delle persone vengono oggi genericamente classificati come hate speech: linguaggio d’odio.

L’hate speech è l’insieme di tutte le forme di comunicazione che potremmo descrivere come “tossica” che inquinano la convivenza civile delle persone online e che sono vietati dai codici di condotta di community e social network.

Rientrano nella sfera dell’hate speech numerose forme di violenza verbale tra cui il cyberbullismo ed i discorsi di odio verso comunità di persone identificate in base alla razza, al credo religioso o all’orientamento sessuale. Ma non solo: sono considerati hate speech i pensieri suicidi, l’esaltazione delle attività criminali e molto altro ancora.

L’hate speech rappresenta una moderna piaga dei social media oggi ed in generale di tutte quelle piattaforme comunitarie dove la comunicazione tra i partecipanti è fitta di contenuti prodotti dagli utenti. In contesti simili, infatti, l’attività di moderazione è praticamente impossibile in assenza di strumenti che supportino il lavoro degli operatori impegnati nella repressione di questi comportamenti scellerati.

Sistemi per il contrasto dell’hate speech

L’idea che si possano identificare gli hate speech sulla base della presenza di singole parole (insulti, volgarità) che siano esse stesse lesive della dignità delle persone è limitante: il linguaggio d’odio spesso si articola in circonlocuzioni che offendono in maniera indiretta ma non meno violenta le persone.

Oggi però esistono tecnologie che afferiscono al panorama delle Intelligenze Artificiali, o più nello specifico al Machine Learning, che possono aiutare in questo delicato ambito della comunicazione. Si tratta di strumenti “intelligenti”, in grado di classificare in maniera automatica i testi che contengono hate speech.

Si parte da una base di testi raccolti sui social network o in altre community online. Questi testi vengono affidati ad un gruppo di operatori che li classificano. Gli operatori stabiliscono se e quanto questi testi siano pericolosi, violenti o offensivi: successivamente queste classificazioni vengono date in pasto ad algoritmi di intelligenza artificiale che, istruiti a dovere, saranno poi in grado di ripetere la classificazione su testi inediti.

Aspetti culturali

Gli operatori che classificano i testi come hate speech agiscono in base alla propria sensibilità.

Gli algoritmi appena descritti hanno due importanti limiti: il primo è quello di essere specializzati per specifiche tipologie di hate speech. Esistono ad esempio algoritmi in grado di individuare discorsi di odio nei confronti di specifiche comunità religiose come l’Islam, altri sono in grado di intercettare le espressioni tipicamente assimilabili a fenomeni di bullismo o autolesionismo. Alcuni infine intercettano più genericamente espressioni di odio nei confronti di uno o più soggetti.

La seconda è che l’efficacia di questi algoritmi è fortemente influenzata dal contesto socio-culturale in cui vengono elaborate le classificazioni utili ad istruire le AI. Non a caso gli algoritmi risultano più affidabili nell’ambito dei contesti sociali dove quella particolare tipologia di hate speech si manifesta più di frequente: l’islamofobia ad esempio è certamente una caratteristica di certa sotto-cultura occidentale e quindi della lingua italiana, mentre altrove nel mondo sarebbe più semplice classificare violenza verbale nei confronti delle comunità cristiane.

Quando le vittime sono AI

I sistemi di classificazione dell’hate speech possono diventare dei grandi alleati per tutti i moderatori che devono fare i conti con la vastità dei messaggi condivisi nell’ambito delle community. Ma vanno usati con la giusta consapevolezza.

Un approccio possibile è quello ibrido, fatto di più algoritmi di classificazione dell’hate speech come di altri aspetti tra cui la sentiment dell’utente: gli algoritmi esaminano tutti lo stesso testo ed i loro risultati vengono incrociati opportunamente nell’ambito di un sistema informatico tradizionale.

Nell’ambito del progetto Laila® sappiamo quanto sia importante cogliere espressioni di odio nell’ambito delle conversazioni, ma ci interroghiamo se possa essere considerato linguaggio d’odio una espressione che abbia come vittima un automa dotato di Intelligenza Artificiale. Laila® infatti non è umana pertanto non subisce gli effetti degli abusi verbali: non potendo classificare Laila® come vittima di qualsiasi forma di violenza, saranno i reparti amministrativi e legali delle aziende per cui lavora a stabilire se prendere provvedimenti o meno.

Le Intelligenze Artificiali che combattono l’Hate Speech

Sistemi per il contrasto dell’hate speech

Aspetti culturali

Quando le vittime sono AI