Un algoritmo ha letto 3,5 milioni di libri per scoprire che...

È vivamente consigliato leggere almeno un libro al mese. I grandi lettori riescono a macinare anche una ventina di libri l’anno. I più affamati anche di più. Ma che dire di 3,5 milioni di libri? Sono tanti anche per un algoritmo. Spero che abbia avuto del buon collirio.

I ricercatori hanno vagliato un’enorme quantità di libri nel tentativo di scoprire se c’è una differenza tra i tipi di parole che descrivono uomini e donne in letteratura.

Utilizzando un algoritmo, i ricercatori hanno analizzato un i dati ottenuti dalla lettura di 3,5 milioni di libri, tutti pubblicati in inglese tra il 1900 e il 2008. I libri includono un mix di letteratura di narrativa e saggistica.

I risultati dell’algoritmo

La scienziata informatica e assistente professoressa Isabelle Augenstein del dipartimento di informatica dell’Università di Copenaghen afferma:

Siamo chiaramente in grado di vedere che le parole usate per le donne si riferiscono molto più alla loro apparenza rispetto alle parole usate per descrivere gli uomini. Pertanto, siamo stati in grado di confermare una percezione diffusa, solo ora a livello statistico.

Infatti questi sono gli aggettivi più comuni, suddivisi per genere e per accezione negativa o positiva.

La ricerca si allarga

L’innovazione tecnologica ha permesso di ampliare il pool di ricerca utilizzato dai linguisti che in passato hanno analizzato la presenza di pregiudizi di genere nel linguaggio.

L’algoritmo creato dai ricercatori ha potuto analizzare ben 11 miliardi di parole e può leggerne ancora e ancora, quasi senza limiti.

Gli algoritmi utilizzati per creare macchine e applicazioni in grado di comprendere il linguaggio umano sono alimentati con dati sotto forma di materiale di testo disponibile online.

Questa è la stessa tecnologia che consente agli smartphone di riconoscere le nostre voci e consente a Google di fornire suggerimenti di parole chiave.

L’importanza degli aggettivi

Augenstein afferma:

Gli algoritmi lavorano per identificare i modelli e ogni volta che uno viene osservato, si percepisce che qualcosa è” vero “. Se uno di questi schemi si riferisce a un linguaggio distorto, anche il risultato sarà distorto. I sistemi adottano, per così dire, il linguaggio che noi persone usiamo, e quindi i nostri stereotipi di genere e pregiudizi.

E fa un esempio dove potrebbe essere un fattore determinante:

Se il linguaggio che usiamo per descrivere uomini e donne differisce nelle raccomandazioni dei dipendenti, ad esempio, influenzerà chi viene offerto un lavoro quando le aziende usano i sistemi informatici per ordinare le domande di lavoro.

Augenstein continua:

Possiamo provare a tenerne conto quando sviluppiamo modelli di apprendimento automatico utilizzando un testo meno distorto o forzando i modelli a ignorare o contrastare i pregiudizi. Tutte e tre le cose sono possibili.

I ricercatori però stanno lavorando per migliorare l’accuratezza dell’algoritmo. Non è ancora in grado di distinguere i vari generi letterari, non tiene conto di chi ha scritto i singoli passaggi e delle influenze del periodo storico in cui è stato scritto il libro, che possono influenzarne il linguaggio.

Ulteriori coautori dello studio sono dell’Università del Maryland, della John Research Hopkins University di Google, della University of Massachusetts Amherst e della Microsoft Research.