L’Inglese domina su Internet, ma molte lingue sono quasi assenti. Questo squilibrio potrebbe influenzare l’Intelligenza Artificiale, che rischia di favorire l’inglese, marginalizzando altri idiomi.
Internet è diventato una parte integrante della vita di circa il 63% della popolazione mondiale, con oltre 5 miliardi di persone connesse digitalmente. Resta ancora, purtroppo, attuale il dato di circa il 37% della popolazione mondiale che non ha accesso a Internet.
Ora, questa enorme massa di individui proviene da tutte le parti del mondo e parla migliaia di lingue diverse, molte delle quali si possono trovare online, dall’urdu al catalano.
Ma di recente, uno studio condotto da Rest of World in collaborazione con W3Techs, azienda austriaca specializzata in web scanning, ci mostra un quadro diverso.
I madrelingua inglese sono il 5% della popolazione globale
Secondo i dati raccolti da questo studio, oltre la metà dei siti web utilizza l’inglese come lingua principale, una percentuale sorprendentemente alta considerando che i madrelingua inglesi costituiscono meno del 5% della popolazione globale.
Al contrario, le lingue più parlate nel mondo come il cinese e l’hindi, nonostante la loro vasta diffusione, sono rispettivamente presenti solo nell’1,4% e nello 0,07% dei domini. Lingue come il bengalese e l’urdu, parlate da centinaia di milioni di persone, sono quasi assenti online.
Da quello che sappiamo, W3Techs monitora principalmente i linguaggi di programmazione utilizzati online. La società quindi scandisce regolarmente i domini pubblicamente accessibili, categorizzandoli per lingua e fornendo rapporti in tempo reale ai suoi clienti. I dati raccolti sono stati poi comparati con le statistiche sull’uso delle lingue a livello mondiale, fornite da Ethnologue, un’organizzazione no-profit riconosciuta come autorità mondiale in materia di lingue.
Alcune lingue europee su Internet sono inesistenti
La combinazione di questi due set di dati mostra un’evidente sovrarappresentazione e sottorappresentazione di alcune lingue sul web. L’inglese, il tedesco e il giapponese dominano l’internet molto più di quanto non facciano tra i parlanti nativi, mentre molte lingue non europee sono quasi inesistenti online.
Le organizzazioni internazionali vedono questa discrepanza come un segnale preoccupante per il futuro. Già nel 2003, l’UNESCO esortava i settori pubblici e privati a mantenere contenuti online in tutte le lingue umane. Tuttavia, con l’espansione del web, il divario tra le lingue parlate e quelle utilizzate online non ha fatto che aumentare.
Bhanu Neupane, manager presso l’UNESCO che si occupa di inequità linguistica, ha espresso la preoccupazione di un futuro in cui solo una manciata di lingue avrà una presenza significativa online. “Il mondo sta convergendo,” ha detto Neupane, “e tra 15 anni potrebbero esserci solo cinque o dieci lingue che vengono effettivamente utilizzate nelle attività commerciali e online.”
Anche se i dati presentano delle limitazioni (ad esempio, non tengono conto dei contenuti non pubblicamente accessibili come le app e i social network), il messaggio di fondo è chiaro. Milioni di persone non madrelingua inglesi sono costrette a utilizzare il web in una lingua.
Le indagini sulla questione variano, ma la valutazione dell’UNESCO è coerente con i risultati di W3Techs, che mostrano solo 14 lingue presenti in più dell’1% dei domini.
Se vi state chiedendo quale sia la situazione dell’italiano, la risposta è nel grafico che vedete in alto e ci illustra che la nostra lingua sul web è usata per l’1,9%, a fronte di uno 0,81% di persone che la parlano a livello globale.
In ogni caso, è importante considerare alcune limitazioni di questo set di dati. Le informazioni provengono da scansioni di siti web pubblicamente disponibili, quindi qualsiasi cosa si trovi dietro un login, come app e social network, non viene probabilmente conteggiata. Questo potrebbe implicare una sottostima particolare del web cinese, sebbene sia difficile determinare l’entità di questa discrepanza.
Inglese e Internet, limiti per l’Intelligenza Artificiale Generativa
Anche all’interno di social media accessibili al web, come Reddit, le scansioni non sono progettate per esaminare ogni pagina di un dominio, il che significa che potrebbero essere sottostimati anche le comunità non anglofone presenti su siti in lingua inglese.
Nonostante queste considerazioni, l’immagine complessiva è difficile da ignorare.
Milioni di persone, dunque, che non hanno l’inglese come lingua madre, o che non parlano affatto inglese, si trovano costrette a utilizzare il web in una lingua diversa da quella con la quale sono cresciuti.
Questa realtà assume una rilevanza ancora più grande se consideriamo che i testi disponibili pubblicamente su Internet vengono spesso utilizzati per formare grandi modelli linguistici, come Bard e GPT-4.
In pratica, il punto chiave è che se l’addestramento dei modelli di intelligenza artificiale generativa, come Bard e GPT-4, si basa in gran parte su testi disponibili in inglese, allora si rischia di creare programmi che favoriscono l’inglese e forse non riuscirebbero a comprendere o generare efficacemente contenuti in altre lingue.
Tutto questo crea una sorta di squilibrio digitale, in cui l’intelligenza artificiale può finire per essere ottimizzata prevalentemente per coloro che parlano inglese, a discapito di coloro che parlano altre lingue.