back to top

Su Internet si parla per lo più Inglese, un rischio per l′AI

L’Inglese domina su Internet, ma molte lingue sono quasi assenti. Questo squilibrio potrebbe influenzare l’Intelligenza Artificiale, che rischia di favorire l’inglese, marginalizzando altri idiomi.

Internet è diventato una parte integrante della vita di circa il 63% della popolazione mondiale, con oltre 5 miliardi di persone connesse digitalmente. Resta ancora, purtroppo, attuale il dato di circa il 37% della popolazione mondiale che non ha accesso a Internet.

Ora, questa enorme massa di individui proviene da tutte le parti del mondo e parla migliaia di lingue diverse, molte delle quali si possono trovare online, dall’urdu al catalano.

Ma di recente, uno studio condotto da Rest of World in collaborazione con W3Techs, azienda austriaca specializzata in web scanning, ci mostra un quadro diverso.

I madrelingua inglese sono il 5% della popolazione globale

Secondo i dati raccolti da questo studio, oltre la metà dei siti web utilizza l’inglese come lingua principale, una percentuale sorprendentemente alta considerando che i madrelingua inglesi costituiscono meno del 5% della popolazione globale.

inglese lingua usata internet web franzrusso.it

Al contrario, le lingue più parlate nel mondo come il cinese e l’hindi, nonostante la loro vasta diffusione, sono rispettivamente presenti solo nell’1,4% e nello 0,07% dei domini. Lingue come il bengalese e l’urdu, parlate da centinaia di milioni di persone, sono quasi assenti online.

Da quello che sappiamo, W3Techs monitora principalmente i linguaggi di programmazione utilizzati online. La società quindi scandisce regolarmente i domini pubblicamente accessibili, categorizzandoli per lingua e fornendo rapporti in tempo reale ai suoi clienti. I dati raccolti sono stati poi comparati con le statistiche sull’uso delle lingue a livello mondiale, fornite da Ethnologue, un’organizzazione no-profit riconosciuta come autorità mondiale in materia di lingue.

Alcune lingue europee su Internet sono inesistenti

La combinazione di questi due set di dati mostra un’evidente sovrarappresentazione e sottorappresentazione di alcune lingue sul web. L’inglese, il tedesco e il giapponese dominano l’internet molto più di quanto non facciano tra i parlanti nativi, mentre molte lingue non europee sono quasi inesistenti online.

Le organizzazioni internazionali vedono questa discrepanza come un segnale preoccupante per il futuro. Già nel 2003, l’UNESCO esortava i settori pubblici e privati a mantenere contenuti online in tutte le lingue umane. Tuttavia, con l’espansione del web, il divario tra le lingue parlate e quelle utilizzate online non ha fatto che aumentare.

Bhanu Neupane, manager presso l’UNESCO che si occupa di inequità linguistica, ha espresso la preoccupazione di un futuro in cui solo una manciata di lingue avrà una presenza significativa online. “Il mondo sta convergendo,” ha detto Neupane, “e tra 15 anni potrebbero esserci solo cinque o dieci lingue che vengono effettivamente utilizzate nelle attività commerciali e online.

inglese lingua usata web

Anche se i dati presentano delle limitazioni (ad esempio, non tengono conto dei contenuti non pubblicamente accessibili come le app e i social network), il messaggio di fondo è chiaro. Milioni di persone non madrelingua inglesi sono costrette a utilizzare il web in una lingua.

Le indagini sulla questione variano, ma la valutazione dell’UNESCO è coerente con i risultati di W3Techs, che mostrano solo 14 lingue presenti in più dell’1% dei domini.

Se vi state chiedendo quale sia la situazione dell’italiano, la risposta è nel grafico che vedete in alto e ci illustra che la nostra lingua sul web è usata per l’1,9%, a fronte di uno 0,81% di persone che la parlano a livello globale.

In ogni caso, è importante considerare alcune limitazioni di questo set di dati. Le informazioni provengono da scansioni di siti web pubblicamente disponibili, quindi qualsiasi cosa si trovi dietro un login, come app e social network, non viene probabilmente conteggiata. Questo potrebbe implicare una sottostima particolare del web cinese, sebbene sia difficile determinare l’entità di questa discrepanza.

Inglese e Internet, limiti per l’Intelligenza Artificiale Generativa

Anche all’interno di social media accessibili al web, come Reddit, le scansioni non sono progettate per esaminare ogni pagina di un dominio, il che significa che potrebbero essere sottostimati anche le comunità non anglofone presenti su siti in lingua inglese.

Nonostante queste considerazioni, l’immagine complessiva è difficile da ignorare.

Milioni di persone, dunque, che non hanno l’inglese come lingua madre, o che non parlano affatto inglese, si trovano costrette a utilizzare il web in una lingua diversa da quella con la quale sono cresciuti.

Questa realtà assume una rilevanza ancora più grande se consideriamo che i testi disponibili pubblicamente su Internet vengono spesso utilizzati per formare grandi modelli linguistici, come Bard e GPT-4.

In pratica, il punto chiave è che se l’addestramento dei modelli di intelligenza artificiale generativa, come Bard e GPT-4, si basa in gran parte su testi disponibili in inglese, allora si rischia di creare programmi che favoriscono l’inglese e forse non riuscirebbero a comprendere o generare efficacemente contenuti in altre lingue.

Tutto questo crea una sorta di squilibrio digitale, in cui l’intelligenza artificiale può finire per essere ottimizzata prevalentemente per coloro che parlano inglese, a discapito di coloro che parlano altre lingue.

avatar dell'autore
Franz Russo Blogger, Digital Strategist
Franz Russo, fondatore, nel 2008, del blog InTime, ho collaborato con grandi aziende nazionali e internazionali, come consulente per strategie di comunicazione e come divulgatore. Da sempre impegnato nella comunicazione digitale, cerco di unire sempre una profonda passione per l’innovazione tecnologica a una visione olistica dell’evoluzione dei social media e degli strumenti digitali. Il mio percorso professionale in questo campo, iniziato nel 2007, è stato caratterizzato da un costante impegno nel raccontare e interpretare i cambiamenti nel panorama digitale. Il mio approccio si basa su un mix di analisi strategica, creatività e un profondo impegno per il racconto e la divulgazione.
La tua iscrizione non può essere convalidata.
La tua iscrizione è avvenuta correttamente.

InTime Blog Newsletter

Abbonati alla newsletter e resta aggiornato su articoli e approfondimenti 

Utilizziamo Brevo come piattaforma di marketing. Inviando questo modulo, accetti che i dati personali da te forniti vengano trasferiti a Brevo per il trattamento in conformità all'Informativa sulla privacy di Brevo.

Scrivimi

Se ti piace quello che scrivo e se vuoi conoscermi meglio, clicca il bottone qui di fianco.

LASCIA UN COMMENTO

Per favore inserisci il tuo commento!
Per favore inserisci il tuo nome qui

Ultimi articoli

InTime Podcast

spot_img

Articoli correlati
Related

L’Australia e il divieto di usare i social media sotto i 16 anni

L’Australia vieta i social media ai minori di 16 anni, primo paese al mondo a farlo. La normativa approvata dal Senato ha sollevato dibattiti e critiche.

Amazon rafforza la collaborazione con Anthropic per il futuro dell’IA Generativa

Amazon investe altri 4 miliardi di dollari, portando ad 8 l'investimento complessivo, in Anthropic. Si rafforza la competizione nell’IA generativa con AWS e modelli avanzati per rivoluzionare il mercato.

Lo spot Coca-Cola e la IA, quando la magia non convince

Lo spot natalizio della Coca-Cola, realizzato con IA, divide il pubblico. Le critiche riguardano la "freddezza", imperfezioni varie e mancanza di emozione

Social media, da luoghi di interazione a strumenti di potere

Elon Musk c'è riuscito: ha trasformato X in uno strumento di potere politico. Quelli che prima erano strumenti di interazione, oggi sono strumenti di potere.