Wikipedia sotto attacco delle “traduzioni” AI: quando l’enciclopedia smette di essere affidabile

Le traduzioni automatiche non stanno solo cambiando lingua: in alcuni casi cambiano i fatti. E quando succede su Wikipedia, l’effetto domino tocca scuola, lavoro, media e persino i modelli di intelligenza artificiale che si allenano su quei testi.

Tradurre non è copiare: cosa sta succedendo su Wikipedia

Secondo un’inchiesta di 404 Media, alcune voci di Wikipedia tradotte con strumenti AI stanno includendo informazioni che nell’originale non esistono: citazioni inventate, riferimenti bibliografici sbagliati, frasi aggiunte senza spiegazioni. Non parliamo di un refuso: parliamo di “allucinazioni”, ovvero dettagli plausibili ma falsi generati dal modello linguistico.

Un caso emblematico riguarda una voce sulla famiglia reale francese: nella versione tradotta è comparso un riferimento a un libro con tanto di numero di pagina. Peccato che, andando a controllare, in quella pagina non si parli affatto del tema citato. È il classico corto circuito dell’AI: quando non sa, non ammette il vuoto, lo riempie.

Perché è un problema serio? Perché Wikipedia è l’enciclopedia più usata al mondo. Se un errore passa, viene ripreso, copiato e citato altrove. E più un contenuto sbagliato circola, più diventa “vero” agli occhi dei sistemi che lo incontrano e lo riutilizzano.

Perché l’AI “allucina” proprio in traduzione

I modelli linguistici non traducono come farebbe un essere umano che conosce contesto e fonti: prevedono la parola più probabile successiva. Quando il testo contiene numeri, toponimi, nomi propri o note, la traduzione diventa un compito di generazione, non un semplice mapping parola-per-parola. Il risultato? Dati che slittano, riferimenti riformulati (o creati), citazioni “ottimizzate” per suonare bene, non per essere corrette.

Su piccola scala, un editor attento se ne accorge. Su grande scala, con flussi di pagine che passano da una lingua all’altra in automatico, gli errori si moltiplicano e diventano invisibili. Ed è qui che il costo vero non è “tradurre”, ma verificare.

Gli effetti a catena: scuola, media e persino l’AI

Wikipedia è il punto di partenza di ricerche scolastiche, briefing aziendali, schede per giornalisti. Se la base si contamina, chi arriva dopo eredita (e amplifica) l’errore. Peggio ancora: gli LLM si allenano anche su contenuti che includono Wikipedia. Se l’AI traduce male e poi l’AI si allena su quel testo, creiamo un circuito di rinforzo dell’errore. È il paradosso perfetto: l’AI che inquina le fonti da cui l’AI impara.

Non è solo tecnologia: è governance, controlli e responsabilità

La community di Wikipedia si è mossa in fretta: limitazioni a collaboratori che usavano sistemi automatici per tradurre in massa e nuove policy per obbligare la revisione umana. Anche chi sviluppa questi strumenti (come il fondatore di OKA, citato nell’articolo di 404 Media) ha riconosciuto i limiti e la necessità di human in the loop.

Tradurre a costo quasi zero fa gola. Ma se si scarica la verifica su volontari sottopagati o su controlli “postumi” approssimativi, stiamo solo spostando il conto altrove. La qualità non è gratis: qualcuno deve prendersi la responsabilità di firmare il controllo delle fonti, non solo la pubblicazione della pagina.

Perché un’AI non basta per controllarne un’altra

Affidare a un modello il controllo di un output generato da un modello simile produce un falso senso di sicurezza. Le allucinazioni sono spesso “coerenti” con lo stile del testo: l’AI non le riconosce come errori, le considera probabili. Anche esperimenti in ambito educativo hanno mostrato tassi di errore a doppia cifra quando AI verifica AI: l’illusione di qualità supera la qualità reale.

Mettere in sicurezza le traduzioni AI: una checklist pratica

Etichettare l’origine: ogni traduzione assistita dall’AI va contrassegnata e tracciata. Senza trasparenza non esiste responsabilità.
Revisione umana con accesso alle fonti: chi controlla deve aprire i link citati, verificare numeri e citazioni, confrontare l’originale riga per riga.
Gestione “a coppie”: un traduttore e un revisore separati. Nessuna pubblicazione senza doppia firma.
Back-translation: tradurre di nuovo nella lingua di partenza per individuare incoerenze, soprattutto su date, nomi propri, unità di misura.
Blocchi su bibliografia e note: riferimenti e pagine non si “traducono” in automatico. Si verificano manualmente, sempre.
Rate limit e campionamento: niente raffiche di pagine. Pubblicare a lotti piccoli con QA casuale e audit periodici.
Provenienza e diff: registrare versione originale, modello usato, prompt, post-edit umano e diff finale per eventuali contestazioni.
Formazione e tempo pagato: chi verifica deve essere formato e retribuito per farlo. La qualità costa meno dell’errore che si propaga.
AI come strumento, non sostituto: usare l’AI per suggerire glossari, evidenziare incongruenze e allineare terminologie, non per convalidare fatti.

Le domande scomode (che non possiamo evitare)

Se l’AI rende più facile pubblicare, chi paga il costo della verifica? E quanto siamo disposti a fidarci di contenuti “ottimizzati” quando dovrebbero essere semplicemente corretti? La tentazione di tradurre con l’AI è fortissima, ma senza controllo editoriale la fiducia salta. E senza fiducia, Wikipedia perde il suo valore.

Iscriviti alla newsletter e ricevi ogni mattina la puntata con le fonti.

👉 Per scoprire tutti i dettagli e l’opinione personale di Mario Moroni, ascolta la puntata completa su Spotify.