Circa il 35% dei siti che sono stati pubblicati dal 2022 a oggi sono stati generati dall'Intelligenza Artificiale. A fotografare la situazione è stata una ricerca condotta da un gruppo internazionale con il contributo di università come Stanford e Imperial College London.

Il dato emerge da un’analisi su larga scala realizzata insieme all’Internet Archive, utilizzando milioni di pagine archiviate nel tempo. La velocità del fenomeno è uno degli elementi più rilevanti. Perché fino al lancio dei primi modelli generativi moderni, alla fine del 2022, la quota di contenuti automatizzati era sostanzialmente nulla. In meno di tre anni, l’IA è arrivata a incidere su oltre un terzo delle nuove pubblicazioni online.

Secondo i ricercatori, si tratta di un cambiamento senza precedenti per scala e rapidità.

Com'è stata condotta la ricerca

Il punto di partenza del lavoro di ricerca è stato l’archivio storico del web gestito dall’Internet Archive, in particolare il sistema Wayback Machine, che conserva copie di siti internet nel tempo. Così si può vedere com'era un sito due anni prima o anche dieci anni prima.

Gli studiosi hanno selezionato un campione di pagine web pubblicate tra agosto 2022 e maggio 2025, periodo considerato cruciale perché coincide con la diffusione su larga scala dei modelli di IA generativa. Per ogni sito analizzato è stata recuperata la versione più antica disponibile, così da evitare contaminazioni successive o aggiornamenti che potessero alterare il contenuto originale.

Una volta raccolti i dati, il testo delle pagine è stato estratto e analizzato utilizzando diversi strumenti di rilevazione automatica. Tra questi, il software Pangram v3 è risultato il più affidabile nell’identificare contenuti interamente artificiali o generati con l'assistenza dell’IA.

Nessuna crescita significativa dei contenuti falsi

Oltre a valutare quanti degli attuali siti online siano stati fatti interamente dall'IA o con l'assistenza dell'IA, la ricerca ha analizzato anche i testi che vengono prodotti.

Per valutare l’accuratezza dei contenuti, per esempio, il gruppo di ricercatori ha estratto affermazioni fattuali dai testi e le ha sottoposte a verificatori umani, incaricati di stabilire se fossero corrette o meno. Per analizzare invece la tendenza a citare fonti, è stata calcolata la quantità di link in uscita presenti nei contenuti.

Tutti questi dati poi sono stati messi in relazione con il livello di “probabilità IA” assegnato a ciascun sito, permettendo di osservare eventuali correlazioni tra uso dell’IA e caratteristiche del contenuto.

L’analisi ha mostrato che tendono a essere più uniformi, meno vari dal punto di vista semantico e generalmente più “positivi” nel tono.

Inoltre, la ricerca ha cercato di verificare alcune delle critiche più diffuse sull’uso dell’IA nella produzione di contenuti online. Tra queste, l’idea che i testi generati automaticamente siano meno affidabili o più inclini a diffondere informazioni false.

Su questo punto, i risultati sono meno netti di quanto ci si potrebbe aspettare. Non è emersa una crescita significativa di contenuti che risultano falsi dopo la verifica. Allo stesso modo, non si registra una riduzione evidente nell’uso delle fonti o dei riferimenti.

Ciò non significa che il problema non esista, ma che non si manifesta, almeno per ora, in modo così evidente nei dati analizzati. Piuttosto, il rischio potrebbe essere più sottile: un aumento di contenuti difficili da verificare, ma non necessariamente falsi.

Una nuova fase per Internet

Il fenomeno richiama anche la cosiddetta “Dead Internet Theory”, o teoria di Internet morto, secondo cui gran parte delle interazioni online sarebbe ormai dominata da sistemi automatizzati. La ricerca non conferma pienamente questa visione, anzi, ma ne evidenzia alcuni elementi, anche solo per l'assistenza fornita dai modelli di IA nella creazione dei siti e dei testi usati.

Gli stessi ricercatori sottolineano che si tratta solo di un punto di partenza. L’obiettivo è trasformare questo tipo di analisi in uno strumento continuo, capace di monitorare nel tempo l’impatto dell’IA sul web.

https://www.dday.it/redazione/57254/un-terzo-dei-siti-web-e-stato-generato-dallia-sono-bastati-tre-anni?utm_source=firefox-newtab-it-it