L'era dei deepfake: anatomia di una rivoluzione tecnologica

Che cosa sono i deepfake: definizioni e tassonomia

Il termine “deepfake” nasce dalla fusione di “deep learning” e “fake” e designa contenuti audiovisivi sintetici generati o manipolati attraverso reti neurali profonde. Non si tratta di una tecnologia unica, ma di un ecosistema in rapida espansione che comprende diverse categorie distinte, ciascuna con implicazioni specifiche per la sicurezza dei minori.

I deepfake video utilizzano modelli generativi addestrati su grandi dataset per produrre video con movimenti coerenti, identità consistenti e contenuti logicamente sequenziali. I deepfake audio, o voice clone, sintetizzano la voce umana con un’accuratezza tale da risultare indistinguibile dall’originale. I deepfake di immagini statiche comprendono sia la generazione di volti completamente sintetici sia la manipolazione di fotografie reali, incluso il cosiddetto “nudifying”. I deepfake testuali, generati da LLM, pur non essendo audiovisivi, partecipano dello stesso ecosistema quando vengono utilizzati per impersonare individui in comunicazioni scritte.

La ricerca accademica distingue ulteriormente tra deepfake completamente sintetici (generati ex novo dall’AI senza partire da materiale reale) e deepfake parzialmente sintetici (in cui immagini o video reali vengono manipolati attraverso strumenti AI). Questa distinzione è particolarmente rilevante nel contesto del materiale di abuso sessuale su minori (CSAM), dove i video AI-CSAM inizialmente osservati nei forum del dark web nel 2024 erano principalmente deepfake parziali o video sintetici rudimentali, ma la qualità sta rapidamente migliorando.

L’evoluzione tecnica: dal laboratorio allo smartphone

Il 2025-2026 ha segnato un punto di non ritorno nella democratizzazione della tecnologia deepfake. Secondo i dati della società di cybersecurity DeepStrike, i contenuti deepfake online sono passati da circa 500.000 nel 2023 a circa 8 milioni nel 2025, con una crescita annuale vicina al 900%. Il governo britannico conferma queste proiezioni, evidenziando un aumento del 1.500% in soli due anni.

Tre avanzamenti tecnici convergenti hanno guidato questa escalation. Il primo riguarda la coerenza temporale dei video generativi: i modelli di nuova generazione producono sequenze video stabili, senza gli artefatti visivi — sfarfallio, deformazione, distorsioni strutturali attorno agli occhi e alla mandibola — che un tempo costituivano indicatori forensi affidabili. Il secondo, descritto dal Prof. Siwei Lyu dell’Università di Buffalo come il superamento della “soglia dell’indistinguibilità”, riguarda la clonazione vocale: pochi secondi di audio sono ora sufficienti per generare un clone completo di intonazione naturale, ritmo, enfasi, emozione, pause e respirazione.

Il terzo fattore, forse il più significativo per i minori, è il crollo della barriera tecnica d’ingresso. Come osserva Sergio Alexander, ricercatore presso la Texas Christian University, fino a pochi anni fa servivano competenze tecniche per rendere i deepfake realistici. Oggi si può farlo con un’app, scaricandola dai social media, senza alcuna esperienza tecnica. Strumenti come Sora 2 di OpenAI e Veo 3 di Google hanno trasformato la creazione di contenuti sintetici in un processo accessibile a chiunque possieda uno smartphone.

La clonazione vocale: meccanismi e capacità attuali

La clonazione vocale merita un’analisi approfondita per le sue implicazioni specifiche nel contesto della sicurezza dei minori e delle famiglie. Il processo tecnico si basa sull’estrazione di un “speaker embedding” — un’impronta matematica del timbro e della prosodia della voce — a partire da un breve campione audio. Una volta creato l’embedding, un attore malevolo può digitare qualsiasi testo (Text-to-Speech) o parlare al microfono (Speech-to-Speech) per generare audio che suona esattamente come la vittima, completo di urgenza emotiva, pause e respiri.

Le capacità attuali sono impressionanti e in rapida evoluzione. L’AI moderna può clonare una voce con l’85% di accuratezza utilizzando appena 3-5 secondi di audio. Le fonti più comuni per raccogliere campioni vocali sono le storie e i reel sui social media come TikTok e Instagram, che rappresentano la fonte primaria di materiale. I truffatori agiscono come “raccoglitori digitali”: non necessitano di una registrazione in studio, ma solo di un frammento audio pulito, privo di eccessivo rumore di fondo.

Questo ha conseguenze dirette per le famiglie con figli minori. I bambini e gli adolescenti sono tra gli utenti più attivi dei social media e producono costantemente contenuti audio e video che possono essere utilizzati come materiale sorgente per la clonazione vocale. Un video di TikTok, una storia di Instagram, un messaggio vocale condiviso in un gruppo WhatsApp: qualsiasi frammento audio di pochi secondi è potenzialmente sufficiente per creare un clone vocale utilizzabile per truffe, estorsioni o manipolazione.

La dimensione quantitativa: numeri che parlano

Per apprezzare la portata della minaccia, è necessario considerare i dati quantitativi disponibili. Secondo uno studio di iProov del 2025, solo lo 0,1% dei partecipanti ha identificato correttamente tutti i contenuti falsi e reali mostrati. Un’indagine dell’Università della Florida ha rivelato che i partecipanti dichiaravano un’accuratezza del 73% nell’identificazione dei deepfake audio, ma nella pratica venivano frequentemente ingannati. Il 70% delle persone dichiara di non essere sicuro di poter distinguere tra una voce reale e una clonata. Il 68% dei deepfake è ormai considerato quasi indistinguibile dal contenuto genuino.

Estratto da Infanzia Algoritmica: Intelligenza Artificiale, Minori e Salute di Giuseppe Siciliani Disponibile su Amazon