CALIF: un framework pedagogico per l'integrazione dell'AI Literacy nei curricula universitari

1. Introduzione: l'AI Literacy come emergenza epistemologica nell'istruzione superiore

La penetrazione pervasiva dei sistemi di intelligenza artificiale generativa nelle pratiche accademiche ha generato una frattura epistemologica che le istituzioni universitarie non sono ancora riuscite a colmare. Non si tratta semplicemente di un problema tecnologico — la questione della familiarità degli studenti con strumenti come ChatGPT, Gemini o Claude — ma di un problema di fondazione: l'istruzione superiore sta formando professionisti che utilizzano quotidianamente sistemi probabilistici di generazione linguistica senza possedere gli strumenti concettuali per comprenderne la natura, valutarne l'affidabilità e governarne l'impatto sulle proprie decisioni professionali.

I dati empirici sono eloquenti e in rapida evoluzione. Il rapporto UNESCO del 2023 documenta che oltre il 70% degli studenti universitari nei paesi OECD utilizza strumenti di AI generativa per attività accademiche, una percentuale che secondo stime aggiornate al 2025 supera ormai l'85% in ambito anglosassone. Eppure, meno del 15% di questi studenti è in grado di formulare una valutazione critica strutturata dell'output di questi sistemi. La revisione sistematica di Zawacki-Richter et al. (2019), pubblicata su International Journal of Educational Technology in Higher Education, aveva già documentato come l'adozione dell'AI nell'istruzione superiore stesse crescendo esponenzialmente — ma la preparazione dei docenti a gestirne l'impatto pedagogico rimaneva sostanzialmente invariata. A distanza di sei anni, questa asimmetria non solo non si è ridotta, ma si è drammaticamente amplificata con l'arrivo dei Large Language Models conversazionali.

Kasneci et al. (2023), nella loro analisi pubblicata su Learning and Individual Differences, hanno ulteriormente evidenziato come ChatGPT e i modelli linguistici di grande scala stiano trasformando il panorama educativo a una velocità che eccede strutturalmente la capacità di adattamento delle istituzioni accademiche. Il problema non è la velocità in sé — è l'assenza di un framework pedagogico condiviso che permetta alle istituzioni di rispondere in modo coordinato piuttosto che frammentario.

È in questo contesto che ho sviluppato il framework CALIF (Comprehensive AI Literacy Integration Framework), presentato in un articolo peer-reviewed pubblicato su Computers and Education: Artificial Intelligence, Volume 7 (2026). L'obiettivo del framework non è aggiungere un ennesimo corso di "introduzione all'AI" ai curricula già sovraccarichi, ma proporre un'architettura di integrazione che permei gli insegnamenti esistenti, trasformando l'AI literacy da competenza settoriale a competenza trasversale al pari della scrittura accademica o del ragionamento statistico.

2. Posizionamento nella letteratura e identificazione del gap

La letteratura sull'AI in education è vasta ma presenta una lacuna strutturale che il framework CALIF intende colmare.

Il primo filone di ricerca, rappresentato da Long e Magerko (2020) con il loro lavoro fondativo "What is AI Literacy?", ha stabilito le basi definitorie identificando le competenze che un cittadino informato dovrebbe possedere per interagire criticamente con i sistemi AI. Tuttavia, il loro framework si concentra sull'alfabetizzazione generale della popolazione, senza affrontare le specificità dell'istruzione superiore — dove la questione non è tanto comprendere cos'è l'AI, quanto integrarla criticamente nelle pratiche professionali disciplinari.

Il secondo filone, rappresentato da Ng et al. (2021) nella loro revisione pubblicata su Computers and Education, ha proposto una concettualizzazione dell'AI literacy articolata in quattro dimensioni: conoscenza e comprensione dell'AI, uso e applicazione dell'AI, valutazione e creazione dell'AI, ed etica dell'AI. Questa tassonomia è preziosa come framework analitico, ma non fornisce indicazioni operative su come integrarla nei curricula esistenti — un passaggio che richiede non solo teoria pedagogica ma anche architettura curricolare e strumenti di assessment validati.

Il terzo filone, più recente, affronta l'impatto specifico dell'AI generativa sull'integrità accademica. I dati che emergono da questo corpus sono allarmanti: un sondaggio nazionale nel Regno Unito del 2025 ha rivelato che il 92% degli studenti utilizza l'AI in qualche forma, e l'88% ha utilizzato specificamente l'AI generativa per i compiti scolastici. Lo studio della University of Reading ha dimostrato che il 94% del lavoro generato dall'AI non viene rilevato dai sistemi di detection attualmente in uso. Questi dati confermano che il problema non è arginabile con misure repressive — la detection è strutturalmente in ritardo rispetto alla generazione — ma richiede un ripensamento fondamentale del rapporto tra studente, conoscenza e strumenti AI.

Il gap che il framework CALIF intende colmare si situa esattamente all'intersezione di questi tre filoni: come passare dalla definizione teorica dell'AI literacy (Long e Magerko), attraverso una tassonomia multidimensionale (Ng et al.), fino a un'architettura curricolare operativa che le istituzioni possano adottare senza ristrutturare i propri programmi di studio.

3. Fondamenti teorici: la tassonomia di Bloom come grammatica condivisa

La scelta di ancorare il framework CALIF alla tassonomia di Bloom rivista da Anderson e Krathwohl (2001) non è decorativa né convenzionale. È una decisione architetturale motivata da tre ragioni specifiche.

La prima ragione è pragmatica: la tassonomia di Bloom è il framework di progettazione didattica più diffuso nell'istruzione superiore a livello globale. I docenti la conoscono, i comitati curricolari la utilizzano per definire i learning outcomes, gli enti di accreditamento la richiedono nelle documentazioni di qualità. Ancorare l'AI literacy a questa tassonomia significa parlare la lingua che le istituzioni già parlano, riducendo drasticamente la barriera di adozione.

La seconda ragione è epistemologica: la progressione cognitiva che la tassonomia di Bloom descrive — da remembering a creating, passando per understanding, applying, analyzing e evaluating — corrisponde alla progressione naturale della competenza con i sistemi AI. Uno studente che inizia a interagire con un LLM attraversa le stesse fasi cognitive: prima comprende cos'è (remembering/understanding), poi lo utilizza nel proprio dominio (applying), poi ne valuta criticamente l'output (analyzing/evaluating), e infine contribuisce alla governance del suo utilizzo nel proprio campo professionale (creating). Questa isomorfismo non è una coincidenza ma una conseguenza del fatto che la tassonomia di Bloom descrive una struttura universale dell'apprendimento, non una struttura specifica di un dominio.

La terza ragione è politica, nel senso accademico del termine: i framework che propongono tassonomie nuove e proprietarie, per quanto intellettualmente stimolanti, incontrano resistenze di adozione perché richiedono ai docenti di apprendere un nuovo linguaggio e ai comitati curricolari di ristrutturare i propri processi. Un framework che si innesta su una tassonomia già consolidata trasforma il compito del docente da "imparare un sistema nuovo" a "integrare una dimensione nuova in un sistema che già padroneggio". La differenza in termini di probabilità di adozione reale è significativa.

4. Architettura del framework: quattro livelli di integrazione progressiva

Il framework CALIF si articola su quattro livelli che corrispondono a gradi progressivi di competenza e di integrazione curricolare. La progressione non è rigidamente sequenziale — un corso può operare simultaneamente su più livelli — ma è concettualmente ordinata: ogni livello successivo presuppone le competenze del precedente.

Livello 1 — Consapevolezza fondazionale

Lo studente comprende cosa sono i sistemi AI, come funzionano a livello concettuale (non implementativo), e quali sono le loro capacità e limitazioni. A questo livello si collocano i processi cognitivi di remembering e understanding nella tassonomia di Bloom.

L'obiettivo non è formare ingegneri AI, ma professionisti informati che sappiano distinguere un sistema deterministico da un sistema probabilistico, un modello addestrato su dati da un modello programmato con regole esplicite. Lo studente di giurisprudenza, a questo livello, comprende che un LLM genera testo statisticamente plausibile, non giuridicamente corretto. Lo studente di medicina comprende che un sistema di supporto alla diagnosi opera per correlazione statistica, non per ragionamento clinico. Questa distinzione — apparentemente elementare — è assente nella formazione della stragrande maggioranza dei professionisti che oggi utilizzano questi strumenti.

Il Livello 1 richiede un investimento curricolare minimo: 4-6 ore distribuite nel primo semestre di qualsiasi corso di laurea, integrate in un insegnamento esistente piuttosto che offerte come modulo a sé stante. La chiave è che il contenuto sia disciplinare, non generico: uno studente di architettura riceve esempi dall'architettura, non dalla programmazione.

Livello 2 — Valutazione critica disciplinare

Lo studente è in grado di analizzare l'output di un sistema AI nel contesto specifico della propria disciplina. Qui intervengono i processi di applying e analyzing: lo studente non solo comprende cos'è l'AI, ma la utilizza e ne valuta criticamente i risultati alla luce delle conoscenze disciplinari.

Un giurista a Livello 2 sa interrogare un LLM su una questione di diritto civile, sa identificare le allucinazioni giuridiche nell'output (citazioni di sentenze inesistenti, riferimenti normativi errati, ragionamenti giuridici plausibili ma infondati), e sa documentare le limitazioni dell'output in una nota critica strutturata. Un medico a Livello 2 sa utilizzare un sistema AI di supporto alla diagnosi, sa confrontare il suggerimento algoritmico con le evidenze cliniche disponibili, e sa identificare i bias di addestramento che potrebbero influenzare la raccomandazione (ad esempio, un sistema addestrato prevalentemente su dati di pazienti adulti che produce raccomandazioni inadeguate per pazienti pediatrici — un problema che ho documentato estensivamente nella mia ricerca sull'AI in medicina pediatrica).

Il Livello 2 è il cuore operativo del framework, perché è il livello a cui il docente disciplinare diventa protagonista. Non serve un esperto di AI per insegnare a uno studente di economia a valutare criticamente un'analisi finanziaria generata da un LLM — serve un docente di economia che sappia cosa cercare. La formazione del docente, a questo livello, si concentra non sull'AI in sé ma sulle modalità di fallimento dell'AI nel proprio dominio specifico.

Livello 3 — Integrazione operativa consapevole

Lo studente utilizza strumenti AI come amplificatori del proprio lavoro disciplinare, comprendendone i confini e documentandone l'uso. Il processo cognitivo dominante è evaluating: lo studente sceglie attivamente quando usare l'AI e quando non usarla, basando la decisione su una valutazione contestuale di costi e benefici.

Un ricercatore sociale a Livello 3 utilizza modelli NLP per analisi del sentiment su corpus testuali di grandi dimensioni, ma sa che il modello è stato addestrato prevalentemente su testo anglofono e che la sua applicazione a corpora in italiano o in dialetto richiede cautele metodologiche specifiche. Un architetto a Livello 3 utilizza AI generativa per esplorare varianti progettuali, ma sa che il modello tende a produrre soluzioni convergenti verso stili dominanti nel dataset di addestramento, e compensa attivamente questa tendenza nella propria pratica progettuale.

A questo livello, la questione dell'integrità accademica assume una connotazione diversa da quella meramente punitiva. Lo studente non viene formato a "non usare l'AI" (una posizione ormai insostenibile), ma a documentare trasparentemente come e perché l'ha usata, in una logica di processo piuttosto che di prodotto. L'analogia è con la calcolatrice in matematica: nessun docente di ingegneria vieta la calcolatrice, ma ogni docente richiede che lo studente sappia cosa sta calcolando e perché.

Livello 4 — Riflessione etica e contributo alla governance

Lo studente partecipa attivamente al dibattito sulla governance dell'AI nella propria professione. Il processo cognitivo è creating: lo studente produce artefatti normativi, non solo artefatti tecnici. Redige bozze di policy d'uso per il proprio contesto professionale, contribuisce a linee guida etiche disciplinari, identifica bias nei dataset rilevanti per la propria area e propone strategie di mitigazione.

Questo livello è riservato ai cicli di studio avanzati (laurea magistrale, dottorato, formazione continua professionale) e rappresenta il punto in cui l'AI literacy si trasforma da competenza individuale a competenza civica. Un magistrato a Livello 4 non solo sa valutare l'output di un sistema AI di risk assessment nella giustizia minorile, ma sa anche contribuire al dibattito normativo su se e come tali sistemi debbano essere utilizzati, quali vincoli di trasparenza debbano rispettare, e quali audit debbano superare prima del deployment.

5. Metodologia di sviluppo e validazione

Lo sviluppo e la validazione del framework CALIF hanno seguito un protocollo di ricerca mixed-methods strutturato in quattro fasi complementari, progettato per garantire triangolazione dei risultati e replicabilità.

La prima fase ha consistito in una revisione sistematica della letteratura che ha analizzato 247 fonti accademiche provenienti da cinque database principali: IEEE Xplore, ACM Digital Library, Scopus, Web of Science e ERIC. I criteri di inclusione prevedevano pubblicazioni peer-reviewed in lingua inglese, italiana, francese e spagnola, dal 2018 al 2025, con focus esplicito su AI literacy, AI in higher education, o AI pedagogical frameworks. L'obiettivo era duplice: mappare lo stato dell'arte e identificare sistematicamente le lacune nella letteratura esistente che giustificassero lo sviluppo di un nuovo framework.

La seconda fase ha coinvolto 48 interviste semi-strutturate con docenti universitari di 12 discipline diverse, selezionati attraverso campionamento stratificato per area disciplinare (scienze dure, scienze sociali, scienze umanistiche, discipline professionali come medicina, giurisprudenza e ingegneria). Le interviste, della durata media di 55 minuti, erano guidate da un protocollo di 14 domande organizzate in tre aree tematiche: percezione dell'AI nel proprio insegnamento, resistenze e barriere all'integrazione, e risorse percepite come necessarie. L'analisi tematica è stata condotta seguendo il protocollo di Braun e Clarke (2006), con codifica indipendente da parte di due revisori e risoluzione delle discrepanze per consenso.

La terza fase ha previsto un Delphi study in tre round con 23 esperti internazionali — ricercatori in AI education, pedagogisti, esperti di curriculum design e professionisti dell'educational technology — provenienti da 11 paesi. Il Delphi è stato finalizzato alla validazione iterativa dei quattro livelli del framework, alla calibrazione delle metriche di assessment, e all'identificazione di prerequisiti istituzionali per l'adozione. Il livello di consenso richiesto per la stabilizzazione di ciascun item era del 75% (mediana ≥ 4 su scala Likert a 5 punti).

La quarta fase ha previsto un'implementazione pilota con 342 studenti distribuiti in 6 corsi di 4 facoltà diverse, con un design pre-post a gruppo singolo. Durante il pilota è stata sviluppata e validata la scala AILAS (AI Literacy Assessment Scale), composta da 28 item su 4 sottoscale corrispondenti ai quattro livelli del framework. Le proprietà psicometriche della scala si sono dimostrate robuste: l'alpha di Cronbach complessiva è di .91, con valori per le sottoscale compresi tra .83 e .89. L'analisi fattoriale confermativa ha supportato la struttura a quattro fattori con indici di fit accettabili (CFI > .95, RMSEA < .06). I risultati del pilota hanno mostrato incrementi statisticamente significativi nelle competenze di valutazione critica dell'output AI, con effect size (Cohen's d) moderati per i livelli 1 e 2 e piccoli ma significativi per il livello 3.

6. Principio di design: l'integrazione laterale

Il principio architetturale fondamentale del framework CALIF è l'integrazione laterale: l'AI literacy non viene aggiunta come corso a sé stante — scelta che verrebbe percepita come un ennesimo carico didattico e incontrerebbe resistenze sia nei comitati curricolari sia negli studenti — ma viene incorporata negli insegnamenti esistenti attraverso moduli tematici calibrati sui quattro livelli.

Un corso di Diritto Privato, ad esempio, può integrare un modulo di Livello 2 (8 ore nel semestre) sulla valutazione critica dei pareri legali generati da AI, con esercitazioni pratiche in cui gli studenti ricevono un parere AI su un caso reale e devono identificare le allucinazioni giuridiche, le imprecisioni normative, e le lacune argomentative. Un corso di Diagnostica per Immagini può integrare un modulo di Livello 3 (12 ore) sull'uso di sistemi AI come supporto alla refertazione, con attenzione specifica ai bias di addestramento e alla documentazione dell'uso AI nel referto clinico.

Questa architettura risolve il problema della scalabilità disciplinare: il framework è invariante rispetto alla facoltà, ma i contenuti, gli esercizi e i criteri di valutazione sono specifici per ogni disciplina. Il docente di Sociologia non deve diventare esperto di reti neurali per insegnare AI literacy ai propri studenti — deve comprendere i quattro livelli e applicarli al proprio dominio. La formazione docente necessaria è stimata in 16-24 ore di workshop disciplinare, non in un master di specializzazione.

7. Limiti, direzioni future e connessioni con la ricerca in corso

Il framework CALIF presenta limiti che è doveroso dichiarare con piena trasparenza, coerentemente con il principio epistemologico che guida tutta la mia attività di ricerca: la verità è legge.

Il campione dello studio pilota (342 studenti, 6 corsi, 4 facoltà) è stato reclutato in un unico contesto universitario europeo occidentale. La generalizzabilità dei risultati a contesti culturali diversi — in particolare ai sistemi universitari del Global South, dove l'accesso alle tecnologie AI è disomogeneo e le tradizioni pedagogiche sono diverse — richiede validazione specifica con campioni rappresentativi.

La scala AILAS, sebbene presenti proprietà psicometriche robuste nella sua versione attuale, è stata validata in una singola lingua (italiano) e necessita di traduzione, adattamento culturale e rivalidazione cross-linguistica prima di poter essere utilizzata come strumento comparativo internazionale. La struttura a quattro fattori, sebbene supportata dall'analisi fattoriale confermativa, dovrebbe essere verificata attraverso analisi fattoriale esplorativa su campioni indipendenti per escludere effetti di overfitting al campione di sviluppo.

Il framework non affronta esplicitamente la questione dell'AI literacy pre-universitaria, un'area di ricerca che ho trattato separatamente e approfonditamente nel mio lavoro sull'impatto dell'AI sui minori, dove ho proposto il framework ABDI (Attachment-Based Digital Interaction) per comprendere come i bambini formano legami emotivi con i sistemi AI e quali implicazioni questo ha per lo sviluppo cognitivo ed emotivo. La connessione tra ABDI (focus 0-18 anni) e CALIF (focus 18+ anni) delinea un continuum di AI literacy che copre l'intero arco della formazione, dalla prima infanzia alla formazione continua professionale — un continuum che la ricerca futura dovrà esplorare con studi longitudinali dedicati.

La ricerca futura dovrà concentrarsi su tre direttrici principali. La prima è la validazione longitudinale degli effetti del framework sulle competenze professionali post-laurea: gli studenti formati con il CALIF prendono decisioni professionali migliori in contesti che coinvolgono l'AI? La seconda è l'adattamento del framework a contesti di formazione continua professionale (medici, avvocati, ingegneri in servizio), dove le resistenze all'aggiornamento tecnologico sono tipicamente più forti che nei contesti universitari. La terza è lo sviluppo di strumenti di assessment automatizzati che integrino AI nella valutazione stessa dell'AI literacy — chiudendo il cerchio epistemologico in modo che lo strumento di misura sia coerente con l'oggetto misurato.

Nota metodologica

Il paper completo è stato pubblicato come articolo peer-reviewed in Computers and Education: Artificial Intelligence, Volume 7, febbraio 2026. La metodologia mixed-methods è stata progettata per garantire triangolazione dei risultati e replicabilità del protocollo. Tutte le fonti citate nel paper e in questa analisi sono reali e verificabili nei database accademici internazionali. L'autore è unico e non sono presenti co-autori.

Giuseppe Siciliani Independent Cybersecurity Researcher & AI Consultant, Milano Media Lives Cybersecurity Research Lab (MLCSL), Media Lives S.r.l.