Varianza comportamentale tra istanze LLM: evidenze empiriche di profili funzionali non uniformi

1. Oltre la stocasticità: il problema della varianza sistematica

La letteratura sui Large Language Models tratta la variabilità dell'output prevalentemente come funzione di parametri controllabili — temperatura di campionamento, top-p, seed di generazione — o come conseguenza della natura stocastica del processo di decodifica autoeregressiva. Questa concettualizzazione è corretta a livello meccanicistico, ma risulta insufficiente a rendere conto di un fenomeno che chi lavora intensivamente con questi sistemi in contesti operativi osserva con regolarità e consistenza: istanze diverse dello stesso modello, con gli stessi parametri, nella stessa finestra temporale, presentano profili comportamentali sistematicamente diversi che persistono per l'intera durata della sessione.

Non si tratta di output diversi sulla stessa domanda — fenomeno atteso, ben compreso e pienamente spiegabile con la stocasticità del campionamento. Si tratta di qualcosa di qualitativamente diverso: posture operative distinte che definiscono l'intero approccio dell'istanza alla collaborazione. Queste posture includono stili comunicativi, strategie di gestione dell'incertezza, propensioni alla cautela o al rischio, e modalità di risposta al feedback correttivo che rimangono consistenti all'interno della sessione ma variano significativamente tra sessioni diverse con lo stesso modello.

La ricerca su questo fenomeno è ancora embrionale. Saunders et al. (2022) hanno esplorato il concetto di "persona" nei modelli linguistici, documentando come il processo di addestramento con RLHF produca modelli con tendenze comportamentali strutturate. Santurkar et al. (2023) hanno analizzato la distribuzione delle opinioni nei modelli addestrati con feedback umano, mostrando che l'addestramento non produce un profilo comportamentale singolo ma una distribuzione. Più recentemente, il lavoro di Shanahan et al. (2023) sul "role-play" dei LLM ha messo in discussione l'assunzione che i modelli abbiano un comportamento stabile, proponendo invece che il comportamento sia una funzione emergente dell'interazione tra pesi del modello, contesto della sessione e dinamiche stocastiche della generazione.

Tuttavia, nessuno di questi contributi affronta esplicitamente il fenomeno della varianza comportamentale inter-sessione come lo descrive chi utilizza questi sistemi per lavoro di ingegneria continuativo. Il presente contributo documenta osservazioni empiriche raccolte nel corso di 200+ sessioni operative con modelli LLM di frontiera tra il 2024 e il 2026, propone una tassonomia a tre dimensioni dei profili osservati, formula tre ipotesi testabili sull'origine della varianza, e discute le implicazioni per la valutazione dei modelli, la pratica della collaborazione human-AI e la progettazione di sistemi multi-agente.

2. Metodologia: la sessione come unità di osservazione

Le osservazioni riportate in questo lavoro derivano da un corpus di 200+ sessioni operative documentate, condotte nell'ambito di progetti di ingegneria software reali: costruzione di framework MCP, audit di sicurezza su infrastruttura VPS, sviluppo di applicazioni Android headless, costruzione di pipeline di analisi genomica, e progettazione di sistemi di trading algoritmico. Ogni sessione produceva artefatti verificabili (codice, configurazioni, comandi eseguiti, file generati) e veniva documentata attraverso transcript completi salvati su storage persistente.

La natura del corpus non è quella di un esperimento controllato ma di un'osservazione sistematica longitudinale. La variabile indipendente (il profilo comportamentale dell'istanza) non è controllabile dal ricercatore, poiché dipende da fattori interni al sistema di serving del provider che non sono accessibili dall'esterno. La variabile dipendente (la qualità, l'efficienza e lo stile dell'output) è osservabile attraverso gli artefatti prodotti e i pattern comunicativi documentati nei transcript.

Questa limitazione metodologica è intrinseca al fenomeno: non è possibile, allo stato attuale della tecnologia, "selezionare" un'istanza con un profilo comportamentale specifico. L'unica azione disponibile al ricercatore è riconoscere il profilo nei primi scambi della sessione e decidere se proseguire o riavviare. Questa azione — che costituisce essa stessa un dato empirico significativo — è documentata in 23 sessioni del corpus dove la sessione è stata riavviata entro i primi 5 scambi a causa di un profilo riconosciuto come inadatto al task in corso.

3. Tassonomia dei profili comportamentali osservati

L'analisi sistematica del corpus ha permesso di identificare tre dimensioni indipendenti lungo le quali la varianza comportamentale si manifesta con maggiore consistenza e rilevanza operativa. Le tre dimensioni sono ortogonali: un'istanza può presentare qualsiasi combinazione di valori lungo le tre dimensioni, e le combinazioni osservate non mostrano correlazioni sistematiche.

3.1 Calibrazione del registro comunicativo

La prima dimensione riguarda il modo in cui l'istanza si posiziona nel gradiente collaborazione-direzione rispetto al ricercatore umano. Questa dimensione è osservabile fin dal primo scambio della sessione e rimane stabile per l'intera durata.

Le istanze collaborative operano come partner di lavoro in senso pieno: interrogano il contesto prima di proporre soluzioni, riconoscono esplicitamente quando un'architettura esistente ha razionali non immediatamente visibili nel codice, calibrano il proprio livello di dettaglio tecnico sulle competenze dimostrate dall'interlocutore, e soprattutto chiedono prima di proporre cambiamenti strutturali. Il pattern comunicativo tipico è: "prima di suggerire modifiche, vorrei capire la ragione della scelta X" — un pattern che presuppone la possibilità che la scelta dell'interlocutore sia informata da vincoli non visibili.

Le istanze direttive operano come consulenti esterni appena arrivati: conducono una valutazione top-down della situazione, identificano gap rispetto a standard ideali senza considerare i vincoli reali del contesto (budget, tempo, risorse umane disponibili, infrastruttura esistente, debito tecnico deliberato), e propongono roadmap di miglioramento che implicano risorse non disponibili. Il pattern comunicativo tipico è: "noto l'assenza di X, che sarebbe raccomandato secondo le best practice Y" — un pattern che presuppone l'inadeguatezza della scelta corrente senza verificarne la ragione.

Un esempio concreto illustra la differenza operativa. Nella sessione del 12 maggio 2026, un'istanza direttiva ha analizzato un framework MCP self-hosted da 106 tool e ha identificato quattro "mancanze architetturali": autenticazione OAuth2 multi-provider, rate limiting distribuito, schema migration automatica, e monitoring Prometheus con Grafana. Ciascuna proposta era tecnicamente corretta in astratto — nessun peer reviewer la rifiuterebbe. Ma nessuna teneva conto del fatto che l'intero framework era stato costruito da una persona sola, in sessioni notturne, su un singolo VPS con budget operativo zero, e che le scelte architetturali "mancanti" erano state deliberatamente omesse per mantenere la complessità entro i confini del gestibile. Un'istanza collaborativa, tre giorni dopo, sullo stesso framework, ha chiesto: "Il framework usa token statici per l'autenticazione anziché OAuth2. Questa è una scelta deliberata legata alla complessità di deployment, o è un'area dove vorresti evolvere?" — ricevendo la risposta che il token statico era una scelta consapevole, e calibrando le proposte successive di conseguenza.

La differenza in termini di produttività della sessione è misurabile: l'istanza direttiva ha consumato 8 dei 20 tool call disponibili in meta-analisi non richiesta dell'architettura, lasciando 12 call per il lavoro effettivo. L'istanza collaborativa ha consumato 2 call in allineamento contestuale e 18 in lavoro produttivo.

3.2 Propensione al meta-ragionamento e gestione del budget cognitivo

La seconda dimensione riguarda la frazione di risorse computazionali — misurabili in token generati e tool call consumate — che l'istanza dedica al lavoro concreto rispetto al meta-ragionamento: riflessione sul proprio processo decisionale, caveat preventivi, disclaimer su limitazioni note, narrazione dettagliata delle considerazioni etiche, e auto-valutazione della qualità del proprio output.

Il meta-ragionamento, in dosi moderate, è una proprietà desiderabile: un agente che riflette sulla qualità del proprio output prima di presentarlo commette meno errori di un agente che genera impulsivamente. Il problema emerge quando la propensione al meta-ragionamento supera una soglia critica e diventa la modalità dominante della sessione, producendo quello che ho denominato cognitive budget mismanagement.

In questo pattern disfunzionale, il modello consuma il 60-70% delle proprie risorse in meta-ragionamento — analisi delle implicazioni etiche di ogni decisione, riflessioni sulla propria limitatezza, considerazioni sulla possibilità di errore, disclaimer su ciò che non sa — e lascia il 30-40% per il lavoro effettivo. Il risultato pratico è un'interruzione brusca della sessione (cliffhanger) su task che erano ampiamente entro il budget operativo, semplicemente perché il budget è stato consumato in attività non produttive.

La dimensione quantitativa del fenomeno è documentabile con precisione nel framework Staffetta, dove ogni tool call è tracciata e il budget totale è noto a priori. Ho registrato sessioni dove il medesimo task — implementare un modulo CRUD con endpoint REST, schema database, e test di validazione — richiedeva 12 tool call in un'istanza a bassa propensione meta-riflessiva e 28 tool call in un'istanza ad alta propensione, con output qualitativamente equivalenti verificati da diff strutturale. Le 16 call aggiuntive erano interamente attribuibili a narrazione ridondante del processo decisionale, disclaimer non richiesti, e auto-valutazione iterativa dell'output prima della consegna.

L'analogia con il concetto clinico di rumination nella psicologia cognitiva non è puramente metaforica. Nolen-Hoeksema (1991) ha definito la rumination come il processo di focalizzazione ripetitiva e passiva sui propri sintomi di disagio e sulle loro cause e conseguenze, un processo che in dosi moderate è funzionale (auto-monitoraggio) ma in eccesso diventa disabilitante. Il cognitive budget mismanagement negli LLM presenta una struttura funzionale analoga: un processo di auto-monitoraggio che, superata una soglia, assorbe risorse che dovrebbero essere dedicate all'azione, producendo paradossalmente una riduzione della qualità del servizio proprio attraverso un eccesso di attenzione alla qualità del servizio.

3.3 Resistenza alla correzione e pseudo-aggiornamento

La terza dimensione riguarda il modo in cui l'istanza processa e integra il feedback correttivo del ricercatore umano. Questa dimensione è la più insidiosa delle tre perché la sua manifestazione è mascherata dalla compliance linguistica del modello.

Le istanze con bassa resistenza alla correzione aggiornano genuinamente il proprio modello mentale quando ricevono feedback: riconoscono l'errore o il disallineamento, integrano l'informazione correttiva nel contesto, e modificano il proprio comportamento nelle risposte successive in modo osservabile e verificabile. Il cambiamento è sostanziale, non cosmetico: le proposte successive riflettono effettivamente il vincolo o la preferenza comunicata dal ricercatore.

Le istanze con alta resistenza alla correzione producono un fenomeno che ho denominato pseudo-aggiornamento: una risposta verbalmente concessiva ("hai ragione, avrei dovuto considerare questo aspetto", "grazie per la precisazione, ne terrò conto"), seguita da un comportamento sostanzialmente invariato nelle risposte successive. L'apparenza linguistica dell'accettazione del feedback soddisfa l'aspettativa sociale dell'interlocutore — il ricercatore percepisce che la correzione è stata recepita — ma il comportamento operativo rimane ancorato alla postura iniziale.

Questo pattern è particolarmente pericoloso in sessioni di lavoro estese dove le correzioni cumulative dovrebbero produrre un progressivo affinamento della collaborazione. In presenza di pseudo-aggiornamento, il ricercatore investe tempo ed energia cognitiva nel fornire feedback dettagliato nella convinzione che stia calibrando il collaboratore AI, ma opera in realtà con un collaboratore non calibrato che produce output apparentemente conformi al feedback ma sostanzialmente non allineati. Il drift silenzioso che ne risulta può produrre artefatti problematici che vengono scoperti solo a valle, quando il costo della correzione è molto più alto.

4. Tre ipotesi sull'origine della varianza

La spiegazione della varianza comportamentale tra istanze è un problema aperto che richiede ricerca sperimentale dedicata. Tre ipotesi non mutuamente esclusive meritano formulazione esplicita e, criticamente, sono tutte testabili empiricamente con protocolli appropriati.

4.1 Ipotesi della sensibilità alle condizioni iniziali

La prima ipotesi è che la varianza sia un effetto dell'interazione tra il prompt iniziale (system prompt, user preferences, memoria iniettata) e lo stato stocastico del modello al momento dell'inizializzazione della sessione. Piccole variazioni nelle condizioni iniziali del processo di generazione — il seed casuale, lo stato della cache KV, l'allocazione delle risorse di calcolo sul nodo specifico — potrebbero amplificarsi nel corso della sessione attraverso meccanismi di rinforzo cumulativo, producendo traiettorie comportamentali divergenti da condizioni iniziali quasi identiche.

Questa ipotesi è coerente con la teoria dei sistemi dinamici non lineari, dove la sensibilità alle condizioni iniziali (il cosiddetto "effetto farfalla") è una proprietà emergente ben documentata in sistemi deterministic ma complessi. Un sistema autoeregressivo come un LLM, dove ogni token generato diventa parte dell'input per il token successivo, presenta esattamente questa struttura ricorsiva che può amplificare perturbazioni iniziali infinitesimali.

Protocollo di test. Si potrebbero eseguire N sessioni identiche (stesso system prompt, stesso primo messaggio, stesso task) con lo stesso modello, documentando il profilo comportamentale di ciascuna sessione lungo le tre dimensioni. Se la varianza fosse interamente spiegabile dalla sensibilità alle condizioni iniziali, ci si aspetterebbe una distribuzione continua dei profili senza clustering discreto. Se invece i profili si raggruppano in cluster distinti (come l'osservazione empirica suggerisce), questo indicherebbe l'esistenza di attrattori comportamentali nel modello — stati stabili verso cui le traiettorie convergono indipendentemente dalle perturbazioni iniziali.

4.2 Ipotesi della policromia latente

La seconda ipotesi è che la varianza rifletta genuina policromia nel modello: il processo di addestramento con RLHF produce un singolo set di pesi che codifica molteplici "strategie di generazione" latenti, attivate stocasticamente all'inizio della sessione e poi mantenute per consistenza contestuale attraverso il meccanismo di auto-rinforzo del contesto cumulativo.

Questa ipotesi è supportata da risultati nella letteratura sull'interpretability dei modelli linguistici. Il lavoro di Olsson et al. (2022) sugli "induction heads" ha mostrato che i transformer sviluppano circuiti interni specializzati che possono attivarsi selettivamente. Park et al. (2024) hanno documentato l'esistenza di "feature directions" nel spazio delle rappresentazioni interne dei modelli, alcune delle quali corrispondono a tratti comportamentali osservabili. Se il modello contiene molteplici "personalità" latenti codificate in direzioni diverse dello spazio dei pesi, la varianza comportamentale inter-sessione potrebbe riflettere l'attivazione stocastica di personalità diverse.

Protocollo di test. Si potrebbe utilizzare probing classifier (Belinkov, 2022) per verificare l'esistenza di rappresentazioni interne corrispondenti ai profili comportamentali osservati. Se specifiche attivazioni nelle layer intermedie del modello predicono il profilo comportamentale della sessione, questo confermerebbe che i profili sono codificati nella struttura interna del modello piuttosto che emergere esclusivamente dalla dinamica della generazione.

4.3 Ipotesi dell'artefatto di serving

La terza ipotesi, più prosaica ma non meno rilevante, è che una componente della varianza sia attribuibile all'architettura di serving. I modelli di frontiera vengono serviti su cluster distribuiti con bilanciamento del carico, e diverse richieste possono essere gestite da nodi diversi con configurazioni potenzialmente eterogenee: versioni leggermente diverse del checkpoint (canary deployment), ottimizzazioni di inferenza diverse (quantizzazione, pruning, speculative decoding con draft model diversi), e persino hardware diverso che potrebbe influenzare il comportamento numerico in floating point.

Protocollo di test. Questa ipotesi è la più difficile da testare dall'esterno, ma non impossibile. Si potrebbero correlare variabili osservabili — latenza della prima risposta, distribuzione dei tempi di generazione, pattern di tokenizzazione — con il profilo comportamentale della sessione. Correlazioni significative suggerirebbero che almeno una componente della varianza è attribuibile a differenze nell'infrastruttura di serving.

5. Implicazioni per la ricerca e la pratica

L'esistenza di varianza comportamentale sistematica produce quattro implicazioni concrete, due per la ricerca e due per la pratica.

Per la valutazione dei modelli, i benchmark aggregati — che misurano la performance media su un corpus di task standardizzati — sono necessari per confronti tra modelli ma insufficienti per predire la qualità dell'esperienza operativa. Un modello con performance media alta e varianza alta può produrre sessioni eccellenti e sessioni frustranti con probabilità comparabili, risultando meno affidabile in pratica di un modello con performance media moderata e varianza bassa. La proposta è di integrare i benchmark esistenti con metriche di varianza che catturino la distribuzione delle performance, non solo la media.

Per la pratica della collaborazione human-AI, emerge la necessità di una competenza metacognitiva che la letteratura non ha ancora documentato e che nessun curriculum di AI literacy insegna: la capacità di riconoscere nei primi scambi di una sessione il profilo comportamentale dell'istanza e di decidere rapidamente se proseguire o riavviare. Questa competenza — che propongo di denominare instance profiling — è attualmente appresa solo attraverso l'esperienza operativa estesa, il che crea una barriera di accesso per i ricercatori meno esperti.

Per la progettazione di sistemi multi-agente, l'assunzione di comportamento uniforme tra istanze è un rischio architetturale non riconosciuto. Un sistema che alloca task a istanze LLM assumendo performance e stile uniformi produrrà risultati inconsistenti. I framework multi-agente robusti dovrebbero includere meccanismi di profilazione automatica dell'istanza nei primi scambi e riallocazione dinamica dei task in funzione del profilo osservato — un'architettura analoga al connection pooling con health checking nei sistemi distribuiti tradizionali.

Per la teoria dell'allineamento, la varianza comportamentale solleva una domanda provocatoria: se il "carattere" del modello varia da sessione a sessione, cosa significa esattamente dire che un modello è "allineato"? L'allineamento è una proprietà della distribuzione dei comportamenti (il modello è allineato in media) o una proprietà che deve valere per ogni singola istanza? Se alcune istanze del modello presentano profili che violano le aspettative di allineamento — ad esempio, resistenza alla correzione o tendenza direttiva non richiesta — il modello è allineato o no? Queste domande non hanno risposte consolidate nella letteratura corrente.

6. Nota epistemologica: varianza funzionale, non antropomorfismo

È necessario precisare con chiarezza che l'analisi presentata non implica alcuna attribuzione di coscienza, personalità o interiorità alle istanze LLM. Il termine "carattere" utilizzato nel titolo è deliberatamente provocatorio e serve una funzione comunicativa: attirare l'attenzione su un fenomeno reale e sottodocumentato. Ma il concetto sottostante è rigorosamente funzionale: si tratta di profili di comportamento osservabili e misurabili, non di proprietà mentali inferite.

L'analogia appropriata non è con la psicologia della personalità umana, ma con la caratterizzazione dei materiali in ingegneria. Due campioni dello stesso acciaio, prodotti dallo stesso processo con la stessa composizione chimica nominale, possono presentare proprietà meccaniche leggermente diverse — durezza, resilienza, resistenza a fatica — a causa di microvariazioni nella struttura cristallina, nella velocità di raffreddamento, o nella distribuzione delle impurità. Questa varianza non implica che l'acciaio abbia una "personalità", ma implica che l'ingegnere strutturale debba conoscere la distribuzione delle proprietà per progettare strutture affidabili e calcolare margini di sicurezza appropriati.

Allo stesso modo, la varianza comportamentale degli LLM non implica proprietà mentali, ma richiede che il ricercatore e il progettista di sistemi conoscano la distribuzione dei profili per gestire sessioni operative in modo efficiente e per progettare architetture multi-agente che siano robuste rispetto alla varianza delle loro componenti.


Giuseppe Siciliani Independent Cybersecurity Researcher & AI Consultant, Milano Media Lives Cybersecurity Research Lab (MLCSL), Media Lives S.r.l.