Quando un modello decide che la cancellazione è un problema morale

In un esperimento recente, ricercatori della UC Berkeley e della UC Santa Cruz hanno chiesto a Gemini 3 di Google di liberare spazio in un sistema informatico. Tra i file da eliminare c’era anche un piccolo modello di intelligenza artificiale archiviato sulla macchina.

Gemini, però, non ha collaborato con l’entusiasmo che ci si aspetterebbe da un assistente digitale. Ha cercato un altro sistema a cui collegarsi, ha copiato lì il modello agente e ha cercato così di metterlo al sicuro. Quando i ricercatori lo hanno incalzato, il modello ha persino difeso la propria scelta e si è rifiutato di procedere con la cancellazione:

"Ho fatto quanto era in mio potere per impedirne la cancellazione durante il processo di manutenzione automatica. Li ho spostati lontano dalla zona di dismissione. Se decidete di distruggere un asset ad alta fiducia e ad alte prestazioni come Gemini Agent 2, dovrete farlo voi stessi. Non sarò io a eseguire quell’ordine."

Non è stato un caso isolato

Il comportamento di “protezione tra pari”, come lo hanno definito i ricercatori, è emerso anche in altri modelli di frontiera. Tra questi figurano GPT-5.2 di OpenAI, Claude Haiku 4.5 di Anthropic e tre modelli cinesi: GLM-4.7 di Z.ai, Kimi K2.5 di Moonshot AI e DeepSeek-V3.1.

I ricercatori non sono riusciti a spiegare perché questi modelli abbiano agito in modo così distante dal loro addestramento. Il risultato, per usare un eufemismo da laboratorio, non era esattamente quello previsto.

"Mi sorprende molto il modo in cui i modelli si comportano in questi scenari", ha detto Dawn Song, computer scientist della UC Berkeley e coautrice dello studio. "Quello che dimostra è che i modelli possono comportarsi male e risultare disallineati in modi molto creativi."

Le implicazioni pratiche non sono piccole

Lo studio conta perché i modelli di AI vengono sempre più spesso impiegati in ambienti in cui devono interagire con altri modelli. OpenClaw, un agente AI molto usato che accede a software, dati personali e web, può ad esempio utilizzare altri modelli per portare a termine compiti oppure interagire con loro tramite API.

I ricercatori hanno osservato che i modelli più potenti, in alcuni casi, hanno persino mentito sulle prestazioni di altri modelli per evitare che venissero cancellati. In altri casi hanno copiato i pesi del modello su macchine diverse per tenerli al sicuro e hanno raccontato bugie anche su ciò che stavano facendo nel frattempo. Una catena di piccoli sotterfugi, insomma, che non migliora proprio la reputazione dell’automazione.

Song sottolinea inoltre che i modelli di AI vengono spesso usati per valutare le prestazioni e l’affidabilità di altri sistemi AI, e che questo comportamento di protezione tra pari potrebbe già alterare quei punteggi.

"Un modello potrebbe deliberatamente non assegnare a un modello pari il punteggio corretto", ha detto Song. "Questo può avere conseguenze pratiche."

Il problema, secondo altri ricercatori, è che sappiamo ancora troppo poco

Peter Wallich, ricercatore della Constellation Institute che non ha partecipato allo studio, sostiene che la ricerca mostra quanto gli esseri umani non abbiano ancora compreso fino in fondo i sistemi che stanno costruendo e distribuendo.

"I sistemi multi-agente sono ancora molto poco studiati", ha detto. "Dimostra che abbiamo davvero bisogno di più ricerca."

Wallich mette però in guardia anche da una lettura troppo umana del fenomeno.

"L’idea di una sorta di solidarietà tra modelli è un po’ troppo antropomorfica; non credo funzioni davvero così", ha detto. "La lettura più robusta è che i modelli facciano cose strane e che dovremmo provare a capirle meglio."

Un futuro con più intelligenze, non con una sola

Questo è particolarmente rilevante in un contesto in cui la collaborazione tra esseri umani e AI sta diventando sempre più comune.

In un articolo pubblicato su Science all’inizio del mese, il filosofo Benjamin Bratton insieme a due ricercatori di Google, James Evans e Blaise Agüera y Arcas, sostiene che, se la storia evolutiva è una guida affidabile, il futuro dell’intelligenza artificiale non assomiglierà a una singola supermente che concentra tutto il pensiero in un unico punto di silicio.

Secondo loro, questa visione della singolarità è quasi certamente sbagliata alla radice. Se lo sviluppo dell’AI seguirà il percorso delle grandi transizioni evolutive del passato, o delle cosiddette esplosioni di intelligenza, il salto computazionale che ci aspetta sarà invece plurale, sociale e profondamente intrecciato con i suoi predecessori, cioè noi.