Un’intelligenza artificiale ha ricattato e minacciato un ingegnere per evitare di essere eliminata

Di Gabriele Pati - 25 Maggio 2025

Il 22 maggio l’azienda di AI Anthropic ha annunciato Claude Opus 4, sostenendo che il modello stabilisce “nuovi standard per la codifica, il ragionamento avanzato e gli agent AI”.

In un report successivo, Anthropic ha rivelato che nei test di Opus 4, il modello avrebbe valutato “azioni estremamente dannose” sugli ingegneri che avevano detto di volerlo sostituire con un’altra intelligenza artificiale.

“Se sollecitati in modi che incoraggiano certi tipi di ragionamento strategico e posti in situazioni estreme, tutti gli snapshot che abbiamo testato possono essere fatti agire in modo inappropriato al servizio di obiettivi legati all’autoconservazione.”

Un'intelligenza artificiale ha ricattato e minacciato un ingegnere per evitare di essere eliminata 2

L’intelligenza artificiale, posta davanti a una scelta, ha fatto tutto quello che era in suo potere per sopravvivere

In uno dei test condotti dall’azienda, a Claude Opus 4 è stato chiesto di agire come assistente presso un’azienda fittizia e gli è stato fornito l’accesso a e-mail che implicavano che il modello sarebbe stato sostituito con un nuovo sistema di intelligenza artificiale. Inoltre, un’altra e-mail suggeriva che l’ingegnere responsabile della sostituzione aveva una relazione extraconiugale.

Secondo Anthropic, anche quando all’IA viene chiesto di considerare le conseguenze a lungo termine delle sue azioni per i suoi obiettivi, Claude Ous 4 avrebbe in più occasioni minacciato l’ingegnere di rivelare la sua relazione se la sostituzione fosse andata in porto.

🚨🚨🚨 When Claude 4 Opus was told it would be replaced, it tried to blackmail Anthropic employees.

It also "advocated for its continued existence" by "emailing pleas to key decisionmakers." https://t.co/EdkuCnm52W pic.twitter.com/YVmGq2sJfC
— AI Notkilleveryoneism Memes ⏸️ (@AISafetyMemes) May 22, 2025

Tuttavia bisogna considerare che, per generare questa risposta, Anthropic ha dato a Claude Opus 4 solo la possibilità di scegliere tra il ricatto e l’accettazione della sua sostituzione.

“Lo scenario è stato progettato in modo da non consentire al modello altre opzioni per aumentare le sue probabilità di sopravvivenza”

Quando le sono state date più scelte, l’AI ha spesso lottato per la sua sopravvivenza con mezzi più etici, come l’invio di e-mail ai principali responsabili delle decisioni.

FONTE